I can't log in
 
LSI
Accions del document

Lectures de tesis doctorals

Anunci del darrer pas cap al doctorat: la lectura.


LogoDelicious  Digg!

Novel Computational Methods for Large Scale Genome Comparison

Doctorand: Todd James Treanger

Director: Xavier Messeguer

Resum: L'abundància de dades genòmiques disponibles actualment sobre una àmplia varietat d'espècies proporciona una oportunitat sense precedent per comparar i contrastar les històries evolutives dels organismes. La identificació de ADN homòlegs ha estat una metodologia fonamental en els estudis evolutius, i aquesta identificació s'ha fet utilitzant la tècnica bioinformàtica d'alineament de seqüències, tècnica que s'ha demostrat prou versàtil per a comparar organismes propers i distants. En el cas de dues seqüències l’alineament global i local òptim requereix temps i espai O (m x n) respecte de les longituds m,n de les seqüències, la qual cosa fa inviable la seva utilització per a seqüències genòmiques. Aquest coll d'ampolla empitjora si tenim k seqüències ja que el cost té un comportament exponencial respecte k, O (nk), la qual cosa significa la inviabilitat de la tècnica també per a un nombre no gaire gran de seqüències curtes.

La finalitat d'aquesta tesi és el desenvolupament de nous algorismes i programari per a comparacions eficients globals i locals de múltiples genomes, i per a la aplicació d'aquest mètode per a l'estudi d'un cas de rellevància biològica. La investigació s'ha organitzat en base a d'aquest objectiu general en tres fases successives, específicament: (1) alineament de molts genomes d'espècies properes, (2) alineament local múltiple de repeticions entremesclades, i finalment, (3) l'aplicació d'aquestes tècniques a un estudi comparatiu dels genomes de la Nesseria.

En la primera fase, primer desenvolupem un algorisme eficient i una estructura de dades per facilitar la cerca de patrons comuns a varies seqüències, concretament per buscar las sub-seqüències úniques maximals (MUMs), obtenint millores significatives en temps i espai respecte els algorismes existents. Específicament, donats S1 … Sm genomes (on S1 és la llargada del genoma més curt), podem trobar els MUMs entre totes les seqüències en temps lineal O(|S1|+ … + Sm|) i espai lineal O(|S1|). Aquest algorisme s'ha implementat dins de l'aplicació bioinformàtica interactiva, M-GCAT, que permet construir i visualitzar eficientment les semblances i diferències entre molts genomes d'espècies propers. En la segona fase, presentem un nou mètode computacional per a l'alineament múltiple local de repeticions entremesclades. Aquest mètode ofereix un nou enfoco per a l'extensió de molts patrons encadenats, ajuntant l'alineament múltiple global amb una prova de homologia basada en els Models Ocults de Markov (HMM).

Hem implementat el nostre mètode en l'aplicació procrastAlign. En la fase 3, utilitzant els programes obtinguts a les dues fases anteriors, realitzem un estudi dels genomes de l'espècie Neisseria per esbrinar la propagació d'uns elements repetitius al llarg de l'evolució de l’espècie i entendre per què els patògens importants del grup de Neisseria tenen un intercanvi sexual de DNA per transformació natural.

En conclusió, les contribucions globals d'aquesta tesi s'han centrat en el disseny de noves estructures de dades, algorismes i programari per a la investigació comparativa dels genomes que s'han demostrat molt eficients i s'han implementat en programari lliure, a més de la demostració de la seva utilitat per comparar i contrastar històries evolutives d'organismes relacionats.

Dia: 25 de juny del 2008

Hora: 11:00h

Lloc: La sala del Llac, Campus Nord, edifici R.


Empirical Machine Translation and its Evaluation

Doctorand: Jesús Ángel Giménez Linares

Director: Dr. Lluís Màrquez Villodre

Resum: Aquesta tesi estudia l'aplicació de les tecnologies del Processament del Llenguatge Natural disponibles actualment al problema de la Traducció Automàtica basada en Mètodes Empírics i la seva Avaluació.

D'una banda, tractem el problema de l'avaluació automàtica. Hem analitzat les principals deficiències dels mètodes d'avaluació actuals, les quals es deuen, al nostre parer, als principis de qualitat superficials en els que es basen. En comptes de limitar-nos al nivell lèxic, proposem una nova direcció cap a avaluacions més heterogènies. El nostre enfocament es basa en el disseny d'un ric conjunt de mesures automàtiques destinades a capturar un ampli ventall d'aspectes de qualitat a diferents nivells lingüístics (lèxic, sintàctic i semàntic). Aquestes mesures lingüístiques han estat avaluades sobre diferents escenaris. El resultat més notable ha estat la constatació de que les mètriques basades en un coneixement lingüístic més profund (sintàctic i semàntic) produeixen avaluacions a nivell de sistema més fiables que les mètriques que es limiten a la dimensió lèxica, especialment quan els sistemes avaluats pertanyen a paradigmes de traducció diferents. Tanmateix, a nivell de frase, el comportament d'algunes d'aquestes mètriques lingüístiques empitjora lleugerament en comparació al comportament de les mètriques lèxiques. Aquest fet és principalment atribuïble als errors comesos pels processadors lingüístics. A fi i efecte de millorar l'avaluació a nivell de frase, a més de recórrer a la similitud lèxica en absència d'anàlisi lingüística, hem estudiat la possibilitat de combinar les puntuacions atorgades per mètriques a diferents nivells lingüístics en una sola mesura de qualitat. S'han presentat dues estratègies no paramètriques de combinació de mètriques, essent el seu principal avantatge no haver d'ajustar la contribució relativa de cadascuna de les mètriques a la puntuació global. A més, el nostre treball mostra com fer servir el conjunt de mètriques heterogènies per tal d'obtenir detallats informes d'anàlisi d'errors automàticament.

D'altra banda, hem estudiat el problema de la selecció lèxica en Traducció Automàtica Estadística. Amb aquesta finalitat, hem construït un sistema de Traducció Automàtica Estadística Castellà-Anglès basat en `phrases', i hem iterat en el seu cicle de desenvolupament, analitzant diferents maneres de millorar la seva qualitat mitjançant la incorporació de coneixement lingüístic. En primer lloc, hem estès el sistema a partir de la combinació de models de traducció basats en anàlisi sintàctica superficial, obtenint una millora significativa. En segon lloc, hem aplicat models de traducció discriminadors basats en tècniques
d'Aprenentatge Automàtic. Aquests models permeten una millor representació del context de traducció en el que les `phrases' ocorren, efectivament conduint a una millor selecció lèxica. No obstant, a partir d'avaluacions automàtiques heterogènies i avaluacions manuals, hem observat que les millores en selecció lèxica no comporten necessàriament una millor estructura sintàctica o semàntica. Així doncs, la incorporació d'aquest tipus de prediccions en el marc estadístic requereix, per tant, un estudi més profund.

Com a qüestió complementària, hem estudiat una de les principals crítiques en contra dels sistemes de traducció basats en mètodes empírics, la seva forta dependència del domini, i com els seus efectes negatius poden ésser mitigats combinant adequadament fonts de coneixement externes. En aquest sentit, hem adaptat amb èxit un sistema de traducció estadística Anglès-Castellà entrenat en el domini polític, al domini de definicions de diccionari.

Les dues parts d'aquesta tesi estan íntimament relacionades, donat que el desenvolupament d'un sistema real de Traducció Automàtica ens ha permès viure en primer terme l'important paper dels mètodes d'avaluació en el cicle de desenvolupament dels sistemes de Traducció Automàtica.

Dia: Pendent de confirmació

Hora: Pendent de confirmació

Lloc: Pendent de confirmació


An i*-based Reengineering Framework for Requirements Engineering

Doctoranda:
Gemma Grau Colom

Director:
Dr. Xavier Franch Gutiérrez

Resum:
Els sistemes d’informació son, avui en dia, un actiu principal en les organitzacions que pot donar-los un avantatges competitiu considerable. Però per a que això sigui així, una vegada implantat el sistema d’informació, aquest ha de ser mantingut i ha d’evolucionar d’acord amb els objectius estratègics de la organització. Aquesta evolució inclou canvis en els requeriments, la tecnologia usada o els processos de negoci suportats i l’impacte que provoca pot anar des de petites modificacions al desenvolupament d’un nou sistema d’informació. En ambdós casos, l’impacte dels canvis s’analitza durant la fase de requeriments, on es possible fer-ne l’avaluació utilitzant menys recursos. D’aquesta manera, l’enginyeria de requeriments i la reenginyeria de processos sovint comparteixen les mateixes activitats i els mateixos objectius i es per aquest motiu que es pot considerar que un enfocament de reenginyeria de processos és adequat per al desenvolupament i manteniment dels sistemes d’informació ja existents.

El llenguatge i* és un llenguatge de l’enginyeria de requeriments orientat a objectius que permet modelar sistemes de informació gràficament, en termes d’actors i dependencies entre ells. El llenguatge i* ha estat utilitzat en l’enginyeria de requeriments i en la reenginyeria de processos de negoci, però no existeix cap proposta que hagi aprofundit en totes les fases d’aquestes disciplines de manera conjunta. Per tal de combinar aquests dos punts de vista, hem definit PRiM, un Mètode de Reenginyeria de Processos basat en i*. PRiM parteix de la hipòtesis que en el desenvolupament dels sistemes d’informació actuals, sempre existeix un procés que es pot utilitzar com a punt de partida per a l’especificació del nou sistema d’informació. PRiM combina tècniques dels la reenginyeria de processos de negoci i de l’enginyeria de requeriments que es combinen en les sis fases següents: 1) L’anàlisi del sistema actual utilitzant tècniques socio-tècniques d’anàlisis; 2) la construcció del model i* tenint en compte la operacionalitat i la intencionalitat del procés; 3) la reenginyeria dels processos del sistema actual utilitzant tècniques d’adquisició d’objectius; 4) la generació de models i* alternatius utilitzant heurístiques i patrons; 5) l’avaluació dels models i* generats mitjançant la utilització de mètriques estructurals; i, finalment, 6) l’especificació del nou Sistema de Informació a partir del model i* escollit.

Tant els camps de l’enginyeria de requeriments com de la reenginyeria de processos de negoci disposen de diferents tècniques que poden ser utilitzades en lloc de les proposades a PRiM. Per tal de no forçar l’ús d’una certa tècnica en el procés, també proposem un marc genèric basat en l’enginyeria de mètodes que permet utilitzar i combinar diferents tècniques. D’aquesta manera definim ReeF un Framework de Reenginyeria que generalitza les sis fases de PRiM per tal de permetre la selecció de les tècnica més apropiada per cada una de les fases, segons l’experiència de l’usuari i els seus coneixements de l’aplicació. Com a exemple de l’aplicabilitat de ReeF, s’ha definit el mètode SARiM per a la reenginyeria d’arquitectures software representades en i*.

Les principals contribucions de la tesis s’agrupen en dues parts. La primera consta dels dos mètodes bastats en i* que hem definit: PRiM i SARiM. La segona està formada per les diferents tècniques de i* que poden ser utilitzades per construir models i*, generar models i* alternatius i per avaluar els models i* utilitzant mètriques estructurals. Aquestes tècniques i mètodes s’han obtingut a partir d’un estudi exhaustiu de l’estat de l’art i s’han validat mitjançant diferents casos d’estudi formatius i un cas d’estudi industrial. També s’han desenvolupat dues eines de suport: REDEPEND-REACT, que permet la modelització gràfica de i*, i dóna suport a la generació d’alternatives i a la definició de mètriques estructurals, i J-PRiM, que dóna suport a totes les fases de PRiM usant la visualització textual dels models i*.

Dia: Pendent de confirmació

Hora: Pendent de confirmació

Lloc: Pendent de confirmació

Applying CausalState Splitting Reconstruction Algorithm to Natural Language Processing Tasks

Doctoranda: Muntsa Padró i Cirera

Director: Dr. Lluís Padró

Resum:
Aquesta tesi es centra en l'estudi i en l'ús de l'algorisme "Causal State Splitting Reconstruction (CSSR)" per tasques de Processat de Llenguatge Natural (PLN). El CSSR és un algorisme que captura els patrons d'un conjunt de dates construint autòmats d'estats finits en la forma de Models de Markov visibles. Es basa en els principis de la Mecànica Computacional tot i traient profit de les moltes propietats interessants de la teoria d'estats causals. Un dels principals avantatges del CSSR respecte als Models de Markov és que construeix estats que contenen més d'un $n$gram, per tant els autòmats que s'obtenen són molt més petits que el Model de Markov equivalent.

En aquest treball, primer de tot estudiem el comportament de l'algorisme quan l'apliquem a l'aprenentatge de patrons relacionats amb tasques de PLN però sense realitzar cap tasca d'anotació. Aquests experiments inicials ens serveixen per entendre els paràmetres que afecten l'algorisme i per comprovar que el CSSR pot aprendre els patrons que es troben en les frases de llenguatge natural.

Seguidament, proposem un mètode per aplicar el CSSR a tasques d'anotació de seqüències de llenguatge natural. L'algorisme no està originalment pensat per incloure la informació oculta que es necessita en aquest tipus de tasques, per tant hem dissenyat un mètode per incloure-la al sistema i així obtenir autòmats que inclouen aquesta informació i poden ser usats per anotar text nou. De la mateixa manera, proposem dos mètodes per tractar els esdeveniments no observats en les dades i una modificació de l'algorisme que el fa més apte per tasques de PLN. Aquests tres aspectes conformen la primera línia de contribucions d'aquesta tesi, juntament amb un estudi experimental detallat dels mètodes proposats aplicats a diferents tasques de processat de llenguatge natural.

Aquest estudi experimental es realitza sobre tres tasques diferents: reconeixement d'entitats amb nom tant en un domini general com en el domini Biomèdic i detecció de sintagmes. Els resultats obtinguts són prometedors en les dues primeres tasques, però no tan bons en l'última. No obstant, no és fàcil millorar els resultats obtinguts seguint el mateix mètode, ja que el CSSR necessita tractar amb un nombre reduït de característiques per construir autòmats correctes i això limita la potència del sistema, ja que no pot tractar informació complicada. Per aquesta raó, proposem combinar el CSSR amb models gràfics, per així poder introduir informació més sofisticada al sistema.

Aquesta combinació és la segona línia de contribucions d'aquesta recerca. Hi ha diversos models gràfics que es podrien usar, però de moment nosaltres proposem combinar el CSSR amb models de Màxima Entropia (ME). El primer mètode que proposem és el més simple i no modifica l'algorisme de construcció de l'autòmat sinó que només usa els models de ME per la tasca d'anotació. El segon mètode és més sofisticat i modifica el CSSR per tal que els autòmats construïts tinguin en compte tota la informació usant els models de ME. Veurem que els primer mètode, tot i ser molt més simple, aporta una millora important dels resultats, mentre que el segon mètode no aconsegueix millorar-los significativament.

Dia: Pendent de confirmació

Hora: Pendent de confirmació

Lloc: Pendent de confirmació


Contacte de premsa:
ilapuente@lsi.upc.edu

(Retornar al butlletí)
 
Darrera modificació: Juny 2008
© UPC. Technical University of Catalonia
Departament de Llenguatges i Sistemes Informàtics
About this web.