I can't log in
 
LSI
Accions del document

Lectures de tesis doctorals

Anunci del darrer pas cap al doctorat: la lectura.


LogoDelicious  Digg!

Empirical Machine Translation and its Evaluation

Doctorand: Jesús Ángel Giménez Linares

Director: Dr. Lluís Màrquez Villodre

Resum: Aquesta tesi estudia l'aplicació de les tecnologies del Processament del Llenguatge Natural disponibles actualment al problema de la Traducció Automàtica basada en Mètodes Empírics i la seva Avaluació.

D'una banda, tractem el problema de l'avaluació automàtica. Hem analitzat les principals deficiències dels mètodes d'avaluació actuals, les quals es deuen, al nostre parer, als principis de qualitat superficials en els que es basen. En comptes de limitar-nos al nivell lèxic, proposem una nova direcció cap a avaluacions més heterogènies. El nostre enfocament es basa en el disseny d'un ric conjunt de mesures automàtiques destinades a capturar un ampli ventall d'aspectes de qualitat a diferents nivells lingüístics (lèxic, sintàctic i semàntic). Aquestes mesures lingüístiques han estat avaluades sobre diferents escenaris. El resultat més notable ha estat la constatació de que les mètriques basades en un coneixement lingüístic més profund (sintàctic i semàntic) produeixen avaluacions a nivell de sistema més fiables que les mètriques que es limiten a la dimensió lèxica, especialment quan els sistemes avaluats pertanyen a paradigmes de traducció diferents. Tanmateix, a nivell de frase, el comportament d'algunes d'aquestes mètriques lingüístiques empitjora lleugerament en comparació al comportament de les mètriques lèxiques. Aquest fet és principalment atribuïble als errors comesos pels processadors lingüístics. A fi i efecte de millorar l'avaluació a nivell de frase, a més de recórrer a la similitud lèxica en absència d'anàlisi lingüística, hem estudiat la possibilitat de combinar les puntuacions atorgades per mètriques a diferents nivells lingüístics en una sola mesura de qualitat. S'han presentat dues estratègies no paramètriques de combinació de mètriques, essent el seu principal avantatge no haver d'ajustar la contribució relativa de cadascuna de les mètriques a la puntuació global. A més, el nostre treball mostra com fer servir el conjunt de mètriques heterogènies per tal d'obtenir detallats informes d'anàlisi d'errors automàticament.

D'altra banda, hem estudiat el problema de la selecció lèxica en Traducció Automàtica Estadística. Amb aquesta finalitat, hem construït un sistema de Traducció Automàtica Estadística Castellà-Anglès basat en `phrases', i hem iterat en el seu cicle de desenvolupament, analitzant diferents maneres de millorar la seva qualitat mitjançant la incorporació de coneixement lingüístic. En primer lloc, hem estès el sistema a partir de la combinació de models de traducció basats en anàlisi sintàctica superficial, obtenint una millora significativa. En segon lloc, hem aplicat models de traducció discriminadors basats en tècniques
d'Aprenentatge Automàtic. Aquests models permeten una millor representació del context de traducció en el que les `phrases' ocorren, efectivament conduint a una millor selecció lèxica. No obstant, a partir d'avaluacions automàtiques heterogènies i avaluacions manuals, hem observat que les millores en selecció lèxica no comporten necessàriament una millor estructura sintàctica o semàntica. Així doncs, la incorporació d'aquest tipus de prediccions en el marc estadístic requereix, per tant, un estudi més profund.

Com a qüestió complementària, hem estudiat una de les principals crítiques en contra dels sistemes de traducció basats en mètodes empírics, la seva forta dependència del domini, i com els seus efectes negatius poden ésser mitigats combinant adequadament fonts de coneixement externes. En aquest sentit, hem adaptat amb èxit un sistema de traducció estadística Anglès-Castellà entrenat en el domini polític, al domini de definicions de diccionari.

Les dues parts d'aquesta tesi estan íntimament relacionades, donat que el desenvolupament d'un sistema real de Traducció Automàtica ens ha permès viure en primer terme l'important paper dels mètodes d'avaluació en el cicle de desenvolupament dels sistemes de Traducció Automàtica.

Dia: 02/07/2008

Hora: 10:00h

Lloc: Sala del Llac a l'Edifici del Rectorat, al Campus Nord.


An i*-based Reengineering Framework for Requirements Engineering

Doctoranda:
Gemma Grau Colom

Director:
Dr. Xavier Franch Gutiérrez

Resum:
Els sistemes d’informació son, avui en dia, un actiu principal en les organitzacions que pot donar-los un avantatges competitiu considerable. Però per a que això sigui així, una vegada implantat el sistema d’informació, aquest ha de ser mantingut i ha d’evolucionar d’acord amb els objectius estratègics de la organització. Aquesta evolució inclou canvis en els requeriments, la tecnologia usada o els processos de negoci suportats i l’impacte que provoca pot anar des de petites modificacions al desenvolupament d’un nou sistema d’informació. En ambdós casos, l’impacte dels canvis s’analitza durant la fase de requeriments, on es possible fer-ne l’avaluació utilitzant menys recursos. D’aquesta manera, l’enginyeria de requeriments i la reenginyeria de processos sovint comparteixen les mateixes activitats i els mateixos objectius i es per aquest motiu que es pot considerar que un enfocament de reenginyeria de processos és adequat per al desenvolupament i manteniment dels sistemes d’informació ja existents.

El llenguatge i* és un llenguatge de l’enginyeria de requeriments orientat a objectius que permet modelar sistemes de informació gràficament, en termes d’actors i dependencies entre ells. El llenguatge i* ha estat utilitzat en l’enginyeria de requeriments i en la reenginyeria de processos de negoci, però no existeix cap proposta que hagi aprofundit en totes les fases d’aquestes disciplines de manera conjunta. Per tal de combinar aquests dos punts de vista, hem definit PRiM, un Mètode de Reenginyeria de Processos basat en i*. PRiM parteix de la hipòtesis que en el desenvolupament dels sistemes d’informació actuals, sempre existeix un procés que es pot utilitzar com a punt de partida per a l’especificació del nou sistema d’informació. PRiM combina tècniques dels la reenginyeria de processos de negoci i de l’enginyeria de requeriments que es combinen en les sis fases següents: 1) L’anàlisi del sistema actual utilitzant tècniques socio-tècniques d’anàlisis; 2) la construcció del model i* tenint en compte la operacionalitat i la intencionalitat del procés; 3) la reenginyeria dels processos del sistema actual utilitzant tècniques d’adquisició d’objectius; 4) la generació de models i* alternatius utilitzant heurístiques i patrons; 5) l’avaluació dels models i* generats mitjançant la utilització de mètriques estructurals; i, finalment, 6) l’especificació del nou Sistema de Informació a partir del model i* escollit.

Tant els camps de l’enginyeria de requeriments com de la reenginyeria de processos de negoci disposen de diferents tècniques que poden ser utilitzades en lloc de les proposades a PRiM. Per tal de no forçar l’ús d’una certa tècnica en el procés, també proposem un marc genèric basat en l’enginyeria de mètodes que permet utilitzar i combinar diferents tècniques. D’aquesta manera definim ReeF un Framework de Reenginyeria que generalitza les sis fases de PRiM per tal de permetre la selecció de les tècnica més apropiada per cada una de les fases, segons l’experiència de l’usuari i els seus coneixements de l’aplicació. Com a exemple de l’aplicabilitat de ReeF, s’ha definit el mètode SARiM per a la reenginyeria d’arquitectures software representades en i*.

Les principals contribucions de la tesis s’agrupen en dues parts. La primera consta dels dos mètodes bastats en i* que hem definit: PRiM i SARiM. La segona està formada per les diferents tècniques de i* que poden ser utilitzades per construir models i*, generar models i* alternatius i per avaluar els models i* utilitzant mètriques estructurals. Aquestes tècniques i mètodes s’han obtingut a partir d’un estudi exhaustiu de l’estat de l’art i s’han validat mitjançant diferents casos d’estudi formatius i un cas d’estudi industrial. També s’han desenvolupat dues eines de suport: REDEPEND-REACT, que permet la modelització gràfica de i*, i dóna suport a la generació d’alternatives i a la definició de mètriques estructurals, i J-PRiM, que dóna suport a totes les fases de PRiM usant la visualització textual dels models i*.

Dia: 07/07/2008

Hora: 12:00h

Lloc: Sala d’Actes de la Facultat d’Informàtica de Barcelona, edifici B6. Campus Nord.

Applying CausalState Splitting Reconstruction Algorithm to Natural Language Processing Tasks

Doctoranda: Muntsa Padró i Cirera

Director: Dr. Lluís Padró

Resum:
Aquesta tesi es centra en l'estudi i en l'ús de l'algorisme "Causal State Splitting Reconstruction (CSSR)" per tasques de Processat de Llenguatge Natural (PLN). El CSSR és un algorisme que captura els patrons d'un conjunt de dates construint autòmats d'estats finits en la forma de Models de Markov visibles. Es basa en els principis de la Mecànica Computacional tot i traient profit de les moltes propietats interessants de la teoria d'estats causals. Un dels principals avantatges del CSSR respecte als Models de Markov és que construeix estats que contenen més d'un $n$gram, per tant els autòmats que s'obtenen són molt més petits que el Model de Markov equivalent.

En aquest treball, primer de tot estudiem el comportament de l'algorisme quan l'apliquem a l'aprenentatge de patrons relacionats amb tasques de PLN però sense realitzar cap tasca d'anotació. Aquests experiments inicials ens serveixen per entendre els paràmetres que afecten l'algorisme i per comprovar que el CSSR pot aprendre els patrons que es troben en les frases de llenguatge natural.

Seguidament, proposem un mètode per aplicar el CSSR a tasques d'anotació de seqüències de llenguatge natural. L'algorisme no està originalment pensat per incloure la informació oculta que es necessita en aquest tipus de tasques, per tant hem dissenyat un mètode per incloure-la al sistema i així obtenir autòmats que inclouen aquesta informació i poden ser usats per anotar text nou. De la mateixa manera, proposem dos mètodes per tractar els esdeveniments no observats en les dades i una modificació de l'algorisme que el fa més apte per tasques de PLN. Aquests tres aspectes conformen la primera línia de contribucions d'aquesta tesi, juntament amb un estudi experimental detallat dels mètodes proposats aplicats a diferents tasques de processat de llenguatge natural.

Aquest estudi experimental es realitza sobre tres tasques diferents: reconeixement d'entitats amb nom tant en un domini general com en el domini Biomèdic i detecció de sintagmes. Els resultats obtinguts són prometedors en les dues primeres tasques, però no tan bons en l'última. No obstant, no és fàcil millorar els resultats obtinguts seguint el mateix mètode, ja que el CSSR necessita tractar amb un nombre reduït de característiques per construir autòmats correctes i això limita la potència del sistema, ja que no pot tractar informació complicada. Per aquesta raó, proposem combinar el CSSR amb models gràfics, per així poder introduir informació més sofisticada al sistema.

Aquesta combinació és la segona línia de contribucions d'aquesta recerca. Hi ha diversos models gràfics que es podrien usar, però de moment nosaltres proposem combinar el CSSR amb models de Màxima Entropia (ME). El primer mètode que proposem és el més simple i no modifica l'algorisme de construcció de l'autòmat sinó que només usa els models de ME per la tasca d'anotació. El segon mètode és més sofisticat i modifica el CSSR per tal que els autòmats construïts tinguin en compte tota la informació usant els models de ME. Veurem que els primer mètode, tot i ser molt més simple, aporta una millora important dels resultats, mentre que el segon mètode no aconsegueix millorar-los significativament.

Dia: 18/07/2008

Hora: 12:00h

Lloc: Aula de Teensenyament, edifici B3. Campus Nord.

A Group Selection pattern for multiagent systems and its application to grid computing


Doctoranda:
Isaac Chao Andrade

Director: Drs. Ramon Sangüesa i Óscar Ardáiz

Resum: Esta tesis trata sobre grupos y su gestión autoorganizada en entornos de ingeniería. Es decir, los mecanismos propuestos deben de ser aplicables en la práctica. Los grupos existen en la naturaleza, en las sociedades y en los sistemas artificiales. Los individuos en poblaciones biológicas se auto-organizan en grupos. Los humanos muestran especiales habilidades sociales y tendencia a organizarse en grupos, desde los “ghettos” a las empresas, desde las asociaciones de vecinos a las comunidades online. Los participantes en las infraestructuras en red de hoy en día (como las redes sociales) también tienden a formar cliqués o grupos de agentes que muestran especial preferencia a interaccionar entre ellos, parcialmente aislados del resto de la red. Los grids son parte de la próxima generación de infraestructuras en red, compuestas no solo de información, sino también de recursos y de usuarios (humanos o agentes artificiales). La actividad en los grids se organiza en torno a grupos llamados Organizaciones Virtuales. Los mecanismos del estado del arte en sistemas de multiagente para la formación de grupos (coaliciones, congregaciones, etc) tienden a ser estáticos y costosos desde el punto de vista computacional, mientras que los sistemas que están siendo desarrollados en realidad (grids, P2P y otras redes de recubrimiento sobre Internet) requieren una elevada adaptabilidad y una vista dinámica del sistema. Existe una necesidad de gestión emergente y auto-organizada de las entidades que componen el
sistema.

En esta tesis partimos del estudio de los problemas de coordinación y dilemas sociales en sistemas de multiagente, e introducimos un proceso de Selección de Grupos que, procedente de la Socio-biología, cumple los requerimientos mencionados previamente: Primero, proporciona un mecanismo mediante el cual sistemas de multiagente incorporando niveles altos de incertidumbre y dinamismo pueden ser gestionados. Segundo, el mecanismo implica pocas asunciones sobre las capacidades de los agentes. En esta tesis, se completa una formalización del proceso de Selección de Grupos en un patrón de ingeniería. Se proporcionan las bases teóricas del mismo en sistemas de multiagente. Se proponen varias instanciaciones del patrón en escenarios relevantes para la coordinación y los dilemas sociales: Juegos de coordinación pura, juegos de coordinación colectiva, dilema del prisionero y dilema del prisionero para N jugadores. Como aplicación tecnológica, se proponen varias instanciaciones adicionales en aplicaciones de computación grid, tales como scheduling adaptativo de trabajos grid, mercados grid descentralizados y coordinación de políticas de compartición de recursos en Organizaciones Virtuales.

Los resultados de la aplicación del patrón de Selección de Grupos en sistemas de multiagente y grids son las mejoras en los niveles de coordinación y cooperación, incorporando la gestión autoorganizada de las entidades del sistema y sus interacciones. La conclusión extraída a partir de estos resultados es: “Dividiendo dinámicamente una población de agentes en pequeños grupos y posteriormente co-evolucionando estos grupos por medio de Selección de Grupos, se obtienen mejoras en los niveles de coordinación tanto en dilemas sociales como en sistemas de agentes completamente cooperativos, incluyendo los grids” Esta investigación es altamente interdisciplinaria por naturaleza: Biología, Sociología, sistemas de multiagente y grids juegan un papel importante en ella. Sin embargo, el patrón de Selección de Grupos, tal y como lo proponemos, pretende ser considerado como un mecanismo general para la ingeniería de sistemas de multiagente. La Biología y la Sociología son las raíces inspirando el patrón, y la computación grid es una primera aplicación, pero cualquier sistema artificial estructurado en grupos podría beneficiarse de los resultados de esta tesis.

Dia: 30/07/2008

Hora: 12:00h

Lloc: Sala d'Actes de la Facultat d'Informàtica de Barcelona, edifici B6. Campus Nord.


Contacte de premsa:
ilapuente@lsi.upc.edu

(Retornar al butlletí)

 
Darrera modificació: Setembre 2008
© UPC. Technical University of Catalonia
Departament de Llenguatges i Sistemes Informàtics
About this web.