I can't log in
 
LSI
Accions del document

Lectures de tesis doctorals

Anunci del darrer pas cap al doctorat: la lectura


LogoDelicious  Digg!

Exploiting lexical information and discriminative alignment training in statistical machine translation

Doctorand: Patrik G. Lambert

Director: Dr. Rafael E. Banchs Martínez

Tutora: Dra. Núria Castell Ariño

Resum: El treball de tesi s'ha emmarcat en tres aspectes de la traducció automàtica estadística: l'ús d'informació lèxica com a models lèxics bàsics o expressions multi-paraules, estratègies d'entrenament per minimització de l'error, i finalment models d'alineat a nivell de paraula. Aquests aspectes han estat estudiats dins del marc del sistema de traducció basat en n-grames. Segons aquest enfoc, la probabilitat de traducció conjunta es modela a través d'una combinació log-lineal composta d'un model d'n-grames bilingüe, així com de funcions característiques addicionals.

En primer lloc, s'ha estudiat en profunditat el tema de l'avaluació del alineat. En particular, es destaca l'impacte en els resultats de la manera amb què la referència de l'alineat està construïda, i es donen pautes per alinear manualment el corpus. A continuació, es descriu el sistema de traducció automàtica basada en n-grames. Després d'aquesta descripció, s'avalua l'impacte sobre la qualitat de l'alineat de classificacions lingüístiques com a lematització, stemming o classificació de verbs. Tot i que aquestes transformacions tenen un impacte important en l'alineat a nivell de paraules, aquesta millora no repercuteix a nivell de qualitat de traducció. S'examina també l'impacte sobre la qualitat de l'alineat i sobre l'exactitud de la traducció d'agrupar expresions multi-paraules abans de l'alineat.

Un altre objectiu d'aquesta tesi era la millora d'estratègies d'entrenament per minimització de l'error. Es van considerar dues línies de recerca: la tria de la mètrica utilitzada com a funció objectiu i la millora del propi algorisme d'optimització. En la primera línia d'investigació, els paràmetres varen ser optimitzats satisfactòriament en funció del valor de la mesura Queen del marc de l'avaluació Qarla. Aquest marc combina diferents mètriques amb un criteri estable i robust. En la segona línia de recerca, l'algorisme SPSA (aproximació estocàstica per pertorbació simultània) es va comparar al mètode simplex.

Finalment, es proposa un nou marc per a l'entrenament discriminatiu de models d'alineat amb mètriques automàtiques de traducció com a criteri de maximització. Per a poder avaluar aquest marc, s'ha implementat un sistema d'alineat basat en models discriminatius adaptats al sistema de traducció per n-grames, i s'ha pogut observar una millora dels resultats de mètriques automàtiques amb corpus petits. Aquest marc s'ha estès per a corpus més grans, entrenant els paràmetres del sistema d'alineació amb una part petita del corpus i fent-la servir per alinear el corpus sencer. Els paràmetres obtinguts generen sistemes de traducció tan bons com els que es poden obtenir amb eines estàndard d'alineat, però d'una forma molt més flexible i amb molt menys recursos computacionals.

Dia: 25 d'abril

Hora: 11:00h

Lloc:  Aula Teleensenyament de l'edifici B3

         Campus Nord.


 


Contacte premsa:
ilapuente@lsi.upc.edu
 
Darrera modificació: Abril 2008
© UPC. Technical University of Catalonia
Departament de Llenguatges i Sistemes Informàtics
About this web.