Lectures de tesis doctorals
Anunci del darrer pas cap al doctorat: la lectura
Exploiting lexical information and discriminative alignment training in statistical machine translation
Doctorand: Patrik G. Lambert
Director: Dr. Rafael E. Banchs MartÃnez
Tutora: Dra. Núria Castell Ariño
Resum: El treball de tesi s'ha emmarcat en tres aspectes de la traducció automà tica estadÃstica: l'ús d'informació lèxica com a models lèxics bà sics o expressions multi-paraules, estratègies d'entrenament per minimització de l'error, i finalment models d'alineat a nivell de paraula. Aquests aspectes han estat estudiats dins del marc del sistema de traducció basat en n-grames. Segons aquest enfoc, la probabilitat de traducció conjunta es modela a través d'una combinació log-lineal composta d'un model d'n-grames bilingüe, aixà com de funcions caracterÃstiques addicionals.
En primer lloc, s'ha estudiat en profunditat el tema de l'avaluació del alineat. En particular, es destaca l'impacte en els resultats de la manera amb què la referència de l'alineat està construïda, i es donen pautes per alinear manualment el corpus. A continuació, es descriu el sistema de traducció automà tica basada en n-grames. Després d'aquesta descripció, s'avalua l'impacte sobre la qualitat de l'alineat de classificacions lingüÃstiques com a lematització, stemming o classificació de verbs. Tot i que aquestes transformacions tenen un impacte important en l'alineat a nivell de paraules, aquesta millora no repercuteix a nivell de qualitat de traducció. S'examina també l'impacte sobre la qualitat de l'alineat i sobre l'exactitud de la traducció d'agrupar expresions multi-paraules abans de l'alineat.
Un altre objectiu d'aquesta tesi era la millora d'estratègies d'entrenament per minimització de l'error. Es van considerar dues lÃnies de recerca: la tria de la mètrica utilitzada com a funció objectiu i la millora del propi algorisme d'optimització. En la primera lÃnia d'investigació, els parà metres varen ser optimitzats satisfactòriament en funció del valor de la mesura Queen del marc de l'avaluació Qarla. Aquest marc combina diferents mètriques amb un criteri estable i robust. En la segona lÃnia de recerca, l'algorisme SPSA (aproximació estocà stica per pertorbació simultà nia) es va comparar al mètode simplex.
Finalment, es proposa un nou marc per a l'entrenament discriminatiu de models d'alineat amb mètriques automà tiques de traducció com a criteri de maximització. Per a poder avaluar aquest marc, s'ha implementat un sistema d'alineat basat en models discriminatius adaptats al sistema de traducció per n-grames, i s'ha pogut observar una millora dels resultats de mètriques automà tiques amb corpus petits. Aquest marc s'ha estès per a corpus més grans, entrenant els parà metres del sistema d'alineació amb una part petita del corpus i fent-la servir per alinear el corpus sencer. Els parà metres obtinguts generen sistemes de traducció tan bons com els que es poden obtenir amb eines està ndard d'alineat, però d'una forma molt més flexible i amb molt menys recursos computacionals.
Dia: 25 d'abril
Hora: 11:00h
Lloc: Aula Teleensenyament de l'edifici B3
Campus Nord.
