Projectes

En aquesta secció pots fer dues coses: llegir quatre paraules sobre alguns projectes en què treballo o he treballat, i enviar-me comentaris sobre ells (o qualsevol altra cosa!). Així que ves a l'apartat de comentaris o tria entre els següents temes:

MOLTO, Multilingual On-Line Translation

L'objectiu de MOLTO és desenvolupar un conjunt d'eines per a traduir textos entre diversos idiomes en temps real i amb alta qualitat. Les llengües són mòduls separats en l'eina i per tant es poden canviar; els prototips que es construiran cobriran la major part dels 23 idiomes oficials de la UE.

Com a tècnica principal, MOLTO utilitza gramàtiques semàntiques de domini específic i interlingues basades en ontologies. Aquests components s'implementen en GF (Grammatical Framework), un formalisme de gramàtiques on es relacionen diversos idiomes a través d'una sintaxi abstracta comú. El GF s'ha aplicat en diversos dominis de mida petita i mitjana, típicament per tractar fins a un total de deu idiomes, però MOLTO ampliarà això en termes de productivitat i aplicabilitat.

Part de l'ampliació es dedicarà a augmentar la mida dels dominis i el nombre d'idiomes. Una part important és fer la tecnologia accessible per als experts del domini sense experiència amb GFs i reduir al mínim l'esforç necessari per a la construcció d'un traductor. Idealment, això es pot fer només estenent un lexicó i escrivint un conjunt de frases d'exemple.

Les parts amb investigació més intensiva de MOLTO són la interoperabilitat en els dos sentits entre estàndards d'ontologies (OWL) i les gramàtiques GF, i l'extensió de les traduccions basades en regles amb mètodes estadístics. L'interoperabilitat OWL-GF permetrà la interacció multilingüe basada en llenguatge natural amb coneixement vàlid per a les màquines. Els mètodes estadístics afegiran robustesa al sistema. Es desenvoluparan nous mètodes per a combinar les gramàtiques GF amb la traducció estadística en benefici de tots dos.

La tecnologia de MOLTO serà lliurada com a llibreries de codi obert que podran ser connectades a les eines de traducció estàndard i pàgines web i, per tant, podran ser integrades en els fluxos de treball estàndard. Es crearan demos web i s'aplicarà a tres estudis de cas: exercicis de matemàtiques en 15 idiomes, dades de patents en almenys 3 idiomes, i descripcions d'objectes de museus en 15 idiomes.

(Del resum oficial del projecte).

Aprenentatge en Traducció Automàtica Estadística

La traducció automàtica estadística és un dels paradigmes més exitosos en traducció automàtica, però encara presenta certes limitacions. Com que els sistemes tradueixen segment a segment (o phrase a phrase) no aprofiten tota la informació que amaga la frase. Això és pot solucionar utilitzant tècniques d'aprenentage automàtic que permeten aprendre a classificar la traducció d'un segment segons el context en què es trobi (i.e. les paraules que l'envolten) o la sintaxi de l'oració per exemple.

Actualment treballem en la integració de les dues aproximacions. Cada cop que el sistema ha de triar la traducció d'un segment utilitza les característiques associades a cada possible traducció per triar-la. Entre aquestes característiques es poden incloure tant les probabilitats utilitzades en un model estàndard de traducció automàtica estadística com atributs que descriguin la categoria gramatical de la phrase, el part-of-speech, la posició dins l'oració, les paraules que l'envolten, etc.

Com he dit abans en algún lloc, el grup de recerca en traducció automàtica al GPLN està format per en Jesús Giménez, en Lluís Màrquez i jo mateixa. L'estat del treball es pot anar seguint a la nostra wiki: EMTwiki!

COCO, la COmpilació de COrpus de Text-Mess

COCO és una interfície web pensada per adquirir coneixement a partir de la informació que introdueixin voluntaris, i és un subprojecte dintre Text-mess. La meva aportació està sent la implementació de la interfície, el nucli de la qual utilitza MySQL i PHP. En la primera fase COCO permet tractar, ampliar i validar corpus de paràfrasis. Si vols formar part d'aquests voluntaris pots visitar el web i contribuir-hi! Si només vols xafardejar l'aspecte que té aquí en tens unes mostres:

Captures de pantalla de COCO

En breu, el nombre de tasques disponibles s'ampliarà per acabar recopilant corpus de:

  • Parelles de paràfrasis
  • Parelles d'implicacions textuals
  • Correferències
  • Canvis de modalitat d'oracions
  • Transformacions sintàctiques
  • Atributs de conceptes

Aquesta feina s'està duent a terme conjuntament entre el Departament de Llenguatges i Sistemes Informàtics de la UPC (LSI) i el Centre de Llenguatge i Computació de la UB (CLiC).

Traducció automàtica de subtítols Anglès-Català

Aquest és un projecte que fa temps que em volta pel cap pensat per a què els aficionats catalans al cinema en versió original tinguin l'ajuda dels subtítols en la seva llengua o per a facilitar-ne l'aprenentatge a no catalanoparlants. Trobar subtítols a la web és extremadament fàcil per a les llengües majoritàries com el castellà o l'anglès però és bastant més complicat per al català.

La idea bàsica és tractar d'utilitzar un sistema estàndard de traducció automàtica estadística (Moses) per fer la traducció de subtítols al català de manera automatitzada. Aquests sistemes tradueixen textos nous a base de la informació que han obtingut de traduccions ja vistes. Per entrenar-los, doncs, es necessari disposar de textos alineats frase a frase en els dos idiomes. Si després els fragments que volem traduir pertanyen al mateix domini que aquests documents alineats les traduccions seran en general bones.

Per una banda, la traducció de subtítols pot ser complicada perque es tracta de frases de vegades massa curtes. Per altra banda, peŀlícules o sèries d'un mateix gènere comparteixen vocabulari i expressions, i això pot facilitar la traducció en alguns casos. Un sistema que hagués estat entrenat amb les tres primeres temporades de Prison Break, ara estaria traduint de manera acceptable la quarta temporada però no podria traduir House M.D. per exemple; un sistema entrenat només amb totes les peŀlícules de Tim Burton no seria eficient traduint Els Simpson, etc. La clau està doncs en tenir una base de dades inicial (corpus) variada i com més amplia millor. Un cop es disposa d'aquestes dades el sistema es pot ampliar i especialitzar ràpidament per als diferents gèneres.

Però conseguir aquest corpus inicial no és l'únic problema, s'ha de conseguir que els subtítols en les dues llengües es corresponguin frase a frase i això no sempre passa. Actualment disposo d'un centenar de subtítols en les dues llengües, català i anglès. Amb un promig de 500 línies per peŀlícula, únicament es disposa d'unes 50.000 parelles de frases. Això és un corpus relativament petit, però tot i així, el fet de vigilar que les frases es corresponguin amb els dos idiomes es bastant lent i per això el projecte es tracta només d'una idea de moment...

No cal dir que qualsevol ajuda serà benvinguda. Si disposes de parelles de subtítols me'ls pots enviar per correu o si vols coŀlaborar a alinear parelles existeix programari que en facilita la feina (Gaupol per linux o Subtitle Workshop per windows, per exemple). Posa't en contacte amb mi per a més informació!

Descobrim l'Univers

Descobrim l'Univers és una activitat integrada en l'oferta de divulgació i educació del Centre d'Observació de l'Univers (COU) del Parc Astronòmic del Montsec. Està pensada per a estudiants d'entre 11 i 14 anys que visiten el COU i fan una primera aproximació a la cosmologia. Inclou un dossier per als alumnes i un per al professorat que giren a l'entorn d'allò que s'explica en un vídeo de 15 minuts de durada. En aquesta secció pots veure aquest vídeo Flash que vam fer amb l'Andreu Balastegui i que explica la història de l'Univers des de que comença l'expansió fins a l'actualitat. La narració és a càrrec del periodista Pep Gorgori. Sigues benèvol, el vídeo és del 2004 i va ser la nostra primera experiència amb Flash!

Si vols entretenir-te una mica pots donar-li un cop d'ull al dossier també:

Digue'm què en penses!






(*) Ni el nom ni el correu són obligatoris a no ser que esperis resposta, clar. Però sempre està bé saber qui diu què!