Algoritmes per comprendre
En LluÃs Mà rquez és un investigador fidel del grup GRPLN. Han estat quinze anys ensenyant a les mà quines a parlar i a comprendre en un i molt idiomes. Actualment la seva recerca es centra en la resolució de problemes de processament semà ntic i en l'aplicació de la programació en llenguatge natural en la traducció automà tica.
En aquest nou butlletÃ, hem parlat amb un dels fundadors del Grup de Recerca en Processament del Llenguatge Natural (GRPLN), l'Horacio RodrÃguez i ara, en aquest tercer article, parlem amb un dels seus antics estudiants de doctorat, en LluÃs MÃ rquez.
Quina ha estat la teva trajectòria?
Jo vaig ser estudiant de la Facultat d'Informà tica de Barcelona (FIB). Vaig estudiar el doctorat sota la supervisió de l'Horacio RodrÃguez. I treballo de professor Universitari des de 1993.
Ens dediquem a donar models computacionals per tractar el llenguatge. En particular, investiguem en la comprensió del llenguatge textual i les aplicacions que se'n deriven, com la traducció automà tica.
De fet, el Llenguatge Natural té una especialitat dins dels cursos de mà ster i doctorat en Intel·ligència Artificial. Hi ha dues assignatures optatives ofertades:
Nosaltres també formem part d'un grup interdepartamental major, l'anomenat Centre de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP). El TALP està constituït per investigadors del nostre departament i per investigadors del Departament de Teoria del senyal i la Comunicació de la UPC. Nosaltres ens centrem en la part textual de la parla. Fem el tractament del llenguatge, la comprensió, raonament de contingut i resolució de problemes diversos. Els enginyers de telecomunicacions, en canvi, fan un tractament acústic del senyal. Això està present als dos extrems del procés: reconeixement de la parla, pas de senyal acústic a text, i generació, pas del text al senyal acústic (parla sintetitzada). Nosaltres fem tot el que pot estar en mig i el resultat són aplicacions a la telefonia, els serveis de consultes obertes, ...etc.
Per exemple, donat un problema de traducció i partint d'un bon corpus bilingüe on trobem molts exemples de frases en ambdós idiomes, podem arribar a trobar un algoritme que sigui capaç d'aprendre dels exemples, el coneixement necessari per traduir nous textos.
En l'estudi de l'anà lisi lingüÃstic apareixen diferents factors importants, és per això que el seu tractament es divideix en diferents etapes de dificultat creixent: la segmentació, la morfologia, la morfologia, la sintaxi, la semà ntica, etc.
A nivell més bà sic és important separar el text en paraules i tractar la seva morfologia. La dificultat d'aquesta tasca varia molt depenent de la llengua que tractem. L'anà lisi morfològica de llengües altament flexives i aglutinants pot arribar a ser molt difÃcil. L'à rab, per exemple, al no tenir vocals en els texts escrits és molt ambigua i suposa un repte molt gran. Com veieu, nosaltres treballem amb diferents llengües, tot i que majorità riament en català , castellà i anglès, a vegades també hem tractat l'à rab o el xinès. Una caracterÃstica bà sica del Machine Learning és que permet derivar coneixements i fer eines generals, gairebé independents de la llengua.
D'altra banda, la Sintaxi ens interessa per saber com s'agrupen les paraules formant estructura que serà útil per a la seva interpretació.
Dins de la semà ntica, la part dedicada al significat del text, trobem dues branques: La semà ntica lèxica, la part encarregada d'estudiar el significat de les paraules i la semà ntica proposicional, que estudia el significat dels predicats de la frase.
Finalment, la pragmà tica estudia el significat dins d'un marc discursiu i té en compte el coneixement del món.
Nosaltres fem eines per poder resoldre les problemà tiques que apareixen en tots aquests camps.
D'altra banda, al nostre grup hi ha tres lingüistes, i també col·laborem amb altres grups de recerca en lingüÃstica computacional.
Jo treballo aplicant sempre Machine Learning. Ja sigui fent eines per solucionar problemes en el món del processament semà ntic, o treballant l'aplicació de l'aprenentatge automà tic a la traducció automà tica.
En el camp de la traducció estem intentant crear un sistema hÃbrid que combini la traducció automà tica estadÃstica, la traducció automà tica basada en regles i la traducció automà tica basada en exemples. D'altra banda, tenim com a objectiu millorar la traducció automà tica estadÃstica a partir de la introducció d'informació lingüÃstica d'alt nivell.
Teniu algun èxit del qual us sentiu molt satisfets?
Be, existeixen competicions d'avaluació internacionals en les quals es proposa un problema de processament de llenguatge natural amb dades i una definició experimental rigorosa. Els grups participants tenen uns mesos per anar treballant aquesta temà tica i presentar sistemes i solucions novedoses com a resultats. Finalment es celebra un congrés on es posen tots aquests resultats en comú i es premia les millors solucions. Nosaltres hem participat diverses vegades i hem obtingut molt bons resultats. Algunes de les competicions NLP més representatives i en les que nosaltres hem participat i fins i tot alguna vegada l'hem organitzat són les "Shared Tasks" de la conferència "Computational Natural Language Learning (CoNLL). Aquestes competicions són organitzades per la SIGNLL (Special Interest Group on Natural Language Learning) que és un SIG de l'ACL (Association for Computational Linguistics) i s'organitzen des del 1999.
Quin creus que és el futur del GRPLN?
Molt i molt bo! Cada cop som més investigadors apassionats el Llenguatge Natural i les seves aplicacions. Estem avançant molt, però encara queda més camà per recórrer. Som un grup amb 33 membres, 14 professors, 3investigadors, 12 estudiants de doctorat, 2 estudiant de mà ster i 2 desenvolupadors que participem en molts projectes de recerca nacional i europeus.
Crec que el nostre grup s'està consolidant com un grup capdavanter en la recerca del Processament en Llenguatge Natural.
Contacte premsa:
ilapuente@lsi.upc.edu
LluÃs MÃ rquez
Quin va ser el tema de la teva tesi doctoral?
Vaig estudiar temes relacionats amb l'aprenentatge automà tic i el PLN al Departament de Llenguatges i Sistemes de la UPC. El tema central fou la recerca d'un desambiguador morfosintà ctic. En el llenguatge natural les paraules poden fer diferents funcions dins de d'una frase gramatical, aquestes diferents funcionalitats comporten diferents significats; per tant, és realment necessari aconseguir discernir aquestes diferències. A quina branca pertany aquesta recerca?
El nostre grup, GRPLN, formava part de la secció d'Intel·ligència Artificial del departament LSI de la UPC. Actualment, LSI ja no té seccions de recerca o sigui que ja no hi ha la secció d'Intel·ligència Artificial; evidentment el processament del llenguatge natural segueix sent una branca de la Intel·ligència Artificial com a disciplina cientÃfica.Ens dediquem a donar models computacionals per tractar el llenguatge. En particular, investiguem en la comprensió del llenguatge textual i les aplicacions que se'n deriven, com la traducció automà tica.
De fet, el Llenguatge Natural té una especialitat dins dels cursos de mà ster i doctorat en Intel·ligència Artificial. Hi ha dues assignatures optatives ofertades:
- Processament del Llenguatge Natural per al tractament massiu d'informació textual
- Processament del Llenguatge Natural per a la comunicació persona/mà quina
Com apliqueu la Intel·ligència Artificial dins de la vostra recerca?
Nosaltres treballem amb aprenentatge automà tic estadÃstic. Com ja sabeu, en aquest departament hi ha d'altres grups que també fan servir Machine Learning en la seva recerca. El que ens diferencia dels altres grups és que nosaltres ho apliquem a temes de llenguatge.Per exemple, donat un problema de traducció i partint d'un bon corpus bilingüe on trobem molts exemples de frases en ambdós idiomes, podem arribar a trobar un algoritme que sigui capaç d'aprendre dels exemples, el coneixement necessari per traduir nous textos.
La llengua sembla quelcom complex i a vegades capritxós, per on comencem?
A nivell més bà sic és important separar el text en paraules i tractar la seva morfologia. La dificultat d'aquesta tasca varia molt depenent de la llengua que tractem. L'anà lisi morfològica de llengües altament flexives i aglutinants pot arribar a ser molt difÃcil. L'à rab, per exemple, al no tenir vocals en els texts escrits és molt ambigua i suposa un repte molt gran. Com veieu, nosaltres treballem amb diferents llengües, tot i que majorità riament en català , castellà i anglès, a vegades també hem tractat l'à rab o el xinès. Una caracterÃstica bà sica del Machine Learning és que permet derivar coneixements i fer eines generals, gairebé independents de la llengua.
D'altra banda, la Sintaxi ens interessa per saber com s'agrupen les paraules formant estructura que serà útil per a la seva interpretació.
Dins de la semà ntica, la part dedicada al significat del text, trobem dues branques: La semà ntica lèxica, la part encarregada d'estudiar el significat de les paraules i la semà ntica proposicional, que estudia el significat dels predicats de la frase.
Finalment, la pragmà tica estudia el significat dins d'un marc discursiu i té en compte el coneixement del món.
Nosaltres fem eines per poder resoldre les problemà tiques que apareixen en tots aquests camps.
Ara ja coneixem què ens cal treballar, ara voldria saber com us organitzeu per estudiar-la?
Dins del grup podem trobar gent que es dedica a diferents à mbits de recerca bà sica i aplicacions. Entre d'altres podem trobar:- Machine Learning
- Extracció d'informació
- Sistemes de pregunta-resposta
- Traducció Automà tica
- Resum Automà tic
- Sistemes de dià leg amb interacció mà quina-persona
- Desenvolupament d'eines bà siques de processament lingüÃstic.
D'altra banda, al nostre grup hi ha tres lingüistes, i també col·laborem amb altres grups de recerca en lingüÃstica computacional.
D'aquestes especialitats, quina seria la teva?
En el camp de la traducció estem intentant crear un sistema hÃbrid que combini la traducció automà tica estadÃstica, la traducció automà tica basada en regles i la traducció automà tica basada en exemples. D'altra banda, tenim com a objectiu millorar la traducció automà tica estadÃstica a partir de la introducció d'informació lingüÃstica d'alt nivell.
Teniu algun èxit del qual us sentiu molt satisfets?
Quin creus que és el futur del GRPLN?
Crec que el nostre grup s'està consolidant com un grup capdavanter en la recerca del Processament en Llenguatge Natural.
Contacte premsa:
