I can't log in
 
LSI
Accions del document

Algoritmes per comprendre

En Lluís Màrquez és un investigador fidel del grup GRPLN. Han estat quinze anys ensenyant a les màquines a parlar i a comprendre en un i molt idiomes. Actualment la seva recerca es centra en la resolució de problemes de processament semàntic i en l'aplicació de la programació en llenguatge natural en la traducció automàtica.


LogoDelicious  Digg!


En aquest nou butlletí, hem parlat amb un dels fundadors del Grup de Recerca en Processament del Llenguatge Natural (GRPLN), l'Horacio Rodríguez i ara, en aquest tercer article, parlem amb un dels seus antics estudiants de doctorat, en Lluís Màrquez.

Lluís Màrquez
LluisM Quina ha estat la teva trajectòria?
Jo vaig ser estudiant de la Facultat d'Informàtica de Barcelona (FIB). Vaig estudiar el doctorat sota la supervisió de l'Horacio Rodríguez. I treballo de professor Universitari des de 1993.

Quin va ser el tema de la teva tesi doctoral?
Vaig estudiar temes relacionats amb l'aprenentatge automàtic i el PLN al Departament de Llenguatges i Sistemes de la UPC. El tema central fou la recerca d'un desambiguador morfosintàctic. En el llenguatge natural les paraules poden fer diferents funcions dins de d'una frase gramatical, aquestes diferents funcionalitats comporten diferents significats; per tant,  és realment  necessari  aconseguir discernir aquestes diferències.

A quina branca pertany aquesta recerca?
El nostre grup, GRPLN, formava part de la secció d'Intel·ligència Artificial del departament LSI de la UPC. Actualment, LSI ja no té seccions de recerca o sigui que ja no hi ha la secció d'Intel·ligència Artificial; evidentment el processament del llenguatge natural segueix sent una branca de la Intel·ligència Artificial com a disciplina científica.

Ens dediquem a donar models computacionals per tractar el llenguatge. En particular, investiguem en la comprensió del llenguatge textual i les aplicacions que se'n deriven, com la traducció automàtica.

De fet, el Llenguatge Natural té una especialitat dins dels cursos de màster i doctorat en Intel·ligència Artificial. Hi ha dues assignatures optatives ofertades:

  • Processament del Llenguatge Natural per al tractament massiu d'informació textual
  • Processament del Llenguatge Natural per a la comunicació persona/màquina
I jo mateix coordino la primera d'aquestes assignatures.

TALP Nosaltres també formem part d'un grup interdepartamental major, l'anomenat Centre de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP). El TALP està constituït per investigadors del nostre departament i per investigadors del Departament de Teoria del senyal i la Comunicació de la UPC. Nosaltres ens centrem en la part textual de la parla. Fem el tractament del llenguatge, la comprensió, raonament de contingut i resolució de problemes diversos. Els enginyers de telecomunicacions, en canvi, fan un tractament acústic del senyal. Això està present als dos extrems del procés: reconeixement de la parla, pas de senyal acústic a text, i generació, pas del text al senyal acústic (parla sintetitzada). Nosaltres fem tot el que pot estar en mig i el resultat són aplicacions a la telefonia, els serveis de consultes obertes, ...etc.

Com apliqueu la Intel·ligència Artificial dins de la vostra recerca?
Nosaltres treballem amb aprenentatge automàtic estadístic. Com ja sabeu, en aquest departament hi ha d'altres grups que també fan servir Machine Learning en la seva recerca. El que ens diferencia dels altres grups és que nosaltres ho apliquem a temes de llenguatge.

Per exemple, donat un problema de traducció i partint d'un bon corpus bilingüe on trobem molts exemples de frases en ambdós idiomes, podem arribar a trobar un algoritme que sigui capaç d'aprendre dels exemples, el coneixement necessari per traduir nous textos.

La llengua sembla quelcom complex i a vegades capritxós, per on comencem?
Xinès En l'estudi de l'anàlisi lingüístic apareixen diferents factors importants, és per això que el seu tractament es divideix en diferents etapes de dificultat creixent: la segmentació, la morfologia, la morfologia, la sintaxi, la semàntica, etc.

A nivell més bàsic és important separar el text en paraules i tractar la seva morfologia. La dificultat d'aquesta tasca varia molt depenent de la llengua que tractem. L'anàlisi morfològica de llengües altament flexives i aglutinants pot arribar a ser molt difícil. L'àrab, per exemple, al no tenir vocals en els texts escrits és molt ambigua i suposa un repte molt gran. Com veieu, nosaltres treballem amb diferents llengües, tot i que majoritàriament en català, castellà i anglès, a vegades també hem tractat l'àrab o el xinès. Una característica bàsica del Machine Learning és que permet derivar coneixements i fer eines generals, gairebé independents de la llengua.

D'altra banda, la Sintaxi ens interessa per saber com s'agrupen les paraules formant estructura que serà útil per a la seva interpretació.

Dins de la semàntica, la part dedicada al significat del text, trobem dues branques: La semàntica lèxica, la part encarregada d'estudiar el significat de les paraules i la semàntica proposicional, que estudia el significat dels predicats de la frase.

Finalment, la pragmàtica estudia el significat dins d'un marc discursiu i té en compte el coneixement del món.

Nosaltres fem eines per poder resoldre les problemàtiques que apareixen en tots aquests camps.

Ara ja coneixem què ens cal treballar, ara voldria saber com us organitzeu per estudiar-la?
Dins del grup podem trobar gent que es dedica a diferents àmbits de recerca bàsica i aplicacions. Entre d'altres podem trobar:

  • Machine Learning
  • Extracció d'informació
  • Sistemes de pregunta-resposta
  • Traducció Automàtica
  • Resum Automàtic
  • Sistemes de diàleg amb interacció màquina-persona
  • Desenvolupament d'eines bàsiques de processament lingüístic.

D'altra banda, al nostre grup hi ha tres lingüistes, i també col·laborem amb altres grups de recerca en lingüística computacional.

D'aquestes especialitats, quina seria la teva?
CapIA Jo treballo aplicant sempre Machine Learning. Ja sigui fent eines per solucionar problemes en el món del processament semàntic, o treballant l'aplicació de l'aprenentatge automàtic a la traducció automàtica.

En el camp de la traducció estem intentant crear un sistema híbrid que combini la traducció automàtica estadística, la traducció automàtica basada en regles i la traducció automàtica basada en exemples. D'altra banda, tenim com a objectiu millorar la traducció automàtica estadística a partir de la introducció d'informació lingüística d'alt nivell.

Teniu algun èxit del qual us sentiu molt satisfets?
Be, existeixen competicions d'avaluació internacionals en les quals es proposa un problema de processament de llenguatge natural amb dades i una definició experimental rigorosa. Els grups participants tenen uns mesos per anar treballant aquesta temàtica i presentar sistemes i solucions novedoses com a resultats. Finalment es celebra un congrés on es posen tots aquests resultats en comú i es premia les millors solucions. Nosaltres hem participat diverses vegades i hem obtingut molt bons resultats. Algunes de les competicions NLP més representatives i en les que nosaltres hem participat i fins i tot alguna vegada l'hem organitzat són les "Shared Tasks" de la conferència "Computational Natural Language Learning (CoNLL). Aquestes competicions són organitzades per la SIGNLL (Special Interest Group on Natural Language Learning) que és un SIG de l'ACL (Association for Computational Linguistics) i s'organitzen des del 1999.

Quin creus que és el futur del GRPLN?
Molt i molt bo! Cada cop som més investigadors apassionats el Llenguatge Natural i les seves aplicacions. Estem avançant molt, però encara queda més camí per recórrer. Som un grup amb 33 membres, 14 professors, 3investigadors, 12 estudiants de doctorat, 2 estudiant de màster i 2 desenvolupadors que participem en molts projectes de recerca nacional i europeus.

Crec que el nostre grup s'està consolidant com un grup capdavanter en la recerca del Processament en Llenguatge Natural.


Contacte premsa:
ilapuente@lsi.upc.edu


 
Darrera modificació: Juny 2008
© UPC. Technical University of Catalonia
Departament de Llenguatges i Sistemes Informàtics
About this web.