Ves al contingut. Salta a la navegació
Esteu aquí: Inici > LSI > +LSI > Butlletí 4 > Més de vint anys estudiant el llenguatge natural
I can't log in
 
LSI
Accions del document

Més de vint anys estudiant el llenguatge natural

El Dr. Horacio Rodríguez és un dels científics que va veure néixer l'actual grup de recerca en processament del llenguatge natural (GRPLN). L'Horacio es va interessar pel processament del llenguatge natural quan a Espanya era un tema gairebé desconegut. Actualment, el grup de recerca GRPLN del departament de llenguatges i sistemes de la UPC, compta amb més de vint investigadors i és reconegut a nivell internacional. Moltes empreses mostren el seu interès en aquest àmbit i ha esdevingut una línia de recerca gairebé amb entitat pròpia. Ha nascut l'enginyeria Lingüística.


LogoDelicious  Digg!

Per on començar? Pel començament...

LletraA Fa uns dies vaig conèixer l'Horacio Rodríguez. En aquells moments no sabia qui era, el departament de Llenguatges i sistemes Informàtics de la UPC és un departament tan gran que aquests cinc mesos encara no han estat suficients com per a conèixer al gran nombre d'investigadors que treballen en les seves instal·lacions.

Després d'intercanviar unes poques paraules, la meva curiositat em dugué a investigar qui era aquell científic interessat pel llenguatge natural. Fou tot un plaer descobrir que l'Horacio m'havia portat a un naixement!.  Avui tinc moltes ganes de preguntar-li com va començar GRPLN?

 
Els orígens
Avui en dia...
He sentit a dir, que tu ets el pare del grup de recerca en processament de llenguatge natural. I on va néixer aquesta curiositat?
Teclat Be, sí jo estic aquí des dels inicis, però si jo sóc el pare podríem dir que va haver una àvia (somriu). Podríem dir que Felisa Verdejo, va ser la primera persona a Espanya qui es va sentir curiositat pel llenguatge natural. Va ser ella qui ens va dirigir la tesi a mi, i a la Dra. Núria Castell
i qui va crear els grups de recerca en Processament del Llenguatge Natural aquí a Barcelona, a Donosti i a Madrid.

A la resta del món la curiositat pel llenguatge natural neix conjuntament amb el naixement espanyol?
No, en aquells moments, fa més de vint anys, fora d'Espanya ja hi havia tradició en l'estudi del llenguatge natural, bàsicament en anglès.

Fa més de vint-i-cinc anys, quan tu deuries començar a estudiar la teva carrera, la facultat d'informàtica encara no s'havia constituït com la coneixem ara. Què vares estudiar?
Horacio Sí. jo sóc dels professors més veterans, juntament amb en Pere Botella, en Rafel Cases, l'Antoni Olivé, en Josep Díaz.. quan nosaltres varem començar no hi havia informàtics. Nosaltres hem tingut la sort de viure el naixement d'aquesta disciplina i la seva facultat i és molt maco haver compartit un trocet d'història de la computació.
Jo vaig estudiar Enginyeria Industrial i Física.

Enginyeria Industrial i Física? I amb aquest background, què et va atreure de la informàtica per conduir la teva vida cap a ella?
IntOrdinador La veritat és que la informàtica es presentava com quelcom molt novell. Tenia un gran mercat i molts estudiants de carreres científiques i tècniques ens incorporarem amb molta il·lusió.

Quin fou el tema de la teva tesi doctoral?
Uf! Ja fa tants anys, i hem anat investigant tant... que es fa estrany parlar d'aquells orígens. Jo vaig estudiar la comunicació màquina-persona en llenguatge natural. En aquell moment era una revolució... Mica a mica, les línies han anat canviant.

La teva tesi pot ser et queda una mica enrere en el temps... però pot ser et són més properes totes aquelles tesis que has dirigit tu des de llavors?
Sí!. La veritat és que al principi érem molt pocs. La Felisa va marxar al poc temps i actualment treballa a la UNED. Així que jo he hagut de supervisar moltes tesis doctorals, ja en porto onze.

Haver estat el director de tantes tesis doctorals implica un gran esforç i temps per part meva, però em sento molt satisfet en pensar que aquesta despesa energètica s'ha transformat en quelcom molt enriquidor. Al principi em vaig haver d'introduir en molts temes, això m'ha donat una visió més àmplia i m'ajuda molt sovint a poder fer enllaços entre temes molt diversos.

Qui eren tots aquests doctorands?
Doncs molts del qui ara trobem com a professors del grup GRPLN. Vaig dirigir la tesi d'en Lluís Padró, d'en Lluís Màrquez, d'en Jordi Turmo, l'Alícia Ageno, la Marta Gatius... entre d'altres.

En l'actualitat, continues portant tantes tesis doctorals?
Per sort el grup ha crescut molt. Ara som gairebé vint persones, i més de quinze de nosaltres som doctors, per tant la meva aportació ja no és tan necessària. El projecte ja s'ha iniciat i ja puc gaudir de nets doctorals.

Birret

Quines són les línies actuals de la vostra recerca?
Amb tanta gent al grup, per força les línies de recerca i els interessos són molt diversos. Hi ha qui té més interès en ela aspectes més teòrics de l'aprenentatge automàtic, i d'altres s'interessen per línies que estan més lligades a les aplicacions, com la traducció automàtica i d'altres per la constitució de recursos i els processadors lingüístics.

Evidentment, això ve força condicionat pels projectes i pel finançament que rebem. L'any passat varem acabar diversos Projectes europeus, com ara CHIL o HOPS i ara estem treballant en tres projectes finançats pel Ministeri Espanyol.

Quin són aquests tres projectes?
D'una banda estem treballant amb </Text-mess>. Aquest projecte està dirigit per l'Alícia Ageno. El seu nom és una broma sobre l'objectiu ampli del projecte, posar ordre als textos.

El contingut és molt variat, extracció d'informació, question-answering, recuperació d'informació... etc. Hi participen sis Universitat Espanyoles.

D'altra banda també estem treballant amb un projecte que es diu Know. Know es centra en la creació d'eines d'ampli espectre pel tractament del llenguatge natural en aplicacions multilingües.

I finalment, estem involucrats amb Open MT. Aquest darrer projecte està relacionat amb la traducció automàtica. Darrerament, nosaltres hem estat molt implicats en aquesta línia.
 
En el tema recursos tenim dues línies bàsiques: el desenvolupament d'ontologies lèxiques en la línia de WordNet i el perfeccionament de la nostra línia de processadors lingüístics. El nostre sistema, Freeling, s'ha convertit, gràcies als esforços d'en Lluís Padró, en l'eina més utilitzada pel processament tant del castellà, com del català.

Wordnet són bases de dades de paraules, xarxes de paraules relacionades. En un principi aquestes bases de dades només existien en anglès; però gràcies al projecte Europeu d'EuroWordNet s'ha estès a d'altres idiomes, com ara l'Espanyol i més tard el Català.

En català?
CatalunyaSí. aquest va ser un projecte finançat per la Generalitat de Catalunya que varem desenvolupar nosaltres amb els lingüistes de la Universitat de Barcelona.

He sentit, però, que no només heu treballat en català, castellà i anglès; sinó que també heu estat treballant amb llengües més complexes com ara l'àrab.  Parla'ns una mica d'aquest tema...
Sí. Hem estat treballant finançats pel govern dels Estats Units en la creació d'un Wordnet de la llengua àrab, Arabic WordNet. Ha estat una feina molt interessant que varem acabar aquest darrer Nadal.

Arab

Imagino que treballar amb l'àrab és quelcom molt diferent a treballar amb llengües llatines. Quines han estat les  majors dificultats?
És clar, l'àrab ha suposat un repte per a nosaltres. Hem treballat amb la col·laboració de dos lingüistes, un de Síria, en Musa, i l'altre del Líbia, en Sabri.

Pensa que, l'àrab parlant consta de vocals i consonants com la majoria de llengües; però els escrits eliminen les vocals i dificulten la feina. Nosaltres hem vocalitzat els textos amb els que treballàvem, és a dir hem inclòs les vocals. Aquesta tècnica també la trobareu en els llibres per a estudiar àrab per a principiant o a l'Alcorà.

Ets capaç de parlar o llegir en àrab?
Sí. ÉS una qüestió d'interès personal. Fa temps vaig voler aprendre àrab. Al principi quan et trobes amb un diari a les mans creus que no ho aconseguiràs, però mica a mica t'acostumes, no és més estrany que la oblidada taquigrafia o els nous missatges de mòbil.

Creus que iniciatives com aquesta ajuden a la integració cultural?
Per suposat! Crec que són aportacions molt positives per tal d'aconseguir una bona relació i comprensió entre llengües i països. A més, jo tinc un interès personal en aquests temes.

D'altra banda, els Projectes Europeus en sí mateixos ja em semblen una bona eina d'integració.

Aquest només és un dels projectes que s'han dut a terme al grup GRPLN. Quines altres fites ha aconseguit el grup?
Actualment el nostre grup de recerca ha aconseguit un cert reconeixement internacional, i dins d'Espanya podríem dir que som un dels grups de recerca capdavanter en temes de llenguatge natural. Hem participat en projectes com Meaning, NAMIC, FAME, CHIL... etc.

Creus que encara us queda camí per recórrer?
Hi ha molt temes que encara estem als inicis o si més no molt lluny d'allà a on podríem arribar. Els sistemes de traducció, per exemple, són pobres o cars. Jo personalment treballo amb temàtiques de text, però altres investigadors del grup, com en Jordi Turmo es dediquen, per exemple, a l'estudi de question-answering oral que té dificultats afegides.

Aquesta feina no s'acaba mai.


El futur del llenguatge natural

Com veus el futur del processament del llenguatge natural?
Actualment aquests temes de recerca estan en una bona època. Hi ha moltes empreses interessades en aquestes tècniques i en aquestes línies de recerca. De fet, ja comença a tenir identitat pròpia; ja hi ha qui l'anomena l'Enginyeria Lingüística.

Pensa que de tota la història de l'estudi de la llengua, ara estem en un dels moments més plàcids. Quan varen sortir els traductors automàtics també es va produir un gran boom. Hi havia molta gent interessada en saber-ne més i millorar les tècniques acabades de néixer, però les expectatives eren pot ser, excessivament ambicioses. Ara l'interès continua viu, però també som més realistes i això és molt positiu. Jo animo a tot aquells qui sentin curiositat per aquests temes seguir els estudis superiors de màster i doctorats que oferta el nostre grup, dins dels cursos de postgraus d'Intel·ligència Artificial, ja que hi ha un gran mercat per endavant!

Contacte premsa:
ilapuente@lsi.upc.edu

 
Darrera modificació: Juny 2008
© UPC. Technical University of Catalonia
Departament de Llenguatges i Sistemes Informàtics
About this web.