Processament del Llenguatge Natural per al Processament Massiu d'Informació Textual (PLN-PMT) Dades bàsiques ============== Tipus: optativa Semestre: tercer ECTS : 6 Punts de docència: 12 Periodicitat de l'oferta: anual Unitat bàsica responsable: Departament LSI PDI responsable: Lluís Màrquez Altres professors: Jordi Turmo Idioma d'impartició: català / anglès Prerequisits: Processament del Llenguatge Natural, Aplicacions de la Intel·ligència Artificial, Aprenentatge Descripció i objectius ====================== Els dos escenaris bàsics en què es poden classificar les aplicacions del Processament del Llenguatge Natural (PLN) són: (1) La comunicació entre persona i màquina (2) El tractament massiu d'informació textual. Aquests dos escenaris impliquen requeriments de procés força diferents i, per tant, la utilització de tècniques i mètodes també diferents. Encara que moltes aplicacions tenen components variats i són difícils de classificar en un d'aquest escenaris l'organització de l'ensenyament del PLN en aquests dos grans temes, que corresponen a les dues assignatures de la intensificació en Processament del Llenguatge Natural, ens sembla la forma més adequada. L'objectiu d'aquest curs és dotar l'estudiant d'un coneixement sòlid de les tècniques, mètodes i eines, tant simbòliques com empíriques, de tractament de la llengua, focalitzant en les aplicacions que impliquen un tractament massiu de la informació textual. Les aplicacions en aquest domini solen ser de tipus batch (off-line) i tenen aplicació principalment en el marc d'Internet i de les grans bases de dades documentals. Sacrificant part de la profunditat per una major extensió, s'espera que l'estudiant conegui la bibliografia bàsica del camp i que acabi estant capacitat per abordar una recerca futura en més profunditat en qualsevol dels temes vistos. Per altra banda, el bloc d'aplicacions estudiades permetrà l'estudiant establir la connexió entre les tecnologies del llenguatge vistes i les aplicacions del món real en les que prenen part. Aquest coneixement es complementa amb el proporcionat per l'assignatura Processament del Llenguatge Natural per la Comunicació Home/Màquina, de forma que l'alumne pugui assolir un coneixement suficient dels paradigmes bàsics pel tractament de la llengua en els dos escenaris més habituals de les seves aplicacions. Finalment, s'intentarà presentar els temes oberts de recerca més actius en l'àmbit del temari de l'assignatura. Continguts ========== El contingut de l'assignatura s'estructura en tres blocs: (1) Les aplicacions més interessants que tenen com a component bàsic el tractament massiu d'informació textual. Aquestes aplicacions, que tenen el seu marc d'actuació principalment a Internet i en grans bases de dades documentals, es poden considerar ja d'ús habitual, tot i que encara presenten limitacions evidents. Es parlarà dels sistemes de classificació i organització automàtica de documents, dels resumidors automàtics i dels sistemes d'Extracció d'Informació. (2) Tasques genèriques bàsiques, d'ús real i potencial en aquestes aplicacions (i en d'altres) que no hagin estat introduïdes en assignatures obligatòries prèvies. Es tractarà amb un subconjunt de tasques format per: l'anàlisi sintàctica parcial, la desambiguació semàntica lèxica i l'anàlisi de papers temàtics. (3) La presentació de tècniques avançades d'Aprenentatge Automàtic per al processament de llengatge natural. Aquests algoritmes i tècniques són molt útils per implementar bona part de les tasques prèvies i estenen les tècniques bàsiques ja conegudes pels alumnes i estudiades en altres assignatures obligatòries. Concretament, el temari s'organitza en els següents quatre temes. El percentatge que acompanya cadascun dels temes pretén donar una idea de la dedicació del curs que suposa. Com es pot veure, el focus es troba en el tema de les aplicacions. Temari ====== 1. Introducció (5%) 1.1 La necessitat del processament automàtic de quantitats massives d'informació textual. Principals aplicacions en aquest domini 2. Temes avançats d'Aprenentatge Automàtic (30%) 2.0 Repàs de conceptes importants d'aprenentatge automàtic 2.1 Mètodes estadístics: Models de Màxima Entropia i Conditional Random Fields 2.2 Mètodes d'aprenentage discriminatiu: Boosting, Support Vector Machines 2.3 Aprenentatge + Inferència per a dominis relacionals i estructurats. 2.4 Aprenentatge semi-supervisat: bootstrapping, co-training i variants 3. Tasques genèriques (25%) 3.1 Anàlisi sintàctica parcial: anàlisi de sintagmes bàsics (chunking) + detecció de clàusules 3.2 Desambiguació del sentit de les paraules (Word Sense Disambiguation) 3.3 Reconeixement de papers temàtics (Semantic Role Labeling) 4. Aplicacions (40%) 4.1. Extracció d'Informacio: tipologia, adaptabilitat, multilingualitat, avaluacio. 4.2. Classificació de documents: temàtica, en jerarquies de conceptes de la Web, subjectiva (per intenció, sentiment, etc.) 4.3. Resum Automàtic: monodocument, multidocument, multilingüe Enfocament de la metodologia docent =================================== La metodologia docent de l'assignatura s'organitza per tal d'estructurar les activitats dels alumnes, de cara a assolir els objectius definits abans. Les activitats dels alumnes es divideixen en les de participació a les sessions presencials i les de participació en d'activitats dirigides i autònomes. Més concretament, la distribució d'hores per cobrir els 6 crèdits ECTS de l'assignatura es la següent: Hores de treball presencial: 40 Hores de treball dirigit: 80 Hores de treball autònom: 60 Les activitats de treball presencial inclouen: 1) Exposició per part del professor dels continguts teòrics de l'assignatura 2) Presentació per part dels alumnes (en grup) dels resultats dels seus treballs dirigits. Les activitats de treball dirigit se centren en la construcció d'un prototipus d'un sistema o subsistema real integrat en una de les famílies d'aplicacions descrites al punt 4 del temari. Cada projecte tutoritzat serà desenvolupat per un grup d'alumnes. L'aplicació a desenvolupar serà la mateixa per tots els grups de forma que es puguin comparar els diferents enfocaments, problemes i resultats. Els alumnes presentaran i defensaran els seus sistemes en una sessió presencial. Les activitats de treball autònom se centren en algunes de les tasques obertes descrites als apartats 2, 3 i 4 del temari. Els alumnes, individualment, triaran una de les possibles tasques ofertades, que hauran d'haver estat introduïdes a les classe presencials. Els alumnes estudiaran la tasca concreta, realitzaran lectures orientades sobre el tema, proposades pels professors, buscaran altres fonts d'informació i elaboraran un estat de l'art sobre el tema, que presentaran en forma de memòria escrita. Alternativament, els alumnes podran triar alguna de les lectures complementàries sobre els temes 2, 3 i 4 i fer una exposició oral a classe que serà discutida en torns de preguntes per part del professor i també entre tots els alumnes en forma de seminari. Mètode d'avaluació ================= Hi haurà tres elements subjectes a avaluació: 1) Desenvolupament d'un prototipus sobre una de les tasques descrites als punts 3 i 4 del temari: 40% de la nota. Treball en grup. 2) Presentació i defensa pública del treball anterior: 20% de la nota. Defensa en grup. 3) Elaboració de l'estat de l'art sobre una dels temes oberts o bé lectura i presentació/debat d'alguna de les lectures complementàries: 40% de la nota