PLN-CPM (Processament del Llenguatge Natural per la Comunicació Persona/Màquina)

Master IA

Doctorat IA

Curs 2007-2008 

Professorat

Horacio Rodríguez  (Responsable de l'assignatura), Marta Gatius , David Farwell






Horari

Dimarts de 10h a 12h i divendres de 12h a 14h, aula A1106

Començament del curs 5 octubre 2007





Objectius

L'objectiu d'aquest curs és dotar l'estudiant d'un coneixement sòlid de les tècniques, mètodes i eines, tan simbòliques com empíriques, de tractament de la llengua, focalitzant en els sistemes que impliquen una comunicació entre persona i màquina. Bàsicament es tractaran els sistemes, mètodes i processadors que gestionen d'una forma explícita el coneixement lingüístic.


Aquest coneixement lingüístic pot ser construït específicament per una aplicació concreta o incorporat des de repositoris de recursos lingüístics d'abast general (diccionaris, lexicons, ontologies, gramàtiques, ontologies, etc.) o corresponents a dominis concrets.


Aquest coneixement es complementa amb el proporcionat per l'assignatura Processament del Llenguatge Natural pel Processament Massiu de d’Informació Textual (PLN-PMT), de forma que l'alumne pugui assolir un coneixement suficient dels paradigmes bàsics pel tractament de la llengua en els dos escenaris més habituals en les aplicacions.


Finalment es presenten els temes oberts de recerca més actius en el àmbit del temari de l'assignatura.


Continguts

Els dos escenaris bàsics en què es poden classificar les aplicacions del processament del llenguatge natural són:


  1. La comunicació entre persona i màquina i


  1. El tractament massiu d’informació textual.


Els dos escenaris impliquen requeriments de procés força diferents i, per tant, utilització de tècniques i mètodes també diferents. Encara que moltes aplicacions tenen components variats i són difícils de classificar en un d’aquest escenaris l’organització de l’ensenyament del PLN en aquests dos escenaris ens sembla la forma més adequada.


El contingut de l’assignatura s’estructura en quatre blocs:


  1. Les aplicacions més interessants que tenen com a component bàsic la comunicació entre persona i màquina.


  1. Les tasques genèriques bàsiques, presents en aquestes aplicacions (i en d’altres) que no hagin estat introduïdes en assignatures obligatòries prèvies.


  1. La presentació dels fonaments teòrics de la Lingüística Computacional i la descripció d'algunes tècniques avançades de processament de la llengua, necessàries per implementar aquestes tasques i que d’alguna forma estenen les tècniques bàsiques ja conegudes pels alumnes.


  1. La presentació de recursos lingüístics i eines útils per construir sistemes de comunicació entre persona i màquina.


Concretament el temari s’estructuraria en els següents temes que tenen una distribució força esbiaixada cap els continguts de les aplicacions:


1. Fonaments teòrics de la Lingüística Computacional


1.1. Revisió dels mecanismes bàsics de representació lingüística (gramàtiques

sintagmàtiques i d'unificació, formes lògiques i representació semàntica, etc.)

1.2. Càlcul Sintàctic, semàntica lògica i Gramàtica lògica de tipus (Type Logic

Grammar)


2. Recursos lingüístics, la seva adquisició i el seu ús


2.1. Gramàtiques

2.2. Recursos lèxics, tant estructurats (lexicons, diccionaris, gazetteers) com no

estructurats (corpus amb diferents nivells de marcatge)

2.3. Ontologies lèxiques i conceptuals. WordNet i SUMO

2.4. L'ús de recursos lingüístics en el processament de la llengua


3. Tasques genèriques


3.1 Cerca de referents entre unitats lingüístiques. Referència directa i anafòrica,

Correferència

3.2 Reconeixement i classificació d’entitats amb nom (Named Entity Recognition &

Classification)

3.3 Mecanismes d’inferència en PLN

4. Temes avançats de PLN


4.1. Anàlisi sintàctica (parsing) avançada. Anàlisi estadística, anàlisi de

dependències

4.2. Formes avançades de representació i interpretació semàntica

4.3. Pragmàtica i discurs

4.4. Diàleg.


5. Aplicacions


5.1. Traducció automàtica

5.2. Sistemes de Cerca de la Resposta (Question & Answering)

5.3. Sistemes basats en diàleg


Metodologia docent

La metodologia docent de l'assignatura s'organitza per tal d’estructurar les activitats dels alumnes, de cara a assolir els objectius definits abans. Les activitats dels alumnes es divideixen en les de participació a les sessions presencials i les de participació en d'activitats dirigides i autònomes.


La distribució d'hores per cobrir els 6 crèdits ECTS de l'assignatura es la següent:


Hores de treball presencial: 40

Hores de treball dirigit: 80

Hores de treball autònom: 60


Les activitats de treball presencial inclouen:


  1. Exposició per part del professor dels continguts teòrics de l'assignatura

  2. Presentació per part dels alumnes (en grup) dels resultats dels seus treballs dirigits i autònoms


Les activitats de treball dirigit es centren en la construcció d'un prototipus d'un sistema real integrat en una de les famílies d'aplicacions descrites al punt 5 del temari. Cada projecte tutoritzat serà desenvolupat per un grup d'alumnes. L'aplicació a desenvolupar serà la mateixa per tots els grups de forma que es puguin comparar els diferents enfocaments, problemes i resultats. Els alumnes presentaran i defensaran els seus sistemes en una sessió presencial.


Les activitats de treball autònom se centren en alguna de les tasques obertes descrites als apartats 3 i 4 del temari. Els alumnes, organitzats en grups, estudiaran la tasca concreta, que haurà estat introduïda a classe presencial, realitzaran lectures orientades sobre el tema, proposades pels professors, buscaran altres fonts d'informació i elaboraran un estat de l'art sobre el tema, que presentaran i defensaran públicament.


Mètode d'avaluació

Hi haurà tres elements evaluatoris:


  1. Elaboració de l'estat de l'art sobre una de les tasques obertes (apartats 3 i 4 del temari): 40% de la nota

  2. Desenvolupament d'un prototipus sobre una de les aplicacions (apartat 5 del temari): 40% de la nota

  3. Presentació i defensa dels treballs anteriors: 20% de la nota


Recursos per a l’aprenentatge

Bibliografia bàsica:


R. Dale, H. Moisl, H.Somers, ed. Handbook of natural Language Processing, Marcel Dekker, New York, 2000.·


D. Jurafsky, James H. Martin Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Prentice Hall, Upper Saddle River, N.J. , 2000.·


C. Manning, H. Schütze Foundations of statistical Natural Language Processing, MIT Press Cambridge, Mass., 1999.·


R. Mitkov (editor) The Oxford handbook of Computational Linguistics, Oxford University Press, 2004.

Enllaços web

  1. http://nltk.sourceforge.net/
    NLTK, Natural Language Toolkit

  2. http://www.aclweb.org/
    Association of Computational Linguistics ACL

  3. http://acl.ldc.upenn.edu/
    ACL Anthology

  4. http://www.cordis.lu/ist/
    Information Society Technology IST

  5. http://oesi.cervantes.es/
    Oficina del Español en la Sociedad de la Información OESI

  6. http://www.sepln.org
      Sociedad Española para el procesamiento del lenguaje natural SEPLN

  7. http://www.talp.upc.es/
    TALP (UPC)

  8. http://www.lsi.upc.edu/~nlp/web/
    Grup de PLN de la UPC

  9. http://opennlp.sourceforge.net/
    OpenNLP

  10. http://web.syr.edu/~mdtaffet/
    Pàgina de recursos de NLP de Mary Taffet

  11. http://nlp.stanford.edu/links/statnlp.html
    Pàgina de recursos de NLP de l' Universitat d'Stanford

  12. http://mallet.cs.umass.edu/index.php/Main_Page
    Mallet,  toolbox en Java, desarrollado por Andrew McCallum para NLP de tipo estadístico

  13. http://www.cs.waikato.ac.nz/ml/weka/
    WEKA, paquete integrado de Machine Learning

  14. http://www.cs.famaf.unc.edu.ar/~laura/freeNLP
    Página de recursos de NLP de Laura Alonso

  15. http://ashda.ugr.es/laboratorio/computacional.htm
    Página Universidad de Granada, Laboratorio de Lingüística Experimental y Computacional, Las Páginas Amarillas de la Lingüística

Altre material


Monografies de la SEPLN (obtenibles a http://www.sepln.org/monografiasSEPLN/monoSEPLN.htm):


Monografía 1 (Diciembre 2001):
Luis Alfonso Ureña López
Resolución de la Ambigüedad Léxica en Tareas de Clasificación Automática de Documentos.

Monografía 2 (Julio 2003):
Jose Luis Vicedo González
Recuperación de información de alta precisión: los sistemas de búsqueda de respuestas.

Monografía 3 (Julio 2003):
Montserrat Civit Torruella
Criterios de etiquetación y desambiguación morfosintáctica de corpus en español.

Monografía 4 (Septiembre 2004):
Anselmo Peñas Padilla
Técnicas lingüísticas aplicadas a la búsqueda textual multilingüe. Ambigüedad, variación terminológica y multilingüismo.

Monografía 5 (Septiembre 2005):
Iulia Nica
El conocimiento lingüístico en la desambiguación semántica automática.

Monografía 6 (Enero 2007):
David Martínez Iraolak
Supervised Word Sense Disambiguation: facing Current Challenges



Cursos de PLN

Cursos (bons!) de contingut similar a aquest i dels quals he agafat material:


         MIT (M. Collins)
MIT
         Toronto (G. Penn)
Toronto
         Johns Hopkins (J. Eisner)
JHU
         Massachussetts Amherst (A. McCallum)
UMass

Aqui teniu una llista de cursos l'algunes universitats (no els he revisat tots!!!) relacionats amb el contingut d'aquesta assignatura:

http://en.wikipedia.org/wiki/List_of_NLP_Courses



Treball dirigit

En la última edición de GEOCLEF 2007 (http://ir.shef.ac.uk/geoclef/) se proponía una tarea piloto que implicaba el análisis de queries de tipo geográfico. Lo que os propongo es construir un sistema que aborde este problema. La definición de la tarea es la siguiente:


Query Parsing Task Proposal for GeoCLEF 2007

Microsoft Research Asia

        Introduction

A geographic query is usually composed of three components, “what”, “geo-relation” and “where”. How to parse queries and extract these components from them is a key problem for geographic information retrieval (GIR). Therefore, we propose to add a geographic query parsing task for GeoCLEF 2007.

        Eligibility

The contest is open to any party planning to attend CLEF 2007. Multiple submissions per group are allowed, since we will not provide feedback at the time of submission. Only the LAST submission before the deadline will be evaluated.

        Query Structure

In the data set, a common query structure will be “what” + “geo-relation” + “where”. The keywords in the “what” component indicate what users want to search; “where” indicates the geographic area users are interested in; “geo-relation” stands for the relationship between “what” and “where”. There also exist non-geographic queries in the data set which need to be recognized.

For example, for a query “Restaurant in Beijing, China”, “what” = “Restaurant”, “where” = “Beijing, China”, and “geo-relation” = “IN”. For another query “Mountains in the south of United States”, “what” = “Mountains”, “where” = “United States”, and “geo-relation” = “SOUTH-OF”.

        Task Description

1.      Detect whether the query is a geographic query or not. A geographic query is defined as a query which contains at least a “where” component. For example, “pizza in Seattle, WA” is a geographic query, while “Microsoft software” is not a geographic query. For non-geographic queries, further parsing is not needed.

2.      Extract the “where” component from the geographic query and output the corresponding latitude/longitude. For example, in the query “pizza in Seattle, WA”, “Seattle, WA” will be extracted and lat/long value (47.59, -122.33) will be output. Sometimes terms in the “where” component are ambiguous. In this case, the participant should output the lat/long value with the highest confidence. A few queries contain multiple locations, for example, “bus lines from US to Canada”. We will not include these queries in our test set..

3.      Extract the “geo-relation” component from the geographic query and normalize it into a pre-defined relation type. A suggested relation type list is shown in Table 1. If the relation type you find is not defined in Table 1, you should categorize it into “UNDEFINED”.

Table 1. Geo-relation Types

Example query

Geo-relation

Beijing

NONE

in Beijing

IN

on the Long Island

ON

of Beijing

OF

near Beijing

next to Beijing

NEAR

in or around Beijing

in and around Beijing

IN_NEAR

along the Rhine

ALONG

at Beijing University

AT

from Beijing

FROM

to Beijing

TO

within d miles of Beijing

DISTANCE

north of Beijing

in the north of Beijing

NORTH_OF

south of Beijing

in the south of Beijing

SOUTH_OF

east of Beijing

in the east of Beijing

EAST_OF

west of Beijing

in the west of Beijing

WEST_OF

northeast of Beijing

in the northeast of Beijing

NORTH_EAST_OF

northwest of Beijing

in the northwest of Beijing

NORTH_WEST_OF

southeast of Beijing

in the southeast of Beijing

SOUTH_EAST_OF

southwest of Beijing

in the southwest of Beijing

SOUTH_WEST_OF

north to Beijing

NORTH_TO

south to Beijing

SOUTH_TO

east to Beijing

EAST_TO

west to Beijing

WEST_TO

northeast to Beijing

NORTH_EAST_TO

northwest to Beijing

NORTH_WEST_TO

southeast to Beijing

SOUTH_EAST_TO

southwest to Beijing

SOUTH_WEST_TO

4.      Extract the “what” component from the geographic query and categorize it into one of three predefined types, which are listed below.

        Datasets

We will provide a test set of 800,000 (to be decided) queries. All queries come from real search engine logs. Most of them will be geographical queries. A sample labeled set of 100 (to be decided) queries will also be provided as a training set.

        Data Format

1.      Test Set

The test set will be provided in XML format. Each query has two attributes:  <QUERYNO> and <QUERY>.

<QUERYNO>1</QUERYNO>

<QUERY>Restaurant in Beijing, China</QUERY>

<QUERYNO>2</QUERYNO>

<QUERY>Real estate in Florida</QUERY>

<QUERYNO>3</QUERYNO>

<QUERY>Mountains in the south of United States</QUERY>

2.      Training Set and Results

The sample labeled set and the results should be in the following format. There are 4 more attributes: <LOCAL>, <WHAT>, <WHAT_TYPE>, <GEO-RELATION> and <WHERE>.

<QUERYNO>1</QUERYNO>

<QUERY>Restaurant in Beijing, China</QUERY>

<LOCAL>YES</LOCAL>

<WHAT>Restaurant</WHAT>

<WHAT-TYPE> Yellow page</WHAT-TYPE>

<GEO-RELATION>IN</ GEO-RELATION>

<WHERE>Beijing, China</WHERE>

<LAT-LONG>40.24, 116.42</LAT-LONG>

<QUERYNO>2</QUERYNO>

<QUERY> Lottery in Florida</QUERY>

<LOCAL>YES</LOCAL>

<WHAT>Lottery</WHAT>

<WHAT-TYPE>Information</WHAT-TYPE>

<GEO-RELATION>IN</ GEO-RELATION>

<WHERE>Florida</WHERE>

<LAT-LONG>28.38, -81.75</LAT-LONG>

If a submission does not contain all search queries, those queries not included will be treated as errors.

        Evaluation Criterion

We will evaluate the submitted result based on several criterions, including precision, recall, and F1-score.

We will use multiple human editors to tag a subset of queries selected from the total test set. The collection of human editors is assumed to have the most complete knowledge about internet as compared with any individual end user. You will not know which queries will be used for evaluation and are asked to categorize all queries given.

The evaluation will run on the selected test queries and rank your results by how closely they match to the results from human editors. Here are the set of measures we will use to evaluate results submitted by the contestants:





Sample (Training) Set


7 day weather welwyn garden city.

7 juniper path lanssale pa 19446.

7 news colorado.

ABC NEWS CHICAGO.

ABERDEEN AIRPORT.

ABERYSTWYTH.

Adirondack Mountains.

Adirondack Park.

Alabama Schools.

Alabama Shakespeare Festival.

Alameda Superior Court.

Alamogordo Daily News.

articles written in 2006 on taxation of electronic commerce.

Attitudes to Education in young people.

bellevue fireplace store.

bendigo cinemas.

bluefield regional medical center.

BLUEFISH.

BMW Canada.

Bodrum Hotels.

bookshop in singapore.

breast cancer care.

bumper to bumper auto parts shreveport la.

bus trips from columbia.

cabins to rent at lake tahoe.

campbell river bc.

cannon mountain.

carpathian mountains.

carpet cleaners in fort walton beach fl florida.

christie lake.

Clearwater Beach Hostels.

Columbia clothing.

Columbia River Gorge.

convert kilometers to miles.

cyprus Italian food.

dictionary from english to spanish.

dinosaur national monument.

Discount Airline Tickets To Brazil.

doctors hospital augusta ga.

dodge park in Wisconsin.

Drain Repairing Mountain View CA.

dubai police.

EARN EXTRA INCOME IN SINGAPORE.

EAST BAY.

flight to key west florida.

florida tax free shopping.

fort pulaski national monument.

free wav to mp3 converter.

fun things to do near maldon.

galleria cinemas.

games to play at parties.

glen canyon.

herald and news klamath falls.

HOUSE TO BUY IN MISSISSAUGA.

how to invest in stock.

jameson inn crestview fl.

lakeside mall in michigan.

law blog in singapore.

List of Restaurants in Ottawa.

macdougall dr in atlanta.

men shoes.

minibus trips in cyprus.

nansemond county virginia.

New Car Dealer Albuquerque.

newbury weekly news.

niagara day tours from toronto.

North Olmsted apartments.

NORTHWEST AIRLINES.

ozark city schools.

pacific coffee.

palm beach post times.

paradise valley community college.

Permission Letter for child to be on television.

pine view high school.

plumbers in manhattan ny new york.

porter central rd ohio.

poultry farming training in the limpopo province.

Price To Sales Ratio.

products to import from cuba.

province of british columbia.

Questionnaires on physical activity in South Africa.

Questions To Ask At An Interview.

rainforest cafe chicago.

seattle family law attorney.

shoreham weather.

shores of panama.

shreveport airport.

siena apartments.

SOCIETY CHANGES FROM 1915 TO 2005.

things to do in charlotte north carolina.

top rated fitness gyms in washington dc.

travel tips to the northwest usa.

United States Embassy.

vice president of trust at Frontier Bank in Everett Washington.

villas to rent in south west majorca.

wet place.

whalen furniture.

which airport is near to st julians in malta.

whirlpool dishwashers.

woody allen.


Para la evaluación podeis usar el test de evaluación de 500 preguntas de: https://research.microsoft.com/~xingx/Evaluation.xml




Treballs autònoms

Trabajos autónomos (cada alumno elegirá 1). El trabajo implicará un estudio del estado del arte actual de uno de los siguientes temas:


  1. Parsing de dependencias

  2. Parsing probabilístico más allá de las PCFG

  3. Detección y generación de paráfrasis

  4. Semantic Role Labeling

  5. Textual Entailment

  6. Simplificación de gramáticas (CFG → RG)

  7. Treebanks



sesión

fecha

contenido

profesor

material

1

5/10/2007

presentación del curso

presentación de los trabajos dirigidos y autónomos

tema 1.1 Representación lingüística

tema 2.1 Recursos léxicos y su adquisición (1) corpus

Horacio

página de la asignatura PLN de la FIB


Curso de verano en UJI Castellón (2006)  Corpus lingüísticos




2

9/10/2007                                     

tema 2.1 Recursos léxicos y su adquisición (2) aprendizaje de la morfología

tema 2.4 Uso de recursos lingüísticos en PLN

Horacio


(transparencias y bibliografía)     Morphology Learning

introducción  
( Capítulo de la  tesis de Toni Oliver, 2004

3

16/10/2007

tema 4.3 Pragmática y discurso

tema 4.4 Diálogo

Marta

(transparències)    dialeg

4

19/10/2007

tema 5.2 Q&A (1)

Horacio

(transparencias y bibliografía)    QA

5

23/10/2007

tema 5.2 Q&A (2)

Horacio


6

26/10/2007

tema 5.1 TA (1)

David


7

30/10/2007

tema 5.1 TA (2)

David


8

6/11/2007

tema 5.3 SBD (1)

Marta


9

9/11/2007

tema 2.1 Gramáticas

tema 4.1 Parsing probabilístico

Horacio

(transparencias y bibliografía)    Statistical_Parsing

10

13/11/2007

tema 5.3 SBD (2)

Marta


11

16/11/2007

tema 3.1 Correferencia

trabajo dirigido (1)

Horacio

(transparencias y bibliografía)    Coreference

12

20/11/2007

tema 3.2 NERC

trabajo dirigido (2)

Horacio

(transparencias y bibliografía)    NERC

13

23/11/2007

tema 3.3 Textual Entailment

tema 3.3 Paráfrasis

Horacio

transparencias y bibliografía)    te


transparencias y bibliografía)    paraphrasing

14

4/12/2007

tema 3.3 Medidas de proximidad en PLN

trabajo dirigido (3)

Horacio

curso verano Soria 2002 sobre similitud semantica   similarity

15

11/12/2007

tema 4.1 Parsing de dependencias

Horacio

transparencias,  bibliografía,
presentación Xavi Carreras)    dependency_parsing 

16

14/12/2007

tema 2.3 Ontologías, WordNet, SUMO, FrameNet, Propbank,

David


17

18/12/2007


tema 4.2 Parsing  semántico

trabajo dirigido (4)


Horacio


18

21/12/2007

TA-1

TA-2

alumno 1


alumno 2


19

8/01/2008

TA-3

alumno 3


20

11/01/2008

Trabajo dirigido

alumnos



Barcelona, 25 de setembre de 2007