Horacio Rodríguez (Responsable de l'assignatura), Marta Gatius , David Farwell
Dimarts de 10h a 12h i divendres de 12h a 14h, aula A1106
Començament del curs 5 octubre 2007
L'objectiu d'aquest curs és dotar l'estudiant d'un coneixement sòlid de les tècniques, mètodes i eines, tan simbòliques com empíriques, de tractament de la llengua, focalitzant en els sistemes que impliquen una comunicació entre persona i màquina. Bàsicament es tractaran els sistemes, mètodes i processadors que gestionen d'una forma explícita el coneixement lingüístic.
Aquest coneixement lingüístic pot ser construït específicament per una aplicació concreta o incorporat des de repositoris de recursos lingüístics d'abast general (diccionaris, lexicons, ontologies, gramàtiques, ontologies, etc.) o corresponents a dominis concrets.
Aquest coneixement es complementa amb el proporcionat per l'assignatura Processament del Llenguatge Natural pel Processament Massiu de d’Informació Textual (PLN-PMT), de forma que l'alumne pugui assolir un coneixement suficient dels paradigmes bàsics pel tractament de la llengua en els dos escenaris més habituals en les aplicacions.
Finalment es presenten els temes oberts de recerca més actius en el àmbit del temari de l'assignatura.
Els dos escenaris bàsics en què es poden classificar les aplicacions del processament del llenguatge natural són:
La comunicació entre persona i màquina i
El tractament massiu d’informació textual.
Els dos escenaris impliquen requeriments de procés força diferents i, per tant, utilització de tècniques i mètodes també diferents. Encara que moltes aplicacions tenen components variats i són difícils de classificar en un d’aquest escenaris l’organització de l’ensenyament del PLN en aquests dos escenaris ens sembla la forma més adequada.
El contingut de l’assignatura s’estructura en quatre blocs:
Les aplicacions més interessants que tenen com a component bàsic la comunicació entre persona i màquina.
Les tasques genèriques bàsiques, presents en aquestes aplicacions (i en d’altres) que no hagin estat introduïdes en assignatures obligatòries prèvies.
La presentació dels fonaments teòrics de la Lingüística Computacional i la descripció d'algunes tècniques avançades de processament de la llengua, necessàries per implementar aquestes tasques i que d’alguna forma estenen les tècniques bàsiques ja conegudes pels alumnes.
La presentació de recursos lingüístics i eines útils per construir sistemes de comunicació entre persona i màquina.
Concretament el temari s’estructuraria en els següents temes que tenen una distribució força esbiaixada cap els continguts de les aplicacions:
1. Fonaments teòrics de la Lingüística Computacional
1.1. Revisió dels mecanismes bàsics de representació lingüística (gramàtiques
sintagmàtiques i d'unificació, formes lògiques i representació semàntica, etc.)
1.2. Càlcul Sintàctic, semàntica lògica i Gramàtica lògica de tipus (Type Logic
Grammar)
2. Recursos lingüístics, la seva adquisició i el seu ús
2.1. Gramàtiques
2.2. Recursos lèxics, tant estructurats (lexicons, diccionaris, gazetteers) com no
estructurats (corpus amb diferents nivells de marcatge)
2.3. Ontologies lèxiques i conceptuals. WordNet i SUMO
2.4. L'ús de recursos lingüístics en el processament de la llengua
3. Tasques genèriques
3.1 Cerca de referents entre unitats lingüístiques. Referència directa i anafòrica,
Correferència
3.2 Reconeixement i classificació d’entitats amb nom (Named Entity Recognition &
Classification)
3.3 Mecanismes d’inferència en PLN
4. Temes avançats de PLN
4.1. Anàlisi sintàctica (parsing) avançada. Anàlisi estadística, anàlisi de
dependències
4.2. Formes avançades de representació i interpretació semàntica
4.3. Pragmàtica i discurs
4.4. Diàleg.
5. Aplicacions
5.1. Traducció automàtica
5.2. Sistemes de Cerca de la Resposta (Question & Answering)
5.3. Sistemes basats en diàleg
La metodologia docent de l'assignatura s'organitza per tal d’estructurar les activitats dels alumnes, de cara a assolir els objectius definits abans. Les activitats dels alumnes es divideixen en les de participació a les sessions presencials i les de participació en d'activitats dirigides i autònomes.
La distribució d'hores per cobrir els 6 crèdits ECTS de l'assignatura es la següent:
Hores de treball presencial: 40
Hores de treball dirigit: 80
Hores de treball autònom: 60
Les activitats de treball presencial inclouen:
Exposició per part del professor dels continguts teòrics de l'assignatura
Presentació per part dels alumnes (en grup) dels resultats dels seus treballs dirigits i autònoms
Les activitats de treball dirigit es centren en la construcció d'un prototipus d'un sistema real integrat en una de les famílies d'aplicacions descrites al punt 5 del temari. Cada projecte tutoritzat serà desenvolupat per un grup d'alumnes. L'aplicació a desenvolupar serà la mateixa per tots els grups de forma que es puguin comparar els diferents enfocaments, problemes i resultats. Els alumnes presentaran i defensaran els seus sistemes en una sessió presencial.
Les activitats de treball autònom se centren en alguna de les tasques obertes descrites als apartats 3 i 4 del temari. Els alumnes, organitzats en grups, estudiaran la tasca concreta, que haurà estat introduïda a classe presencial, realitzaran lectures orientades sobre el tema, proposades pels professors, buscaran altres fonts d'informació i elaboraran un estat de l'art sobre el tema, que presentaran i defensaran públicament.
Hi haurà tres elements evaluatoris:
Elaboració de l'estat de l'art sobre una de les tasques obertes (apartats 3 i 4 del temari): 40% de la nota
Desenvolupament d'un prototipus sobre una de les aplicacions (apartat 5 del temari): 40% de la nota
Presentació i defensa dels treballs anteriors: 20% de la nota
R. Dale, H. Moisl, H.Somers, ed. Handbook of natural Language Processing, Marcel Dekker, New York, 2000.·
D. Jurafsky, James H. Martin Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Prentice Hall, Upper Saddle River, N.J. , 2000.·
C. Manning, H. Schütze Foundations of statistical Natural Language Processing, MIT Press Cambridge, Mass., 1999.·
R. Mitkov (editor) The Oxford handbook of Computational Linguistics, Oxford University Press, 2004.
http://nltk.sourceforge.net/
NLTK, Natural Language Toolkit
http://www.aclweb.org/
Association of Computational Linguistics ACL
http://acl.ldc.upenn.edu/
ACL Anthology
http://www.cordis.lu/ist/
Information Society Technology IST
http://oesi.cervantes.es/
Oficina del Español en la Sociedad de la Información OESI
http://www.sepln.org
Sociedad Española para el procesamiento del lenguaje
natural SEPLN
http://www.talp.upc.es/
TALP (UPC)
http://www.lsi.upc.edu/~nlp/web/
Grup de PLN de la UPC
http://opennlp.sourceforge.net/
OpenNLP
http://web.syr.edu/~mdtaffet/
Pàgina de recursos de NLP de Mary Taffet
http://nlp.stanford.edu/links/statnlp.html
Pàgina de recursos de NLP de l' Universitat d'Stanford
http://mallet.cs.umass.edu/index.php/Main_Page
Mallet, toolbox en Java, desarrollado por Andrew McCallum para
NLP de tipo estadístico
http://www.cs.waikato.ac.nz/ml/weka/
WEKA, paquete integrado de Machine Learning
http://www.cs.famaf.unc.edu.ar/~laura/freeNLP
Página de recursos de NLP de Laura Alonso
http://ashda.ugr.es/laboratorio/computacional.htm
Página Universidad de Granada, Laboratorio de
Lingüística Experimental y Computacional, Las
Páginas Amarillas de la Lingüística
Monografía
1 (Diciembre 2001):
Luis Alfonso Ureña López
Resolución de la Ambigüedad Léxica en Tareas
de Clasificación Automática de Documentos.
Monografía
2 (Julio 2003):
Jose Luis Vicedo González
Recuperación
de información de alta precisión: los sistemas de
búsqueda de respuestas.
Monografía 3 (Julio
2003):
Montserrat Civit Torruella
Criterios de etiquetación
y desambiguación morfosintáctica de corpus en
español.
Monografía 4 (Septiembre 2004):
Anselmo
Peñas Padilla
Técnicas lingüísticas
aplicadas a la búsqueda textual multilingüe.
Ambigüedad,
variación terminológica y multilingüismo.
Monografía
5 (Septiembre 2005):
Iulia Nica
El conocimiento lingüístico
en la desambiguación semántica automática.
Monografía 6 (Enero 2007):
David
Martínez Iraolak
Supervised Word Sense Disambiguation:
facing Current Challenges
Cursos (bons!) de contingut similar a aquest i dels quals he agafat material:
MIT (M. Collins) MIT
Toronto (G.
Penn) Toronto
Johns Hopkins
(J. Eisner) JHU
Massachussetts
Amherst (A. McCallum) UMass
Aqui teniu una llista de cursos l'algunes universitats (no els he revisat tots!!!) relacionats amb el contingut d'aquesta assignatura:
http://en.wikipedia.org/wiki/List_of_NLP_Courses
En la última edición de GEOCLEF 2007 (http://ir.shef.ac.uk/geoclef/) se proponía una tarea piloto que implicaba el análisis de queries de tipo geográfico. Lo que os propongo es construir un sistema que aborde este problema. La definición de la tarea es la siguiente:
Query Parsing Task Proposal for GeoCLEF 2007
Microsoft Research Asia
A geographic query is usually composed of three components, “what”, “geo-relation” and “where”. How to parse queries and extract these components from them is a key problem for geographic information retrieval (GIR). Therefore, we propose to add a geographic query parsing task for GeoCLEF 2007.
The contest is open to any party planning to attend CLEF 2007. Multiple submissions per group are allowed, since we will not provide feedback at the time of submission. Only the LAST submission before the deadline will be evaluated.
In the data set, a common query structure will be “what” + “geo-relation” + “where”. The keywords in the “what” component indicate what users want to search; “where” indicates the geographic area users are interested in; “geo-relation” stands for the relationship between “what” and “where”. There also exist non-geographic queries in the data set which need to be recognized.
For example, for a query “Restaurant in Beijing, China”, “what” = “Restaurant”, “where” = “Beijing, China”, and “geo-relation” = “IN”. For another query “Mountains in the south of United States”, “what” = “Mountains”, “where” = “United States”, and “geo-relation” = “SOUTH-OF”.
1. Detect whether the query is a geographic query or not. A geographic query is defined as a query which contains at least a “where” component. For example, “pizza in Seattle, WA” is a geographic query, while “Microsoft software” is not a geographic query. For non-geographic queries, further parsing is not needed.
2. Extract the “where” component from the geographic query and output the corresponding latitude/longitude. For example, in the query “pizza in Seattle, WA”, “Seattle, WA” will be extracted and lat/long value (47.59, -122.33) will be output. Sometimes terms in the “where” component are ambiguous. In this case, the participant should output the lat/long value with the highest confidence. A few queries contain multiple locations, for example, “bus lines from US to Canada”. We will not include these queries in our test set..
3. Extract the “geo-relation” component from the geographic query and normalize it into a pre-defined relation type. A suggested relation type list is shown in Table 1. If the relation type you find is not defined in Table 1, you should categorize it into “UNDEFINED”.
Table 1. Geo-relation Types
|
Example query |
Geo-relation |
|
Beijing |
NONE |
|
in Beijing |
IN |
|
on the Long Island |
ON |
|
of Beijing |
OF |
|
near Beijing next to Beijing |
NEAR |
|
in or around Beijing in and around Beijing |
IN_NEAR |
|
along the Rhine |
ALONG |
|
at Beijing University |
AT |
|
from Beijing |
FROM |
|
to Beijing |
TO |
|
within d miles of Beijing |
DISTANCE |
|
north of Beijing in the north of Beijing |
NORTH_OF |
|
south of Beijing in the south of Beijing |
SOUTH_OF |
|
east of Beijing in the east of Beijing |
EAST_OF |
|
west of Beijing in the west of Beijing |
WEST_OF |
|
northeast of Beijing in the northeast of Beijing |
NORTH_EAST_OF |
|
northwest of Beijing in the northwest of Beijing |
NORTH_WEST_OF |
|
southeast of Beijing in the southeast of Beijing |
SOUTH_EAST_OF |
|
southwest of Beijing in the southwest of Beijing |
SOUTH_WEST_OF |
|
north to Beijing |
NORTH_TO |
|
south to Beijing |
SOUTH_TO |
|
east to Beijing |
EAST_TO |
|
west to Beijing |
WEST_TO |
|
northeast to Beijing |
NORTH_EAST_TO |
|
northwest to Beijing |
NORTH_WEST_TO |
|
southeast to Beijing |
SOUTH_EAST_TO |
|
southwest to Beijing |
SOUTH_WEST_TO |
4. Extract the “what” component from the geographic query and categorize it into one of three predefined types, which are listed below.
Map type, users are looking for natural points of interests, like river, beach, mountain, monuments, etc.
Yellow page type, users are looking for businesses or organizations, like hotels, restaurants, hospitals, etc.
Information type, users are looking for text information, like news, articles, blogs, etc.
We will provide a test set of 800,000 (to be decided) queries. All queries come from real search engine logs. Most of them will be geographical queries. A sample labeled set of 100 (to be decided) queries will also be provided as a training set.
The test set will be provided in XML format. Each query has two attributes: <QUERYNO> and <QUERY>.
<QUERYNO>1</QUERYNO>
<QUERY>Restaurant in Beijing, China</QUERY>
<QUERYNO>2</QUERYNO>
<QUERY>Real estate in Florida</QUERY>
<QUERYNO>3</QUERYNO>
<QUERY>Mountains in the south of United States</QUERY>
The sample labeled set and the results should be in the following format. There are 4 more attributes: <LOCAL>, <WHAT>, <WHAT_TYPE>, <GEO-RELATION> and <WHERE>.
<QUERYNO>1</QUERYNO>
<QUERY>Restaurant in Beijing, China</QUERY>
<LOCAL>YES</LOCAL>
<WHAT>Restaurant</WHAT>
<WHAT-TYPE> Yellow page</WHAT-TYPE>
<GEO-RELATION>IN</ GEO-RELATION>
<WHERE>Beijing, China</WHERE>
<LAT-LONG>40.24, 116.42</LAT-LONG>
<QUERYNO>2</QUERYNO>
<QUERY> Lottery in Florida</QUERY>
<LOCAL>YES</LOCAL>
<WHAT>Lottery</WHAT>
<WHAT-TYPE>Information</WHAT-TYPE>
<GEO-RELATION>IN</ GEO-RELATION>
<WHERE>Florida</WHERE>
<LAT-LONG>28.38, -81.75</LAT-LONG>
If a submission does not contain all search queries, those queries not included will be treated as errors.
We will evaluate the submitted result based on several criterions, including precision, recall, and F1-score.
We will use multiple human editors to tag a subset of queries selected from the total test set. The collection of human editors is assumed to have the most complete knowledge about internet as compared with any individual end user. You will not know which queries will be used for evaluation and are asked to categorize all queries given.
The evaluation will run on the selected test queries and rank your results by how closely they match to the results from human editors. Here are the set of measures we will use to evaluate results submitted by the contestants:

7 day weather welwyn garden city.
7 juniper path lanssale pa 19446.
7 news colorado.
ABC NEWS CHICAGO.
ABERDEEN AIRPORT.
ABERYSTWYTH.
Adirondack Mountains.
Adirondack Park.
Alabama Schools.
Alabama Shakespeare Festival.
Alameda Superior Court.
Alamogordo Daily News.
articles written in 2006 on taxation of electronic commerce.
Attitudes to Education in young people.
bellevue fireplace store.
bendigo cinemas.
bluefield regional medical center.
BLUEFISH.
BMW Canada.
Bodrum Hotels.
bookshop in singapore.
breast cancer care.
bumper to bumper auto parts shreveport la.
bus trips from columbia.
cabins to rent at lake tahoe.
campbell river bc.
cannon mountain.
carpathian mountains.
carpet cleaners in fort walton beach fl florida.
christie lake.
Clearwater Beach Hostels.
Columbia clothing.
Columbia River Gorge.
convert kilometers to miles.
cyprus Italian food.
dictionary from english to spanish.
dinosaur national monument.
Discount Airline Tickets To Brazil.
doctors hospital augusta ga.
dodge park in Wisconsin.
Drain Repairing Mountain View CA.
dubai police.
EARN EXTRA INCOME IN SINGAPORE.
EAST BAY.
flight to key west florida.
florida tax free shopping.
fort pulaski national monument.
free wav to mp3 converter.
fun things to do near maldon.
galleria cinemas.
games to play at parties.
glen canyon.
herald and news klamath falls.
HOUSE TO BUY IN MISSISSAUGA.
how to invest in stock.
jameson inn crestview fl.
lakeside mall in michigan.
law blog in singapore.
List of Restaurants in Ottawa.
macdougall dr in atlanta.
men shoes.
minibus trips in cyprus.
nansemond county virginia.
New Car Dealer Albuquerque.
newbury weekly news.
niagara day tours from toronto.
North Olmsted apartments.
NORTHWEST AIRLINES.
ozark city schools.
pacific coffee.
palm beach post times.
paradise valley community college.
Permission Letter for child to be on television.
pine view high school.
plumbers in manhattan ny new york.
porter central rd ohio.
poultry farming training in the limpopo province.
Price To Sales Ratio.
products to import from cuba.
province of british columbia.
Questionnaires on physical activity in South Africa.
Questions To Ask At An Interview.
rainforest cafe chicago.
seattle family law attorney.
shoreham weather.
shores of panama.
shreveport airport.
siena apartments.
SOCIETY CHANGES FROM 1915 TO 2005.
things to do in charlotte north carolina.
top rated fitness gyms in washington dc.
travel tips to the northwest usa.
United States Embassy.
vice president of trust at Frontier Bank in Everett Washington.
villas to rent in south west majorca.
wet place.
whalen furniture.
which airport is near to st julians in malta.
whirlpool dishwashers.
woody allen.
Para la evaluación podeis usar el test de evaluación de 500 preguntas de: https://research.microsoft.com/~xingx/Evaluation.xml
Trabajos autónomos (cada alumno elegirá 1). El trabajo implicará un estudio del estado del arte actual de uno de los siguientes temas:
Parsing de dependencias
Parsing probabilístico más allá de las PCFG
Detección y generación de paráfrasis
Semantic Role Labeling
Textual Entailment
Simplificación de gramáticas (CFG → RG)
Treebanks
|
sesión |
fecha |
contenido |
profesor |
material |
|
1 |
5/10/2007 |
presentación del curso presentación
de los trabajos dirigidos y autónomos tema 1.1
Representación lingüística
tema 2.1 Recursos léxicos y su adquisición (1) corpus |
Horacio |
página
de la asignatura PLN
de la FIB
|
|
2 |
9/10/2007
|
tema
2.1 Recursos léxicos y su adquisición (2) aprendizaje de
la morfología tema
2.4 Uso de recursos lingüísticos en PLN |
Horacio |
(transparencias y bibliografía) Morphology Learning introducción
|
|
3 |
16/10/2007 |
tema 4.3 Pragmática y discurso tema 4.4 Diálogo |
Marta |
(transparències) dialeg |
|
4 |
19/10/2007 |
tema 5.2 Q&A (1) |
Horacio |
(transparencias y bibliografía) QA |
|
5 |
23/10/2007 |
tema 5.2 Q&A (2) |
Horacio |
|
|
6 |
26/10/2007 |
tema 5.1 TA (1) |
David |
|
|
7 |
30/10/2007 |
tema 5.1 TA (2) |
David |
|
|
8 |
6/11/2007 |
tema 5.3 SBD (1) |
Marta |
|
|
9 |
9/11/2007 |
tema 2.1
Gramáticas tema 4.1 Parsing
probabilístico
|
Horacio |
(transparencias y bibliografía) Statistical_Parsing |
|
10 |
13/11/2007 |
tema 5.3 SBD (2) |
Marta |
|
|
11 |
16/11/2007 |
tema 3.1 Correferencia trabajo dirigido (1) |
Horacio |
(transparencias y bibliografía) Coreference |
|
12 |
20/11/2007 |
tema 3.2 NERC trabajo dirigido (2) |
Horacio |
(transparencias y bibliografía) NERC |
|
13 |
23/11/2007 |
tema 3.3 Textual
Entailment tema 3.3 Paráfrasis |
Horacio |
transparencias y
bibliografía) te
|
|
14 |
4/12/2007 |
tema 3.3 Medidas
de proximidad en PLN trabajo dirigido (3) |
Horacio |
curso verano Soria 2002 sobre similitud semantica similarity |
|
15 |
11/12/2007 |
tema 4.1 Parsing
de dependencias |
Horacio |
transparencias,
bibliografía, |
|
16 |
14/12/2007 |
tema
2.3 Ontologías, WordNet, SUMO, FrameNet, Propbank, |
David |
|
|
17 |
18/12/2007 |
tema 4.2 Parsing semántico trabajo dirigido (4)
|
Horacio |
|
|
18 |
21/12/2007 |
TA-1 TA-2 |
alumno 1
|
|
|
19 |
8/01/2008 |
TA-3 |
alumno 3 |
|
|
20 |
11/01/2008 |
Trabajo dirigido |
alumnos |
|
Barcelona, 25 de setembre de 2007