Trabajos relacionados con el PTB (PennTreeBank) Día de entrega: 13.1.06 Grupos de 3 personas (salvo casos especiales) *********************************************************************** Partiendo de: 0) Previo: Familiarizarse con el PTB. Podéis leer el artículo original [Marcus et al, 1993] o cualquiera de las descripciones que se incluyen en otros trabajos, por ejemplo en las tesis de Collins [Collins, 1999] o [Hockenmaier, 2003] o el trabajo de Charniak [Charniak, 1997] sobre las treebank grammars. Hacer un pequeño informe sobre el contenido del PTB (tanto cualitativo como cuantitativo). Para todas las prácticas sugerimos la utilización de los scripts Perl que proporciona Gaizauskas para acceder al PTB. Realizad una de las siguientes prácticas: 1) Extraed una treebank grammar a partir del PTB. Aplicar alguno de los métodos que propone Krotov, [Krotov et al, 1998] para simplificar la gramática extraída previamente. Construid una treebank grammar para chunks nominales (básicos o extendidos). Implementadla en el formato compatible con algún analizador del que dispongáis (p.ej. podéis usar las DCG en Prolog o el formalismo del TACAT). Discutid los resultados. 2) Utilizad el método propuesto por Collins (descrito en [Collins, 1999] o [Hockenmaier, 2003]) para encontrar los heads de los componentes de una treebank grammar. Extraed del PTB una gramática de chunks nominales básicos (no recursivos) y extendedla para obtener sus heads. Implementadla en el formato compatible con algún analizador del que dispongáis adaptándolo para poder representar los heads (p.ej. podéis usar las DCG en Prolog o el formalismo del TACAT). Discutid los resultados. 3) Extraed del PTB una treebank grammar para chunks nominales y preposicionales básicos (no recursivos). Lexicalizadla (utilizando algún threshold sobre la frecuencia de los elementos a lexicalizar). Implementadla en el formato compatible con algún analizador del que dispongáis adaptándolo para poder usar restricciones léxicas (p.ej. podéis usar las DCG en Prolog o el formalismo del TACAT). Discutid los resultados comparándolos con los del caso no lexicalizado. 4) A partir de los scripts que proporciona Gaizauskas para acceder al PTB proponed e implementad extensiones que sean útiles para experimentar con el PTB. Aplicad las herramientas a alguno de los siguientes problemas: 4.1) Verificad la hipótesis de que los NP se realizan más frecuentemente como pronombre en posición de sujeto que en cualquier otra posición. 4.2) Obtened a partir del PTB features de las usadas por [Gildea, Jurafsky, 2002]. Ilustradlo con un conjunto reducido del PTB. 4.3) Obtened a partir del PTB una base de datos para aplicar el DOP. Ilustradlo con un conjunto reducido del PTB. 5) Discutid la distinción entre complementos y adjuntos en el PTB. Ilustrad la discusión con algún análisis cuantitativo lexicalizado o no. 6) Partiendo de esta lista de verbos (win, lose, gain, rise, climb, go up, go down, drop, draw, tie): Buscadlos en el PTB y buscad sus sujetos. Extraed los heads de los sujetos y buscad estos heads en el WordNet (podéis utilizar el WordNetquery). Intentad generalizar para extraer restricciones (o preferencias) de selección y discutid los resultados. Opcionalmente (se valorará positivamente), además de lo anterior, también podéis mirar si los verbos de la lista son polisémicos e intentar hacer una propuesta de "distinción/desambiguación" de su casuística, es decir, de los ejemplos en los que ocurren. 7) Estudiad y experimentad un poco con los paquetes FSM, GRM y Lextools, los podéis encontrar en ~tools/soft/FSM. Para usarlos sólo necesitáis añadir la siguiente línea en vuestro fichero ".tcshrc": source /usr/usuaris/ia/tools/soft/FSM/tcsh-config. Uno de los paquetes (GRM) permite, entre otras cosas, aproximar gramáticas CFG a RG y generar el autómata correspondiente. Una posible utilización es nuestro reconocedor de NEs que usa la gramática creada por Montse Arévalo. Actualmente no se usa porque es muy lenta (la gramática tiene unas 2.000 reglas y el analizador de charts (TACAT) es lento). La idea es aproximar la gramática a una regular, pasarla a un autómata y ver qué pasa en términos de precisión y tiempo de proceso. Si alguien elige este problema que contacte con Lluís Padrò para obtener la gramática de Montse Arévalo. 8) Un tipo especialmente complicado de preguntas en los sistemas de Q&A es el de las preguntas de tipo why? Una parte de este tipo de preguntas puede responderse si somos capaces de localizar y extraer relaciones de causa que pueden aparecer en los textos. No hay demasiadas aproximaciones al tema (podeis consultar algunos trabajos de Roxana Girju y de Bill Black). Algunos ejemplos de oraciones que explicitan una relación de causa son: "The effect of fluxoids on self-recombination" "The response of chickpea seedlings to abnormally low temperatures" "The growth of chickpea seedlings is seriously impeded by night-time temperature below 5ºC" (ejemplos tomados de Paice & Black 2005). La práctica consiste en estudiar la tipología de las relaciones de causa y escribir una gramática que localice en textos abiertos oraciones que sean candidatas a expresar una relación de causa. Podeis usar cualquier lengua, cualquier formalismo y cualquier corpus. Referencias: En ~ageno/item/doctorado/gaizauskas/ están ya los programas Perl para modificar el PennTreebank y el paper de Gaizauskas donde se explican. El PennTreebank está en: ~corpus/anterior_acquilex/wsj.tagged_parsed.tar.gz Bod, R. (1995) "Enriching Linguistics with Statistics: Performance Models of NL" ILLC Dissertation Series 1995-14. Academische Pers, Amsterdam. M.J. Collins (1999) "Head-Driven Statistical Models for Natural Language Processing" PHD Dissertation, University of Pennsylvania. Charniak E. (1997) "Statistical techniques for Natural Language Parsing" AI Magazine Winter 1997 http://www.cs.brown.edu/people/ec/papers/aimag97.ps Daniel Gildea and Daniel Jurafsky (2002) "Automatic Labeling of Semantic Roles" Computational Linguistics 28:3, 245-288. http://www.colorado.edu/ling/jurafsky/cl01.ps Julia Hockenmaier (2003) "Data and Models for Statistical Parsing with Combinatory Categorial Grammar" PHD dissertation, University of Edinburgh. Krotov, M. Hepple, R. Gaizauskas, Y. Wilks (1998) "Compacting the Penn Treebank Grammar". COLING 1998, also Journal of Natural Language Engineering. 2000 http://xxx.lanl.gov/ps/cmp-lg/9902001