Tesis

La publicación de una tesis es el resultado de un intenso trabajo de investigación en una determinada área de la ciencia. Este intenso trabajo siempre supone un avance en el campo científico que se ha estudiado. Dado que uno de los objetivos de la SEPLN es la promoción de la investigación en Procesamiento del Lenguaje Natural, y con el ánimo de dar a conocer todos los avances que se prouducen en el campo del PLN en España, se pone a disposición las tesis doctorales relacionadas con PLN que se han publicado.

Año:
Título
Detección de la Negación y la Especulación en Opiniones y Textos Médicos
Autor
Noa Patricia Cruz Díaz
Director
Manuel J. Maña López
Resumen

La detección de la negación y la especulación ha sido un área de investigación activa en los últimos años en la comunidad de Procesamiento del Lenguaje Natural, incluyendo algunas tareas competitivas en conferencias relevantes. De hecho, muchas aplicaciones se podrían beneficiar de la identificación precisa de este tipo de información (por ejemplo, detección de interacciones, extracción de información, análisis de sentimientos). Esta tesis tiene como objetivo contribuir a la investigación en curso sobre la negación y la especulación en la comunidad de la Tecnología del Lenguaje a través del desarrollo de sistemas de aprendizaje automático que determinen las palabras claves de negación y especulación así como resuelvan su ámbito lingüístico de aplicación. Entendemos por resolver el ámbito lingüístico, identificar a nivel de la frase los tokens que se ven afectados por las palabras claves. Se centra en los dos dominios en los que la negación y la especulación han recibido más atención: el biomédico y el de artículos de opinión. En el primero, el método propuesto mejora los resultados hasta la fecha para la sub-colección de documentos clínicos del corpus Bioscope. En el segundo, la novedad de la contribución radica en el hecho de que, hasta donde sabemos, éste es el primer sistema entrenado y evaluado en la colección de artículos de opinión Simon Fraser University anotado con información negativa y especulativa, al mismo tiempo, que supone el primer intento en detectar la especulación en este dominio. Además, y debido a los problemas de tokenización encontrados durante el pre-procesamiento de la colección de documentos BioScope y el escaso número de estudios en la bibliografía que aporten soluciones para este problema, la presente tesis describe este tema en profundidad proporcionando un análisis comprensivo así como lleva a cabo la evaluación de algunas herramientas de tokenización. Esta contribución supone el primer estudio de evaluación comparativo de tokenizadores en el ámbito biomédico, el cual podría ayudar a los desarrolladores de Procesamiento del Lenguaje Natural a elegir la mejor herramienta de tokenización a usar.

Título
The relational discourse structure in pragmatics: description and evaluation in Computational Linguistics
Autor
Mikel Iruskieta
Directores
Arantza Díaz de Ilarraza, Mikel Lersundi
Resumen

Written human communications usually consist of more than one sentence, and the coherence relations that exist between these sentences cannot be explained in terms of a successive sequence of phrases  (van Dijk 1997). Normally, coherent texts have a structure that is much more complex than mere juxtaposition, providing, of course, that the author wishes to explain him or herself clearly and take into account all the different sides (even the opposing ones) of the issue at hand. This structure is called relational discourse structure, and its description is located within the field of pragmatics known as discourse analysis.

Upon reading works focusing on relational discourse structure, we realize that although a concerted effort has been made by the scientific community to describe the two main phenomena of the relational discourse structure theory (hierarchical structure and the rhetorical relations between text segments), hardly any work has been carried out in this field in relation to the Basque language, and implicit coherence relations have not been taken into account. This thesis-report describes how we annotated scientific abstracts from different domains with the relational discourse structures found in them. It also describes how we overcame the most important problem encountered when annotating texts at this level, namely inter-annotator subjectivity. To this end, we used Rhetorical Structure Theory (RST) \cite{RefWorks:76}, %Mann-Thompson1987 the most widely accepted theory for describing relational discourse structure phenomena in the field of computational linguistics.

As stated above, for the Basque language, coherence relations have only been partially analyzed to date, with almost all focus being firmly placed on explicit coherence relations. This thesis seeks to redress this situation by describing coherence relations (both explicit and implicit) at different levels (micro-structure and macro-structure), and based on semantic-pragmatic criteria. Moreover, thanks to an innovative annotation method that will also be presented here, the paper’s main claim is that inter-annotator subjectivity is not always present to the same degree in the backbone of hierarchical structures, at the different levels of the discourse structure tree or indeed in certain coherence relations between different text segments. To demonstrate this, we propose an innovative qualitative-quantitative 
relational discourse structure evaluation system. Although we have used this system here to evaluate the reliability of an annotated text
in the Basque language, we will also demonstrate that it can be used to compare structures in parallel corpora. Moreover, in order both to avoid circularity problems between rhetorical relations and their signals that may arise as the result of a training phase designed to increase inter-annotator agreement, and to enhance the reliability of discourse structures, we first established the criteria to be followed by the super annotator within RST.  The principal outcome of this proposal is a set of characteristics of the first reference corpus in the Basque language annotated with relational discourse structure.  We will also outline some innovative search tools to consult the contents of the tagged corpus and will describe the work carried out to disseminate the corpus and make it available to the scientific community at large. 
The files of the corpus annotated at different language levels have been made available to any interested party, in the hope that they will prove useful to certain tasks involved in the processing  of the Basque language, including: automatic segmentation, information retrieval, 
automatic summarization and machine translation, among others.

The addresses of the corpus annotated with relational discourse structure, the electronic version of the thesis in Basque, and  the abbreviated translation of the thesis are as follows: