Anotación de la factualidad en español. El proyecto TAGFACT
En este trabajo presentamos el proyecto TAGFACT, sobre anotación de la factualidad en español, y algunos de los resultados obtenidos hasta ahora, como el corpus Gold Standard y herramientas asociadas a su creación. Se trata de un corpus periodístico en español que ha sido anotado manualmente (kappa moderada en la fase de entrenamiento), a partir de una preetiquetación automática.
Dicho corpus ha sido anotado a partir de un modelo de representación de la factualidad multidimensional: incluye el tiempo, el grado de certeza con el cual se presenta la situación, la polaridad y la categoría eventiva del predicado. Además, como información adicional relacionada con el grado de certeza, se identifica la fuente (“voz”), es decir el emisor de cada predicado. En textos periodísticos, la voz principal es el narrador, o sea, el periodista, cuya visión de los hechos puede variar según el medio o su posicionamiento personal. En otras ocasiones, son los protagonistas de la situación descrita los que directamente la presentan con mayor o menor certeza, ya que las noticias incluyen muchas oraciones de discurso directo e indirecto.
El objetivo último, en el que estamos ya trabajando, es la creación de una herramienta automática de anotación basada en reglas lingüísticas. Tanto esta herramienta como el corpus creado son dos recursos innovadores en el ámbito que nos ocupa puesto que el trabajo realizado para el español en este ámbito es muy escaso.