Campaña de divulgación de CLARIN-K

CLARIN es una infraestructura europea cuya misión es fomentar el intercambio de herramientas y datos lingüísticos para promocionar su utilización en los ámbitos de investigación de las humanidades y las ciencias sociales que trabajan en el análisis y la explotación de textos.

Creada en 2012, CLARIN actualmente ofrece datos lingüísticos digitalizados, aplicaciones y programas avanzados que facilitan el trabajo del investigador para descubrir, explorar, explotar, anotar y analizar textos. Los centros federados que forman la infraestructura son los encargados de ofrecer acceso a servicios y asistencia a los investigadores que estén interesados en utilizarlos. El CLARIN Centro-K-Español (www.clarin-es.org/) es uno de estos centros.

En el CLARIN Centro-K-Español colaboran conjuntamente cuatro centros con mucha experiencia en el Procesamiento del Lenguaje Natural: IULA-UPF, TALG-UVIGO, LINDH-UNED e IXA Taldea.

El Centro-K-español ofrece actualmente los siguientes servicios:

  • Consultoría virtual para asesorar y responder dudas sobre el uso de herramientas de procesamiento y análisis de textos.
  • Acceso libre y gratuito a aplicaciones de análisis de textos: ContaWords, ANALHITZA, y Dcontado para textos en castellano, catalán, euskera y gallego.
  • Soporte para auto-aprendizaje.
  • Organización de programas de formación para investigadores, estudiantes, proyectos o grupos de interés.
  • Servicios tecnológicos para la gestión y planificación de proyectos personalizados según las necesidades de los solicitantes.
  • Información y asistencia para la utilización de los servicios de depósito de proyectos y recursos de CLARIN.

Estos servicios son especialmente útiles para los investigadores de las Humanidades Digitales. A continuación presentamos algunos de los servicios prestados por los miembros del CLARIN Centro-K-Español a investigadores de diferentes ámbitos.

  • IULA-UPF
  • La herramienta ContaWords ha sido utilizada en el marco del proyecto “Tradition et acculturation dans l’Égypte romaine de la investigadora Núria Torras para extraer información y hacer un análisis de una colección de papiros egipcios. En las transcripciones del papiro realizadas por autores del siglo pasado se mantuvieron sin traducir una serie de palabras que no estaban escritas en egipcio antiguo. Ahora, mediante un análisis de la distribución de estas palabras los investigadores del departamento de Humanidades de la UPF quieren encontrar pistas para determinar la lengua de origen de esas palabras que se utilizaban en Egipcio como “palabras mágicas”.
  • La herramienta ContaWords esta siendo utilizada para analizar automáticamente las transcripciones de sesiones de terapia psicológica. Según estudios recientes, el aumento en el uso del “we language”, o frases formuladas en primera persona del plural, indica una mejoría de los individuos sujetos a terapia familiar. En castellano, la herramienta ContaWords, que utiliza el analizador morfológico FreeLing, se encarga de analizar los textos y resumir la frecuencia de aparición de estas formas verbales.

 

  • IXA Taldea
  • Dentro del acuerdo entre las Ikastolas y el Grupo IXA, investigadores del Grupo IXA han utilizado ANALHITZA para extraer el diccionario de los cuentos que se trabajan en Educación Infantil. El corpus se compone de 32 cuentos, para niños de edades diferentes, de los que se han extraído automáticamente los nombres, adjetivos y verbos más frecuentes. El corpus se ha puesto a disposición de los investigadores en http://ixa2.si.ehu.es/clarink/corpusak/ipuinak/ para que pueda ser utilizado en otras investigaciones. Por ejemplo, es muy interesante observar cómo se adjetivan los personajes y qué roles tienen los animales y las personas en este corpus de cuentos, partiendo de ese análisis se pueden crear materiales o cuentos coeducativos.
  • Investigadores del Grupo IXA han utilizado la herramienta COMPRESS-EUS para obtener un corpus de resúmenes de docentes y de discentes en varias etapas educativas: Educación Primaria, Secundaria y Universidad. Utilizando esta herramienta http://ixa2.si.ehu.es/clarink/tresnak/compress-eus/ se puede observar en qué se diferencian los resúmenes hechos por discentes y docentes, y trazar las diferencias según las etapas educativas (se puede probar la versión en castellano http://ixa2.si.ehu.es/clarink/tresnak/compress-eus-es/ con textos legales). Entre otras cosas la herramienta produce automáticamente una hoja de cálculo donde se pueden observar las siguientes cuestiones: qué segmentos del discurso han sido mantenidas, que discentes han mantenido la idea principal del texto o cuales son las relaciones de coherencia que no ha sido eliminadas.

 

  • TALG-UVIGO
  • Investigadores de la Universidade de Vigo en un proyecto sobre el patrimonio cultural emplean DContado para identificar y extraer todas las entidades toponímicas mencionadas en un corpus formado por canciones tradicionales gallegas. Una vez obtienen la lista de topónimos, comprueban en Wikipedia del gallego la información extraída y elaboran una ruta literaria, cultural y etnográfica a través de los lugares mencionados en el cancionero tradicional gallego. Los resultados de DContado sirvieron para iniciar de un modo fundamentado los trabajos relacionados con la explotación turística de este patrimonio.
  • Investigadores en feminismo y traducción de la Universidade de Vigo emplean la herramienta DContado para fundamentar el análisis semántico de los adjetivos valorativos y/o orientados al género aplicados a los substantivos ‘mujer’ y ‘hombre’ en las traducciones de la Biblia al gallego, español e inglés. A partir de un corpus formado por las frases de la Biblia en gallego, español e inglés que contienen las palabras clave ‘home/muller’ (galego), ‘hombre/mujer’ (español) y ‘man/woman’ (inglés), DContado permitió identificar automáticamente los adjetivos colocados más frecuentes y, a partir de los datos proporcionados por la herramienta, establecer los grupos de adjetivos prominentes empleados en cada traducción de la Biblia para caracterizar los géneros de manera distintiva. La investigación permite describir como en gallego, por ejemplo, en el par de adjetivos ‘xusto/xusta’, el adjetivo femenino nunca es referido a ‘muller’ sino a nombres no humanos como ‘sentenza’, ‘obra’, ‘carraxe’, ‘causa,’ ‘condición’… Por su parte, la variante masculina ‘xusto’, además de ese uso, es usado frecuentemente referido a unha persona de género masculino: ‘Noé era un home xusto’, ‘ ti es o home xusto desta xeración’ , ‘Iavé é xusto’, ‘ti es máis xusto ca min’, ‘mataron un home xusto’, ‘era o tal un home íntegro e xusto’… Algo semejante se observa con la pareja de adjetivos ‘asisado/asisada’, mientras que, en el caso del adjetivo ‘valente’, se comprueba que todas sus apariciones en el texto son referidas a un varón o al mismo Dios, personificado siempre como un ser masculino.

 

  • LINHD – UNED
  • En el proyecto Postdata (http://postdata.linhd.es/) se han utilizado técnicas de PLN para el estudio de fenómenos literarios en español medieval, etiquetando automáticamente niveles como el fonológico (transcripción y normalización), morfológico y sintáctico (etiquetado gramatical, parsing) y semántico/análisis de contenido (reconocimiento de entidades nombradas). Además se ha detectado tanto el «encabalgamiento», que consiste en un desacuerdo entre unidades métricas y sintácticas, en el español contemporáneo utilizando las IXA Pipes (concretamente los módulos de etiquetado gramatical (PoS-tagging), parsing de constituyentes y de dependencias (véase http://prf1.org/anja/index/), como la escansión para metro regular e irregular para el español contemporáneo. La escansión requiere la identificación de sílabas métricamente tónicas y átonas, lo que, a su vez, requiere etiquetado gramatical (PoS-tagging).
  • Además el equipo de trabajo del LINHD ha albergado en su entorno virtual de investigación EVILINHD la creación del proyecto HISMEDI: Historia y memoria digital http://evi.linhd.uned.es/projects/hismedi/om/ de la Universidad Carlos III que ha utilizado la colección digital OMEKA para depositar los resultados de la colección de recursos digitales sobre historia y memoria histórica, en la red.
  • Por otra parte, ha colaborado con el proyecto CLARE proporcionando infraestructura tecnológica para alojar los textos en la base de datos en existDB. También ha dado soporte en la implementación y ajuste de las aplicaciones desarrolladas. CLARE es un Corpus monolingüe de referencia de latín con carácter abierto (monitor corpus), compuesto por textos escritos y enriquecidos en formato electrónico.
  • Finalmente, se ha desarrollado la herramienta HISMETAG dentro de la Resource Development Grant Medieval Iberia del proyecto Pelagios. HISMETAG es una herramienta de reconocimiento de entidades nombradas en textos escritos en Español Medieval. Reconoce nombres de de lugares geográficos, edificios, poblaciones, nombres propios de persona y santos, además de identificar roles de distinta naturaleza y establecer las dependencias entre las personas y los roles desempeñados realizando etiquetados anidados. La herramienta está implementada en Java y se utilizan técnicas de PLN en un procesamiento específico para cada contexto semántico que permite detectar nombres conocidos, identificar nuevos término e incluso resolver algunas ambigüedades, realiza análisis de dependencias semánticas y generación de variantes diacrónicas mediante la aplicación de transformaciones morfológicas y fonéticas propias de la norma y la evolución lingüística de la época medieval. Los textos se etiquetan en TEI y se proporcionan distintos formatos de descarga. Los resultados de la herramienta han sido validados por expertos.

 

El equipo del CLARIN Centro-K-Español

  • Núria Bel (UPF)
  • Xavier Gómez Guinovart (UVIGO)
  • Salvador Ros (UNED)
  • Mikel Iruskieta (UPV/EHU)
05/04/2018
Displaying 1 - 2 of 2

Grammars and language models

EDGK
Rule-based Dependency Grammar for Basque

BERTeus
BERT language model for Basque
Displaying 1 - 20 of 20

Tools and services

Averell
Averell is a Python library and command line interface to download and to standardize corpora from ten multi-lingual poetry repositories
Jollyjumper
Jollyjumper is our enjambment detection Python library for Spanish
Rantanplan
Rantanplan is a Python library for the automated scansion of Spanish poetry
PoetryLab app
PoetryLab: An Open Source Toolkit for the Analysis of Spanish Poetry Corpora
PDMapping
Tool for documenting and analyzing speakers' judgments about spatial and sociocultural linguistic variation.
Ferramenta On-Line de ExpeRimentación PerceptivA (FOLErPa)
FOLERPA is an online tool for carrying out perceptual experiments.
Cartografía dos apelidos de Galicia
Research tool for the study of the geographical distribution of surnames in Galicia.
Vocabulary analyzer Web Service
This web service calculates different lexicometric measures and displays them graphically (tokens, types, hapaxes & type/token ratio).
Ngram Statistics de Pedersen
Pedersen's Ngram Statistics Package
UPF Freeling-based part-of-speech tagger.
This is the UPF Freeling-based part-of-speech tagger.
Análisis de relaciones de dependencias
This WS performs dependency parsing using Bohnet's graph-based Parser. The input is text in plain text or CoNLL format. The languages supported are English and Spanish.
Freeling Named Entity Recognition - NER
Freeling-based Named Entity Recognition - NER
WSD-IXA
Word-Sense Disambiguation
Ixa pipes
Multilingual NLP tools
ixaKat
A modular chain of Natural Language Processing tools for Basque
Maltixa
Statistical Syntactic analyzer for Basque

Eustagger
Morphosyntactic tagger for Basque

Xuxen
Spelling and grammar checker for Basque
BASYQUE
A web application to analyse syntactic variation of Basque dialects
Analhitza
Category analyzer