El vaciado terminológico automático y su aplicación para el euskera
1. Introducción
En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos,
si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente.
Como ejemplo de lo anterior pueden citarse los siguientes instrumentos: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94) TERMS de IBM (Justeson & Katz, 95) NPtool (Arpper, 95).
Pueden dividirse en dos grandes grupos las áreas de aplicación: área de indexación de la información y área de confección de glosarios terminológicos.
Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática, sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo.
Si pretendemos desarrollar un instrumento similar para el euskera,
toparemos con mayores inconvenientes debido a estas razones:
el proceso unificador de la lengua no ha concluido,
las investigaciones efectuadas son limitadas
y, por último, el euskara es una lengua aglutinante.
2. Vaciado terminológico
Es una ardua labor conseguir una definición formal y completa de un término
y en eso consiste precisamente un apartado importante del trabajo: definir las características de los términos.
Para conseguir del corpus términos técnicos se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas.
2.1. Técnicas lingüísticas
Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos.
Como se suelen emplear modelos morfosintácticos,
resulta conveniente tener analizado el texto o, por lo menos, etiquetado.
La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma.
De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96).
La lematización está ligada al análisis morfológico y a la desambiguación.
En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados
y será necesaria la lematización.
El conocimiento lingüístico también es primordial en la normalización terminológica;
ya que como algunos términos pueden formar parte de otras unidades más largas,
se ha de efectuar una discriminación entre ellos.
2.2. Técnicas estadísticas
En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico.
Los métodos aplicados varían mucho en función del proyecto,
por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95),
si bien, en general, se combinan numerosas fórmulas probabilísticas.
2.3. Resultados
Los resultados que se obtienen no son aún los que se precisarían para efectuar un vaciado absolutamente automático.
Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision).
En ese equilibrio se le otorga preferencia a la cobertura,
siempre que haya una persona que lleve a cabo la reducción terminológica.
Para obtener una cobertura del 95% se suele reducir la precisión al 50%,
y para que la precisión ronde el 85%, la cobertura no se reduce ni al 35% siquiera.
3. Aplicación al euskera
El grupo IXA tiene la intención de desarrollar una herramienta de este tipo para el euskera.
Para ello, ya está preparado el analizador morfológico (Alegria et al., 96),
el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96)
y también estamos trabajando la sintaxis del nivel superficial.
Mientras se preparan dichas herramientas,
habremos de trabajar sobre la modelización de los términos técnicos,
es decir, hemos de reducir las características de los mismos.
Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, se han de conseguir modelos principales.
Aunque aún no contamos con resultados,
intuimos que el modelo será más amplio que el del sintagma nominal.
Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo.