| TERM31_ESP-GS.rs3 (57) |
| EDU | Segment | Tagger | Central Unit |
| 1 | El vaciado terminológico automático y su aplicación para el euskera
| GS | |
| 2 | 1. Introducción
| GS | |
| 3 | En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos, | GS | |
| 4 | si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente. | GS | |
| 5 | Como ejemplo de lo anterior pueden citarse los siguientes instrumentos: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94) TERMS de IBM (Justeson & Katz, 95) NPtool (Arpper, 95).
| GS | |
| 6 | Pueden dividirse en dos grandes grupos las áreas de aplicación: área de indexación de la información y área de confección de glosarios terminológicos. | GS | |
| 7 | Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática, | GS | |
| 8 | sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo.
| GS | |
| 9 | Si pretendemos desarrollar un instrumento similar para el euskera, | GS | |
| 10 | toparemos con mayores inconvenientes debido a estas razones: | GS | |
| 11 | el proceso unificador de la lengua no ha concluido, | GS | |
| 12 | las investigaciones efectuadas son limitadas | GS | |
| 13 | y, por último, el euskara es una lengua aglutinante.
| GS | |
| 14 | 2. Vaciado terminológico
| GS | |
| 15 | Es una ardua labor conseguir una definición formal y completa de un término | GS | |
| 16 | y en eso consiste precisamente un apartado importante del trabajo: | GS | |
| 17 | definir las características de los términos. | GS | |
| 18 | Para conseguir del corpus términos técnicos | GS | |
| 19 | se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas.
| GS | |
| 20 | 2.1. Técnicas lingüísticas
| GS | |
| 21 | Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos. | GS | |
| 22 | Como se suelen emplear modelos morfosintácticos, | GS | |
| 23 | resulta conveniente tener analizado el texto o, por lo menos, etiquetado. | GS | |
| 24 | La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. | GS | |
| 25 | De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96).
| GS | |
| 26 | La lematización está ligada al análisis morfológico y a la desambiguación. | GS | |
| 27 | En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados | GS | |
| 28 | y será necesaria la lematización. | GS | |
| 29 | El conocimiento lingüístico también es primordial en la normalización terminológica; | GS | |
| 30 | ya que como algunos términos pueden formar parte de otras unidades más largas, | GS | |
| 31 | se ha de efectuar una discriminación entre ellos.
| GS | |
| 32 | 2.2. Técnicas estadísticas
| GS | |
| 33 | En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico. | GS | |
| 34 | Los métodos aplicados varían mucho en función del proyecto, | GS | |
| 35 | por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), | GS | |
| 36 | si bien, en general, se combinan numerosas fórmulas probabilísticas.
| GS | |
| 37 | 2.3. Resultados
| GS | |
| 38 | Los resultados que se obtienen no son aún los que se precisarían | GS | |
| 39 | para efectuar un vaciado absolutamente automático. Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). | GS | |
| 40 | En ese equilibrio se le otorga preferencia a la cobertura, | GS | |
| 41 | siempre que haya una persona que lleve a cabo la reducción terminológica. | GS | |
| 42 | Para obtener una cobertura del 95% | GS | |
| 43 | se suele reducir la precisión al 50%, | GS | |
| 44 | y para que la precisión ronde el 85%, | GS | |
| 45 | la cobertura no se reduce ni al 35% siquiera.
| GS | |
| 46 | 3. Aplicación al euskera
| GS | |
| 47 | El grupo IXA tiene la intención de desarrollar una herramienta de este tipo para el euskera. | GS | |
| 48 | Para ello, ya está preparado el analizador morfológico (Alegria et al., 96), | GS | |
| 49 | el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96) y también estamos trabajando la sintaxis del nivel superficial.
| GS | |
| 50 | Mientras se preparan dichas herramientas, | GS | |
| 51 | habremos de trabajar sobre la modelización de los términos técnicos, | GS | |
| 52 | es decir, hemos de reducir las características de los mismos. | GS | |
| 53 | Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, | GS | |
| 54 | se han de conseguir modelos principales. | GS | |
| 55 | Aunque aún no contamos con resultados, | GS | |
| 56 | intuimos que el modelo será más amplio que el del sintagma nominal. | GS | |
| 57 | Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo. | GS | |