Id | Segment | Tagger | CU |
1 | El vaciado terminológico automático y su aplicación para el euskera | A2 | |
2 |
1. Introducción | A2 | |
3 |
En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos, | A2 | |
4 | si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente. | A2 | |
5 | Como ejemplo de lo anterior pueden citarse los siguientes instrumentos: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94) TERMS de IBM (Justeson & Katz, 95) NPtool (Arpper, 95). | A2 | |
6 |
Pueden dividirse en dos grandes grupos las áreas de aplicación: área de indexación de la información y área de confección de glosarios terminológicos. | A2 | |
7 | Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática, sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo. | A2 | |
8 |
Si pretendemos desarrollar un instrumento similar para el euskera, | A2 | |
9 | toparemos con mayores inconvenientes debido a estas razones: | A2 | |
10 |
2. Vaciado terminológico | A2 | |
11 |
Es una ardua labor conseguir una definición formal y completa de un término | A2 | |
12 | y en eso consiste precisamente un apartado importante del trabajo: definir las características de los términos. | A2 | |
13 | Para conseguir del corpus términos técnicos se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas. | A2 | |
14 |
2.1. Técnicas lingüísticas | A2 | |
15 |
Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos. | A2 | |
16 | Como se suelen emplear modelos morfosintácticos, | A2 | |
17 | resulta conveniente tener analizado el texto o, por lo menos, etiquetado. | A2 | |
18 | La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. | A2 | |
19 | De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96). | A2 | |
20 |
La lematización está ligada al análisis morfológico y a la desambiguación. | A2 | |
21 | En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados | A2 | |
22 | y será necesaria la lematización. | A2 | |
23 | El conocimiento lingüístico también es primordial en la normalización terminológica; | A2 | |
24 | ya que como algunos términos pueden formar parte de otras unidades más largas, | A2 | |
25 | se ha de efectuar una discriminación entre ellos. | A2 | |
26 |
En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico. | A2 | |
27 | Los métodos aplicados varían mucho en función del proyecto, | A2 | |
28 | por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), | A2 | |
29 | si bien, en general, se combinan numerosas fórmulas probabilísticas. | A2 | |
30 |
2.3. Resultados | A2 | |
31 |
Los resultados que se obtienen no son aún los que se precisarían para efectuar un vaciado absolutamente automático. | A2 | |
32 | Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). | A2 | |
33 | En ese equilibrio se le otorga preferencia a la cobertura, | A2 | |
34 | siempre que haya una persona que lleve a cabo la reducción terminológica. | A2 | |
35 | Para obtener una cobertura del 95% se suele reducir la precisión al 50%, | A2 | |
36 | y para que la precisión ronde el 85%, la cobertura no se reduce ni al 35% siquiera. | A2 | |
37 |
3. Aplicación al euskera | A2 | |
38 |
El grupo IXA tiene la intención de desarrollar una herramienta de este tipo para el euskera. | A2 | |
39 | Para ello, ya está preparado el analizador morfológico (Alegria et al., 96), | A2 | |
40 | el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96) | A2 | |
41 | y también estamos trabajando la sintaxis del nivel superficial. | A2 | |
42 |
Mientras se preparan dichas herramientas, | A2 | |
43 | habremos de trabajar sobre la modelización de los términos técnicos, | A2 | |
44 | es decir, hemos de reducir las características de los mismos. | A2 | |
45 | Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, se han de conseguir modelos principales. | A2 | |
46 | Aunque aún no contamos con resultados, | A2 | |
47 | intuimos que el modelo será más amplio que el del sintagma nominal. | A2 | |
48 | Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo. | A2 | |
49 | el proceso unificador de la lengua no ha concluido, | A2 | |
50 | las investigaciones efectuadas son limitadas | A2 | |
51 | y, por último, el euskara es una lengua aglutinante. | A2 | |
52 |
2.2. Técnicas estadísticas | A2 | |