TERM31_ESP-GS.rs3 (57) |
EDU | Segment | Tagger | Central Unit |
1 | El vaciado terminológico automático y su aplicación para el euskera
| GS | |
2 | 1. Introducción
| GS | |
3 | En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos, | GS | |
4 | si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente. | GS | |
5 | Como ejemplo de lo anterior pueden citarse los siguientes instrumentos: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94) TERMS de IBM (Justeson & Katz, 95) NPtool (Arpper, 95).
| GS | |
6 | Pueden dividirse en dos grandes grupos las áreas de aplicación: área de indexación de la información y área de confección de glosarios terminológicos. | GS | |
7 | Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática, | GS | |
8 | sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo.
| GS | |
9 | Si pretendemos desarrollar un instrumento similar para el euskera, | GS | |
10 | toparemos con mayores inconvenientes debido a estas razones: | GS | |
11 | el proceso unificador de la lengua no ha concluido, | GS | |
12 | las investigaciones efectuadas son limitadas | GS | |
13 | y, por último, el euskara es una lengua aglutinante.
| GS | |
14 | 2. Vaciado terminológico
| GS | |
15 | Es una ardua labor conseguir una definición formal y completa de un término | GS | |
16 | y en eso consiste precisamente un apartado importante del trabajo: | GS | |
17 | definir las características de los términos. | GS | |
18 | Para conseguir del corpus términos técnicos | GS | |
19 | se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas.
| GS | |
20 | 2.1. Técnicas lingüísticas
| GS | |
21 | Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos. | GS | |
22 | Como se suelen emplear modelos morfosintácticos, | GS | |
23 | resulta conveniente tener analizado el texto o, por lo menos, etiquetado. | GS | |
24 | La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. | GS | |
25 | De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96).
| GS | |
26 | La lematización está ligada al análisis morfológico y a la desambiguación. | GS | |
27 | En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados | GS | |
28 | y será necesaria la lematización. | GS | |
29 | El conocimiento lingüístico también es primordial en la normalización terminológica; | GS | |
30 | ya que como algunos términos pueden formar parte de otras unidades más largas, | GS | |
31 | se ha de efectuar una discriminación entre ellos.
| GS | |
32 | 2.2. Técnicas estadísticas
| GS | |
33 | En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico. | GS | |
34 | Los métodos aplicados varían mucho en función del proyecto, | GS | |
35 | por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), | GS | |
36 | si bien, en general, se combinan numerosas fórmulas probabilísticas.
| GS | |
37 | 2.3. Resultados
| GS | |
38 | Los resultados que se obtienen no son aún los que se precisarían | GS | |
39 | para efectuar un vaciado absolutamente automático. Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). | GS | |
40 | En ese equilibrio se le otorga preferencia a la cobertura, | GS | |
41 | siempre que haya una persona que lleve a cabo la reducción terminológica. | GS | |
42 | Para obtener una cobertura del 95% | GS | |
43 | se suele reducir la precisión al 50%, | GS | |
44 | y para que la precisión ronde el 85%, | GS | |
45 | la cobertura no se reduce ni al 35% siquiera.
| GS | |
46 | 3. Aplicación al euskera
| GS | |
47 | El grupo IXA tiene la intención de desarrollar una herramienta de este tipo para el euskera. | GS | |
48 | Para ello, ya está preparado el analizador morfológico (Alegria et al., 96), | GS | |
49 | el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96) y también estamos trabajando la sintaxis del nivel superficial.
| GS | |
50 | Mientras se preparan dichas herramientas, | GS | |
51 | habremos de trabajar sobre la modelización de los términos técnicos, | GS | |
52 | es decir, hemos de reducir las características de los mismos. | GS | |
53 | Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, | GS | |
54 | se han de conseguir modelos principales. | GS | |
55 | Aunque aún no contamos con resultados, | GS | |
56 | intuimos que el modelo será más amplio que el del sintagma nominal. | GS | |
57 | Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo. | GS | |