TERM31_ESP-GS.rs3 (55) |
Left unit | Sense | Right unit | Relation type | Relation name | Tagger | rhetdb | Notes |
Como se suelen emplear modelos morfosintácticos, | --> | resulta conveniente tener analizado el texto o, por lo menos, etiquetado. | cause | N-S | GS | | | |
ya que como algunos términos pueden formar parte de otras unidades más largas, | --> | se ha de efectuar una discriminación entre ellos. | cause | N-S | GS | | | |
Mientras se preparan dichas herramientas, | --> | habremos de trabajar sobre la modelización de los términos técnicos, es decir, hemos de reducir las características de los mismos. | circumstance | N-S | GS | | | |
En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos, | <-- | si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente. | concession | N-S | GS | | | |
Los métodos aplicados varían mucho en función del proyecto, por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), | <-- | si bien, en general, se combinan numerosas fórmulas probabilísticas. | concession | N-S | GS | | | |
Aunque aún no contamos con resultados, | --> | intuimos que el modelo será más amplio que el del sintagma nominal. | concession | N-S | GS | | | |
Si pretendemos desarrollar un instrumento similar para el euskera, | --> | toparemos con mayores inconvenientes debido a estas razones: el proceso unificador de la lengua no ha concluido, las investigaciones efectuadas son limitadas y, por último, el euskara es una lengua aglutinante. | condition | N-S | GS | | | |
En ese equilibrio se le otorga preferencia a la cobertura, | <-- | siempre que haya una persona que lleve a cabo la reducción terminológica. | condition | N-S | GS | | | |
En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos, si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente. | <-- | Como ejemplo de lo anterior pueden citarse los siguientes instrumentos: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94) TERMS de IBM (Justeson & Katz, 95) NPtool (Arpper, 95). | elaboration | N-S | GS | | | |
Como se suelen emplear modelos morfosintácticos, resulta conveniente tener analizado el texto o, por lo menos, etiquetado. | <-- | La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. | elaboration | N-S | GS | | | |
Para ello, ya está preparado el analizador morfológico (Alegria et al., 96), | <-- | el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96) y también estamos trabajando la sintaxis del nivel superficial. | elaboration | N-S | GS | | | |
Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, se han de conseguir modelos principales. | <-- | Aunque aún no contamos con resultados, intuimos que el modelo será más amplio que el del sintagma nominal. Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo. | elaboration | N-S | GS | | | |
En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico. | <-- | Los métodos aplicados varían mucho en función del proyecto, por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), si bien, en general, se combinan numerosas fórmulas probabilísticas. | elaboration | N-S | GS | | | |
La lematización está ligada al análisis morfológico y a la desambiguación. | <-- | En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados y será necesaria la lematización. | elaboration | N-S | GS | | | |
La lematización está ligada al análisis morfológico y a la desambiguación. En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados y será necesaria la lematización. | <-- | El conocimiento lingüístico también es primordial en la normalización terminológica; ya que como algunos términos pueden formar parte de otras unidades más largas, se ha de efectuar una discriminación entre ellos. | elaboration | N-S | GS | | | |
Como se suelen emplear modelos morfosintácticos, resulta conveniente tener analizado el texto o, por lo menos, etiquetado. La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96). | <-- | La lematización está ligada al análisis morfológico y a la desambiguación. En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados y será necesaria la lematización. El conocimiento lingüístico también es primordial en la normalización terminológica; ya que como algunos términos pueden formar parte de otras unidades más largas, se ha de efectuar una discriminación entre ellos. | elaboration | N-S | GS | | | |
Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos. | <-- | Como se suelen emplear modelos morfosintácticos, resulta conveniente tener analizado el texto o, por lo menos, etiquetado. La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96).
La lematización está ligada al análisis morfológico y a la desambiguación. En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados y será necesaria la lematización. El conocimiento lingüístico también es primordial en la normalización terminológica; ya que como algunos términos pueden formar parte de otras unidades más largas, se ha de efectuar una discriminación entre ellos. | elaboration | N-S | GS | | | |
toparemos con mayores inconvenientes debido a estas razones: | <-- | el proceso unificador de la lengua no ha concluido, las investigaciones efectuadas son limitadas y, por último, el euskara es una lengua aglutinante. | elaboration | N-S | GS | | | |
1. Introducción
En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos, si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente. Como ejemplo de lo anterior pueden citarse los siguientes instrumentos: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94) TERMS de IBM (Justeson & Katz, 95) NPtool (Arpper, 95). | <-- | Pueden dividirse en dos grandes grupos las áreas de aplicación: área de indexación de la información y área de confección de glosarios terminológicos. Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática, sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo.
Si pretendemos desarrollar un instrumento similar para el euskera, toparemos con mayores inconvenientes debido a estas razones: el proceso unificador de la lengua no ha concluido, las investigaciones efectuadas son limitadas y, por último, el euskara es una lengua aglutinante. | elaboration | N-S | GS | | | |
Pueden dividirse en dos grandes grupos las áreas de aplicación: área de indexación de la información y área de confección de glosarios terminológicos. | <-- | Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática, sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo. | elaboration | N-S | GS | | | |
Pueden dividirse en dos grandes grupos las áreas de aplicación: área de indexación de la información y área de confección de glosarios terminológicos. Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática, sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo. | <-- | Si pretendemos desarrollar un instrumento similar para el euskera, toparemos con mayores inconvenientes debido a estas razones: el proceso unificador de la lengua no ha concluido, las investigaciones efectuadas son limitadas y, por último, el euskara es una lengua aglutinante. | elaboration | N-S | GS | | | |
El grupo IXA tiene la intención de desarrollar una herramienta de este tipo para el euskera. Para ello, ya está preparado el analizador morfológico (Alegria et al., 96), el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96) y también estamos trabajando la sintaxis del nivel superficial. | <-- | Mientras se preparan dichas herramientas, habremos de trabajar sobre la modelización de los términos técnicos, es decir, hemos de reducir las características de los mismos. Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, se han de conseguir modelos principales. Aunque aún no contamos con resultados, intuimos que el modelo será más amplio que el del sintagma nominal. Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo. | elaboration | N-S | GS | | | |
Los resultados que se obtienen no son aún los que se precisarían para efectuar un vaciado absolutamente automático. Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). | <-- | En ese equilibrio se le otorga preferencia a la cobertura, siempre que haya una persona que lleve a cabo la reducción terminológica. | elaboration | N-S | GS | | | |
Los resultados que se obtienen no son aún los que se precisarían para efectuar un vaciado absolutamente automático. Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). En ese equilibrio se le otorga preferencia a la cobertura, siempre que haya una persona que lleve a cabo la reducción terminológica. | <-- | Para obtener una cobertura del 95% se suele reducir la precisión al 50%, y para que la precisión ronde el 85%, la cobertura no se reduce ni al 35% siquiera. | elaboration | N-S | GS | | | |
2. Vaciado terminológico
Es una ardua labor conseguir una definición formal y completa de un término y en eso consiste precisamente un apartado importante del trabajo: definir las características de los términos. Para conseguir del corpus términos técnicos se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas. | <-- | 2.1. Técnicas lingüísticas
Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos. Como se suelen emplear modelos morfosintácticos, resulta conveniente tener analizado el texto o, por lo menos, etiquetado. La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96).
La lematización está ligada al análisis morfológico y a la desambiguación. En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados y será necesaria la lematización. El conocimiento lingüístico también es primordial en la normalización terminológica; ya que como algunos términos pueden formar parte de otras unidades más largas, se ha de efectuar una discriminación entre ellos.
2.2. Técnicas estadísticas
En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico. Los métodos aplicados varían mucho en función del proyecto, por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), si bien, en general, se combinan numerosas fórmulas probabilísticas.
2.3. Resultados
Los resultados que se obtienen no son aún los que se precisarían para efectuar un vaciado absolutamente automático. Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). En ese equilibrio se le otorga preferencia a la cobertura, siempre que haya una persona que lleve a cabo la reducción terminológica. Para obtener una cobertura del 95% se suele reducir la precisión al 50%, y para que la precisión ronde el 85%, la cobertura no se reduce ni al 35% siquiera. | elaboration | N-S | GS | | | |
Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática, | <-- | sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo. | evaluation | N-S | GS | | | |
Los métodos aplicados varían mucho en función del proyecto, | <-- | por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), | interpretation | N-S | GS | | | |
El conocimiento lingüístico también es primordial en la normalización terminológica; | <-- | ya que como algunos términos pueden formar parte de otras unidades más largas, se ha de efectuar una discriminación entre ellos. | justify | N-S | GS | | | |
El grupo IXA tiene la intención de desarrollar una herramienta de este tipo para el euskera. | <-- | Para ello, ya está preparado el analizador morfológico (Alegria et al., 96), el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96) y también estamos trabajando la sintaxis del nivel superficial. | motivation | N-S | GS | | | |
El vaciado terminológico automático y su aplicación para el euskera | --> | 1. Introducción
En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos, si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente. Como ejemplo de lo anterior pueden citarse los siguientes instrumentos: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94) TERMS de IBM (Justeson & Katz, 95) NPtool (Arpper, 95).
Pueden dividirse en dos grandes grupos las áreas de aplicación: área de indexación de la información y área de confección de glosarios terminológicos. Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática, sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo.
Si pretendemos desarrollar un instrumento similar para el euskera, toparemos con mayores inconvenientes debido a estas razones: el proceso unificador de la lengua no ha concluido, las investigaciones efectuadas son limitadas y, por último, el euskara es una lengua aglutinante.
2. Vaciado terminológico
Es una ardua labor conseguir una definición formal y completa de un término y en eso consiste precisamente un apartado importante del trabajo: definir las características de los términos. Para conseguir del corpus términos técnicos se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas.
2.1. Técnicas lingüísticas
Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos. Como se suelen emplear modelos morfosintácticos, resulta conveniente tener analizado el texto o, por lo menos, etiquetado. La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96).
La lematización está ligada al análisis morfológico y a la desambiguación. En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados y será necesaria la lematización. El conocimiento lingüístico también es primordial en la normalización terminológica; ya que como algunos términos pueden formar parte de otras unidades más largas, se ha de efectuar una discriminación entre ellos.
2.2. Técnicas estadísticas
En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico. Los métodos aplicados varían mucho en función del proyecto, por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), si bien, en general, se combinan numerosas fórmulas probabilísticas.
2.3. Resultados
Los resultados que se obtienen no son aún los que se precisarían para efectuar un vaciado absolutamente automático. Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). En ese equilibrio se le otorga preferencia a la cobertura, siempre que haya una persona que lleve a cabo la reducción terminológica. Para obtener una cobertura del 95% se suele reducir la precisión al 50%, y para que la precisión ronde el 85%, la cobertura no se reduce ni al 35% siquiera.
3. Aplicación al euskera
El grupo IXA tiene la intención de desarrollar una herramienta de este tipo para el euskera. Para ello, ya está preparado el analizador morfológico (Alegria et al., 96), el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96) y también estamos trabajando la sintaxis del nivel superficial.
Mientras se preparan dichas herramientas, habremos de trabajar sobre la modelización de los términos técnicos, es decir, hemos de reducir las características de los mismos. Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, se han de conseguir modelos principales. Aunque aún no contamos con resultados, intuimos que el modelo será más amplio que el del sintagma nominal. Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo. | preparation | N-S | GS | | | |
1. Introducción | --> | En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos, si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente. Como ejemplo de lo anterior pueden citarse los siguientes instrumentos: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94) TERMS de IBM (Justeson & Katz, 95) NPtool (Arpper, 95). | preparation | N-S | GS | | | |
2. Vaciado terminológico | --> | Es una ardua labor conseguir una definición formal y completa de un término y en eso consiste precisamente un apartado importante del trabajo: definir las características de los términos. Para conseguir del corpus términos técnicos se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas. | preparation | N-S | GS | | | |
y en eso consiste precisamente un apartado importante del trabajo: | --> | definir las características de los términos. | preparation | N-S | GS | | | |
2.1. Técnicas lingüísticas | --> | Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos. Como se suelen emplear modelos morfosintácticos, resulta conveniente tener analizado el texto o, por lo menos, etiquetado. La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96).
La lematización está ligada al análisis morfológico y a la desambiguación. En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados y será necesaria la lematización. El conocimiento lingüístico también es primordial en la normalización terminológica; ya que como algunos términos pueden formar parte de otras unidades más largas, se ha de efectuar una discriminación entre ellos. | preparation | N-S | GS | | | |
2.2. Técnicas estadísticas | --> | En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico. Los métodos aplicados varían mucho en función del proyecto, por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), si bien, en general, se combinan numerosas fórmulas probabilísticas. | preparation | N-S | GS | | | |
2.3. Resultados | --> | Los resultados que se obtienen no son aún los que se precisarían para efectuar un vaciado absolutamente automático. Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). En ese equilibrio se le otorga preferencia a la cobertura, siempre que haya una persona que lleve a cabo la reducción terminológica. Para obtener una cobertura del 95% se suele reducir la precisión al 50%, y para que la precisión ronde el 85%, la cobertura no se reduce ni al 35% siquiera. | preparation | N-S | GS | | | |
3. Aplicación al euskera | --> | El grupo IXA tiene la intención de desarrollar una herramienta de este tipo para el euskera. Para ello, ya está preparado el analizador morfológico (Alegria et al., 96), el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96) y también estamos trabajando la sintaxis del nivel superficial.
Mientras se preparan dichas herramientas, habremos de trabajar sobre la modelización de los términos técnicos, es decir, hemos de reducir las características de los mismos. Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, se han de conseguir modelos principales. Aunque aún no contamos con resultados, intuimos que el modelo será más amplio que el del sintagma nominal. Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo. | preparation | N-S | GS | | | |
Para conseguir del corpus términos técnicos | --> | se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas. | purpose | N-S | GS | | | |
Los resultados que se obtienen no son aún los que se precisarían | <-- | para efectuar un vaciado absolutamente automático. Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). | purpose | N-S | GS | | | |
Para obtener una cobertura del 95% | --> | se suele reducir la precisión al 50%, | purpose | N-S | GS | | | |
y para que la precisión ronde el 85%, | --> | la cobertura no se reduce ni al 35% siquiera. | purpose | N-S | GS | | | |
Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, | --> | se han de conseguir modelos principales. | purpose | N-S | GS | | | |
Mientras se preparan dichas herramientas, habremos de trabajar sobre la modelización de los términos técnicos, es decir, hemos de reducir las características de los mismos. | --> | Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, se han de conseguir modelos principales. Aunque aún no contamos con resultados, intuimos que el modelo será más amplio que el del sintagma nominal. Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo. | purpose | N-S | GS | | | |
habremos de trabajar sobre la modelización de los términos técnicos, | <-- | es decir, hemos de reducir las características de los mismos. | restatement | N-S | GS | | | |
Segments | Relation type | Relation name | Tagger | rhetdb | Notes |
Aunque aún no contamos con resultados, intuimos que el modelo será más amplio que el del sintagma nominal. | Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo. | list | N-N | GS | | | |
En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados | y será necesaria la lematización. | list | N-N | GS | | | |
2.1. Técnicas lingüísticas
Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos. Como se suelen emplear modelos morfosintácticos, resulta conveniente tener analizado el texto o, por lo menos, etiquetado. La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96).
La lematización está ligada al análisis morfológico y a la desambiguación. En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados y será necesaria la lematización. El conocimiento lingüístico también es primordial en la normalización terminológica; ya que como algunos términos pueden formar parte de otras unidades más largas, se ha de efectuar una discriminación entre ellos. | 2.2. Técnicas estadísticas
En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico. Los métodos aplicados varían mucho en función del proyecto, por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), si bien, en general, se combinan numerosas fórmulas probabilísticas. | 2.3. Resultados
Los resultados que se obtienen no son aún los que se precisarían para efectuar un vaciado absolutamente automático. Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). En ese equilibrio se le otorga preferencia a la cobertura, siempre que haya una persona que lleve a cabo la reducción terminológica. Para obtener una cobertura del 95% se suele reducir la precisión al 50%, y para que la precisión ronde el 85%, la cobertura no se reduce ni al 35% siquiera. | list | N-N | GS | | | |
Para obtener una cobertura del 95% se suele reducir la precisión al 50%, | y para que la precisión ronde el 85%, la cobertura no se reduce ni al 35% siquiera. | list | N-N | GS | | | |
el proceso unificador de la lengua no ha concluido, | las investigaciones efectuadas son limitadas | y, por último, el euskara es una lengua aglutinante. | list | N-N | GS | | | |
Es una ardua labor conseguir una definición formal y completa de un término | y en eso consiste precisamente un apartado importante del trabajo: definir las características de los términos. | list | N-N | GS | | | |
Es una ardua labor conseguir una definición formal y completa de un término y en eso consiste precisamente un apartado importante del trabajo: definir las características de los términos. | Para conseguir del corpus términos técnicos se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas. | list | N-N | GS | | | |
1. Introducción
En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos, si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente. Como ejemplo de lo anterior pueden citarse los siguientes instrumentos: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94) TERMS de IBM (Justeson & Katz, 95) NPtool (Arpper, 95).
Pueden dividirse en dos grandes grupos las áreas de aplicación: área de indexación de la información y área de confección de glosarios terminológicos. Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática, sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo.
Si pretendemos desarrollar un instrumento similar para el euskera, toparemos con mayores inconvenientes debido a estas razones: el proceso unificador de la lengua no ha concluido, las investigaciones efectuadas son limitadas y, por último, el euskara es una lengua aglutinante. | 2. Vaciado terminológico
Es una ardua labor conseguir una definición formal y completa de un término y en eso consiste precisamente un apartado importante del trabajo: definir las características de los términos. Para conseguir del corpus términos técnicos se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas.
2.1. Técnicas lingüísticas
Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos. Como se suelen emplear modelos morfosintácticos, resulta conveniente tener analizado el texto o, por lo menos, etiquetado. La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96).
La lematización está ligada al análisis morfológico y a la desambiguación. En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados y será necesaria la lematización. El conocimiento lingüístico también es primordial en la normalización terminológica; ya que como algunos términos pueden formar parte de otras unidades más largas, se ha de efectuar una discriminación entre ellos.
2.2. Técnicas estadísticas
En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico. Los métodos aplicados varían mucho en función del proyecto, por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), si bien, en general, se combinan numerosas fórmulas probabilísticas.
2.3. Resultados
Los resultados que se obtienen no son aún los que se precisarían para efectuar un vaciado absolutamente automático. Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). En ese equilibrio se le otorga preferencia a la cobertura, siempre que haya una persona que lleve a cabo la reducción terminológica. Para obtener una cobertura del 95% se suele reducir la precisión al 50%, y para que la precisión ronde el 85%, la cobertura no se reduce ni al 35% siquiera. | 3. Aplicación al euskera
El grupo IXA tiene la intención de desarrollar una herramienta de este tipo para el euskera. Para ello, ya está preparado el analizador morfológico (Alegria et al., 96), el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96) y también estamos trabajando la sintaxis del nivel superficial.
Mientras se preparan dichas herramientas, habremos de trabajar sobre la modelización de los términos técnicos, es decir, hemos de reducir las características de los mismos. Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, se han de conseguir modelos principales. Aunque aún no contamos con resultados, intuimos que el modelo será más amplio que el del sintagma nominal. Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo. | list | N-N | GS | | | |