| TERM31% (156) |
|
| Id | Segment | Tagger | CU | | 1 | Automatic terminology extraction and its application to Basque | A1 | |
| 2 |
1. Introduction | A1 | |
| 3 |
In recent years work has begun to develop instruments in several languages for automatic terminology extraction in technical texts, | A1 | |
| 4 | though human intervention is still required to make the final selection from the terms automatically chosen. | A1 | |
| 5 | As an example we can cite the following instruments: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94), TERMS by IBM (Justeson & Katz, 95) and NPtool (Arpper, 95). | A1 | |
| 6 |
Their areas of application can be divided into two main groups: information indexing and the making-up of terminological glossaries. | A1 | |
| 7 | In areas where terminology is developing dynamically, such as computer science, it is almost impossible to carry out effective terminological work without an instrument of this type. | A1 | |
| 8 |
If a similar instrument is to be developed for Basque | A1 | |
| 9 | we shall come up against more major drawbacks, | A1 | |
| 10 | because the unifying process of the language has not been completed, | A1 | |
| 11 |
2. Terminology extraction | A1 | |
| 12 |
It is a hard task to obtain a formal, complete definition of a term, | A1 | |
| 13 | but that is precisely what a major part of this work consists of: defining the characteristics of terms. | A1 | |
| 14 | To obtain technical terms from the corpus a combination of NLP techniques (based on linguistic knowledge) and statistical techniques is usually used. | A1 | |
| 15 | lemmatisation will be necessary. | A1 | |
| 16 |
2.1. Linguistic Techniques | A1 | |
| 17 |
Linguistic techniques are used basically to make the initial selection of terms. | A1 | |
| 18 |
Morpho-syntactic models are usually used, | A1 | |
| 19 | so it is advisable to have the text already analysed or at least labelled. | A1 | |
| 20 | The results are conditioned heavily by the quality of the linguistic tool used. | A1 | |
| 21 | In any event in some projects neither morphological nor syntactic analysis is carried out (Su et al., 96). | A1 | |
| 22 |
Lemmatisation is linked to morphological analysis and the removal of ambiguities. | A1 | |
| 23 | In complex inflected languages poor results will ensue if only the formal aspect of words is dealt with: | A1 | |
| 24 | Linguistic knowledge is also of prime importance in the standardisation of terminology: | A1 | |
| 25 |
2.2. Statistical Techniques | A1 | |
| 26 | because some of them may form part of longer units. | A1 | |
| 27 |
In most projects statistical methods have been used to reduce the assumed terms which follow the linguistic model. | A1 | |
| 28 | The methods applied vary widely from project to project, | A1 | |
| 29 | so the simplest idea is to require a minimum absolute frequency (Justeson & Katz, 95), | A1 | |
| 30 | though several probabilistic formulae are generally combined. | A1 | |
| 31 |
2.3. Results | A1 | |
| 32 |
The results obtained are not yet those required for absolutely automatic extraction. | A1 | |
| 33 | A balance must be found between recall and precision. | A1 | |
| 34 | In this balance preference is given to recall, | A1 | |
| 35 | provided there is a person who can carry out the terminology reduction. | A1 | |
| 36 | To obtain a recall of 95% precision is usually reduced to 50%, | A1 | |
| 37 |
3. Application to Basque | A1 | |
| 38 |
The IXA Group intends to develop a tool of this type for Basque. | A1 | |
| 39 | and for a precision of 85% cover is not reduced even to 35%. | A1 | |
| 40 | The morphological analyser is already being prepared (Alegria et al, 96), | A1 | |
| 41 | the lemmatizer/labeller is almost completed (Aduriz et al, 96) | A1 | |
| 42 | and work has been done on surface level syntax. | A1 | |
| 43 |
While these tools are being prepared, | A1 | |
| 44 | we must work on the modelling of technical terms, | A1 | |
| 45 | i.e. we must reduce their characteristics. | A1 | |
| 46 | To that end, basing work on existing technical dictionaries and using statistical techniques, principal models must be obtained. | A1 | |
| 47 | We do not yet have any results, | A1 | |
| 48 | but we believe that the model will be wider than the noun phrase. | A1 | |
| 49 | In the choice of technical terms, the case of internal declension may prove decisive. | A1 | |
| 50 | research carried out is limited | A1 | |
| 51 | and Basque is an agglutinative language. | A1 | |
| 52 | a discrimination between terms must be made, | A1 | |
|
| Id | Segment | Tagger | CU | | 1 | El vaciado terminológico automático y su aplicación para el euskera | A2 | |
| 2 |
1. Introducción | A2 | |
| 3 |
En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos, | A2 | |
| 4 | si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente. | A2 | |
| 5 | Como ejemplo de lo anterior pueden citarse los siguientes instrumentos: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94) TERMS de IBM (Justeson & Katz, 95) NPtool (Arpper, 95). | A2 | |
| 6 |
Pueden dividirse en dos grandes grupos las áreas de aplicación: área de indexación de la información y área de confección de glosarios terminológicos. | A2 | |
| 7 | Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática, sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo. | A2 | |
| 8 |
Si pretendemos desarrollar un instrumento similar para el euskera, | A2 | |
| 9 | toparemos con mayores inconvenientes debido a estas razones: | A2 | |
| 10 |
2. Vaciado terminológico | A2 | |
| 11 |
Es una ardua labor conseguir una definición formal y completa de un término | A2 | |
| 12 | y en eso consiste precisamente un apartado importante del trabajo: definir las características de los términos. | A2 | |
| 13 | Para conseguir del corpus términos técnicos se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas. | A2 | |
| 14 |
2.1. Técnicas lingüísticas | A2 | |
| 15 |
Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos. | A2 | |
| 16 | Como se suelen emplear modelos morfosintácticos, | A2 | |
| 17 | resulta conveniente tener analizado el texto o, por lo menos, etiquetado. | A2 | |
| 18 | La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma. | A2 | |
| 19 | De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96). | A2 | |
| 20 |
La lematización está ligada al análisis morfológico y a la desambiguación. | A2 | |
| 21 | En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultados | A2 | |
| 22 | y será necesaria la lematización. | A2 | |
| 23 | El conocimiento lingüístico también es primordial en la normalización terminológica; | A2 | |
| 24 | ya que como algunos términos pueden formar parte de otras unidades más largas, | A2 | |
| 25 | se ha de efectuar una discriminación entre ellos. | A2 | |
| 26 |
En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico. | A2 | |
| 27 | Los métodos aplicados varían mucho en función del proyecto, | A2 | |
| 28 | por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95), | A2 | |
| 29 | si bien, en general, se combinan numerosas fórmulas probabilísticas. | A2 | |
| 30 |
2.3. Resultados | A2 | |
| 31 |
Los resultados que se obtienen no son aún los que se precisarían para efectuar un vaciado absolutamente automático. | A2 | |
| 32 | Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision). | A2 | |
| 33 | En ese equilibrio se le otorga preferencia a la cobertura, | A2 | |
| 34 | siempre que haya una persona que lleve a cabo la reducción terminológica. | A2 | |
| 35 | Para obtener una cobertura del 95% se suele reducir la precisión al 50%, | A2 | |
| 36 | y para que la precisión ronde el 85%, la cobertura no se reduce ni al 35% siquiera. | A2 | |
| 37 |
3. Aplicación al euskera | A2 | |
| 38 |
El grupo IXA tiene la intención de desarrollar una herramienta de este tipo para el euskera. | A2 | |
| 39 | Para ello, ya está preparado el analizador morfológico (Alegria et al., 96), | A2 | |
| 40 | el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96) | A2 | |
| 41 | y también estamos trabajando la sintaxis del nivel superficial. | A2 | |
| 42 |
Mientras se preparan dichas herramientas, | A2 | |
| 43 | habremos de trabajar sobre la modelización de los términos técnicos, | A2 | |
| 44 | es decir, hemos de reducir las características de los mismos. | A2 | |
| 45 | Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, se han de conseguir modelos principales. | A2 | |
| 46 | Aunque aún no contamos con resultados, | A2 | |
| 47 | intuimos que el modelo será más amplio que el del sintagma nominal. | A2 | |
| 48 | Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo. | A2 | |
| 49 | el proceso unificador de la lengua no ha concluido, | A2 | |
| 50 | las investigaciones efectuadas son limitadas | A2 | |
| 51 | y, por último, el euskara es una lengua aglutinante. | A2 | |
| 52 |
2.2. Técnicas estadísticas | A2 | |
|
| Id | Segment | Tagger | CU | | 1 | Terminologiaren erauzketa automatikoa eta bere aplikazioa euskararako | A3 | |
| 2 |
1. Sarrera | A3 | |
| 3 |
Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako, | A3 | |
| 4 | baina oraindik giza laguntza behar izaten da automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko. | A3 | |
| 5 | Horren adibide gisa, tresna hauek aipa daitezke: LEXTER (Bourigault, 92) AT&Tko Termight (Church & Dagan, 94) IBMko TERMS (Justeson & Katz, 95) NPtool (Arpper, 95). | A3 | |
| 6 |
Aplikazio-eremuak bi multzo handitan bana daitezke: informazioa indexatzeko eta terminoen glosategiak eraikitzeko. | A3 | |
| 7 | Gainera, terminologia oso modu dinamikoan bilakatzen den arloetan, informatikan adib., halako tresnarik gabe ia ezinezkoa da lan terminologiko eraginkorrak egitea. | A3 | |
| 8 |
Halako tresna bat euskararako garatu nahi badugu, | A3 | |
| 9 | eragozpen gehiago topatuko dugu ondoko hiru arrazoiengatik: | A3 | |
| 10 |
2. Terminologiaren erauzketa | A3 | |
| 11 |
Terminoaren definizio formal eta osoa lortzea lan neketsua da | A3 | |
| 12 | eta horretan datza lanen atal garrantzitsu bat: terminoen ezaugarriak mugatzea. | A3 | |
| 13 | Corpusetatik termino teknikoak lortzeko konbinatu ohi dira NLPko teknikak (ezagumendu linguistikoan oinarritutakoak) eta teknika estatistikoak. | A3 | |
| 14 |
2.1. Teknika linguistikoak | A3 | |
| 15 |
Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko. | A3 | |
| 16 | Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, | A3 | |
| 17 | Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. | A3 | |
| 18 | Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96). | A3 | |
| 19 |
Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. | A3 | |
| 20 | Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu | A3 | |
| 21 | eta lematizazioa ezinbestekoa izango da. | A3 | |
| 22 | Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; | A3 | |
| 23 |
2.2 .Teknika estatistikoak | A3 | |
| 24 |
Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. | A3 | |
| 25 | Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: | A3 | |
| 26 | baina orokorrean formula probabilistiko anitz konbinatzen dira. | A3 | |
| 27 |
2.3. Emaitzak | A3 | |
| 28 |
Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko. | A3 | |
| 29 | Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). | A3 | |
| 30 | Oreka horretan estaldurari lehentasuna ematen zaio | A3 | |
| 31 | % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, | A3 | |
| 32 | atzetik terminologia murrizteko pertsona bat badago. | A3 | |
| 33 | eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen. | A3 | |
| 34 |
3. Euskararako aplikazioa | A3 | |
| 35 |
IXA taldearen asmoa da euskararako mota honetako tresna bat garatzea. | A3 | |
| 36 | Horretarako analizatzaile morfologikoa jadanik prest dago (Alegria et al., 96), | A3 | |
| 37 | lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96) | A3 | |
| 38 | eta azaleko sintaxiari ere ekin diogu. | A3 | |
| 39 |
Tresna horiek prest dauden bitartean | A3 | |
| 40 | hau da murriztu behar ditugu termino teknikoen ezaugarriak. | A3 | |
| 41 | Horretarako dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz, eredu nagusiak lortu behar dira. | A3 | |
| 42 | Emaitzarik ez badugu ere, | A3 | |
| 43 | Beste aldetik, termino teknikoak hautatzerakoan barneko deklinabidekasua erabakigarria izan daiteke. | A3 | |
| 44 | sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), | A3 | |
| 45 | bateratze-prozesua bukatzeke izateagatik, | A3 | |
| 46 | egindako ikerketak murritzak direlako | A3 | |
| 47 | eta hizkuntza eranskaria izateagatik. | A3 | |
| 48 | komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. | A3 | |
| 49 | termino batzuk beste luzeago batzuen baitan egon daitezkeenez, | A3 | |
| 50 | haien artean diskriminatu egin behar baita. | A3 | |
| 51 | termino teknikoen modelizazioari ekin behar diogu, | A3 | |
| 52 | eredua izen-sintagmarena baino zabalagoa izango dela susmatzen dugu. | A3 | |
| |