TERM31% (156)
IdSegmentTaggerCU
1Automatic terminology extraction and its application to BasqueA1
2 1. IntroductionA1
3 In recent years work has begun to develop instruments in several languages for automatic terminology extraction in technical texts,A1
4 though human intervention is still required to make the final selection from the terms automatically chosen.A1
5 As an example we can cite the following instruments: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94), TERMS by IBM (Justeson & Katz, 95) and NPtool (Arpper, 95). A1
6 Their areas of application can be divided into two main groups: information indexing and the making-up of terminological glossaries.A1
7 In areas where terminology is developing dynamically, such as computer science, it is almost impossible to carry out effective terminological work without an instrument of this type. A1
8 If a similar instrument is to be developed for BasqueA1
9 we shall come up against more major drawbacks,A1
10 because the unifying process of the language has not been completed,A1
11 2. Terminology extractionA1
12 It is a hard task to obtain a formal, complete definition of a term,A1
13 but that is precisely what a major part of this work consists of: defining the characteristics of terms.A1
14 To obtain technical terms from the corpus a combination of NLP techniques (based on linguistic knowledge) and statistical techniques is usually used.A1
15 lemmatisation will be necessary.A1
16 2.1. Linguistic TechniquesA1
17 Linguistic techniques are used basically to make the initial selection of terms.A1
18 Morpho-syntactic models are usually used,A1
19 so it is advisable to have the text already analysed or at least labelled.A1
20 The results are conditioned heavily by the quality of the linguistic tool used.A1
21 In any event in some projects neither morphological nor syntactic analysis is carried out (Su et al., 96).A1
22 Lemmatisation is linked to morphological analysis and the removal of ambiguities.A1
23 In complex inflected languages poor results will ensue if only the formal aspect of words is dealt with:A1
24 Linguistic knowledge is also of prime importance in the standardisation of terminology:A1
25 2.2. Statistical TechniquesA1
26 because some of them may form part of longer units.A1
27 In most projects statistical methods have been used to reduce the assumed terms which follow the linguistic model.A1
28 The methods applied vary widely from project to project,A1
29 so the simplest idea is to require a minimum absolute frequency (Justeson & Katz, 95),A1
30 though several probabilistic formulae are generally combined.A1
31 2.3. ResultsA1
32 The results obtained are not yet those required for absolutely automatic extraction.A1
33 A balance must be found between recall and precision.A1
34 In this balance preference is given to recall,A1
35 provided there is a person who can carry out the terminology reduction.A1
36 To obtain a recall of 95% precision is usually reduced to 50%,A1
37 3. Application to BasqueA1
38 The IXA Group intends to develop a tool of this type for Basque.A1
39 and for a precision of 85% cover is not reduced even to 35%.A1
40 The morphological analyser is already being prepared (Alegria et al, 96),A1
41 the lemmatizer/labeller is almost completed (Aduriz et al, 96)A1
42 and work has been done on surface level syntax. A1
43 While these tools are being prepared,A1
44 we must work on the modelling of technical terms,A1
45 i.e. we must reduce their characteristics.A1
46 To that end, basing work on existing technical dictionaries and using statistical techniques, principal models must be obtained.A1
47 We do not yet have any results,A1
48 but we believe that the model will be wider than the noun phrase.A1
49 In the choice of technical terms, the case of internal declension may prove decisive.A1
50 research carried out is limitedA1
51 and Basque is an agglutinative language.A1
52 a discrimination between terms must be made,A1
IdSegmentTaggerCU
1El vaciado terminológico automático y su aplicación para el euskeraA2
2 1. IntroducciónA2
3 En los últimos años se están desarrollando en varias lenguas instrumentos para efectuar vaciados terminológicos automáticos de textos técnicos,A2
4 si bien todavía se hace necesaria la intervención humana para hacer la última selección de los términos elegidos automáticamente.A2
5 Como ejemplo de lo anterior pueden citarse los siguientes instrumentos: LEXTER (Bourigault, 92), AT & Tko Terminght (Church & Dagan, 94) TERMS de IBM (Justeson & Katz, 95) NPtool (Arpper, 95).A2
6 Pueden dividirse en dos grandes grupos las áreas de aplicación: área de indexación de la información y área de confección de glosarios terminológicos.A2
7 Además, en las áreas en las que la terminología evoluciona de modo dinámico, como por ejemplo la informática, sin ese tipo de instrumental resulta prácticamente imposible llevar a cabo un trabajo terminológico efectivo.A2
8 Si pretendemos desarrollar un instrumento similar para el euskera,A2
9 toparemos con mayores inconvenientes debido a estas razones:A2
10 2. Vaciado terminológicoA2
11 Es una ardua labor conseguir una definición formal y completa de un términoA2
12 y en eso consiste precisamente un apartado importante del trabajo: definir las características de los términos.A2
13 Para conseguir del corpus términos técnicos se suelen combinar las técnicas NLP (basadas en el conocimiento lingüístico) y las técnicas estadísticas.A2
14 2.1. Técnicas lingüísticasA2
15 Las técnicas lingüísticas se emplean fundamentalmente para efectuar la selección inicial de los términos.A2
16 Como se suelen emplear modelos morfosintácticos,A2
17 resulta conveniente tener analizado el texto o, por lo menos, etiquetado.A2
18 La calidad de la herramienta lingüística condicionará en gran medida por lo menos los resultados de la misma.A2
19 De todos modos, en algunos proyectos no se efectúa ni análisis morfológico ni sintáctico. (Su et al., 96).A2
20 La lematización está ligada al análisis morfológico y a la desambiguación.A2
21 En las lenguas de flexión compleja, el tratar solamente el aspecto formal de las palabras acarreará malos resultadosA2
22 y será necesaria la lematización.A2
23 El conocimiento lingüístico también es primordial en la normalización terminológica;A2
24 ya que como algunos términos pueden formar parte de otras unidades más largas,A2
25 se ha de efectuar una discriminación entre ellos.A2
26 En la mayoría de los proyectos, los métodos estadísticos se han venido empleando para reducir los supuestos términos que siguen el modelo lingüístico.A2
27 Los métodos aplicados varían mucho en función del proyecto,A2
28 por lo que lo más simple sería pedir una frecuencia absoluta mínima (Justeson & Katz, 95),A2
29 si bien, en general, se combinan numerosas fórmulas probabilísticas.A2
30 2.3. ResultadosA2
31 Los resultados que se obtienen no son aún los que se precisarían para efectuar un vaciado absolutamente automático.A2
32 Se ha de encontrar el equilibrio entre la cobertura (recall) y la precisión (precision).A2
33 En ese equilibrio se le otorga preferencia a la cobertura,A2
34 siempre que haya una persona que lleve a cabo la reducción terminológica.A2
35 Para obtener una cobertura del 95% se suele reducir la precisión al 50%,A2
36 y para que la precisión ronde el 85%, la cobertura no se reduce ni al 35% siquiera.A2
37 3. Aplicación al euskeraA2
38 El grupo IXA tiene la intención de desarrollar una herramienta de este tipo para el euskera.A2
39 Para ello, ya está preparado el analizador morfológico (Alegria et al., 96),A2
40 el lematizador/etiquetador está a punto de finalizarse (Aduriz et al., 96)A2
41 y también estamos trabajando la sintaxis del nivel superficial.A2
42 Mientras se preparan dichas herramientas,A2
43 habremos de trabajar sobre la modelización de los términos técnicos,A2
44 es decir, hemos de reducir las características de los mismos.A2
45 Con tal fin, basándonos en los diccionarios técnicos existentes y empleando técnicas estadísticas, se han de conseguir modelos principales.A2
46 Aunque aún no contamos con resultados,A2
47 intuimos que el modelo será más amplio que el del sintagma nominal.A2
48 Por otra parte, en la elección de términos técnicos, el caso de declinación interna puede resultar decisivo.A2
49 el proceso unificador de la lengua no ha concluido,A2
50 las investigaciones efectuadas son limitadasA2
51 y, por último, el euskara es una lengua aglutinante.A2
52 2.2. Técnicas estadísticasA2
IdSegmentTaggerCU
1Terminologiaren erauzketa automatikoa eta bere aplikazioa euskararako A3
2 1. SarreraA3
3 Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako,A3
4 baina oraindik giza laguntza behar izaten da automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko.A3
5 Horren adibide gisa, tresna hauek aipa daitezke: LEXTER (Bourigault, 92) AT&Tko Termight (Church & Dagan, 94) IBMko TERMS (Justeson & Katz, 95) NPtool (Arpper, 95). A3
6 Aplikazio-eremuak bi multzo handitan bana daitezke: informazioa indexatzeko eta terminoen glosategiak eraikitzeko.A3
7 Gainera, terminologia oso modu dinamikoan bilakatzen den arloetan, informatikan adib., halako tresnarik gabe ia ezinezkoa da lan terminologiko eraginkorrak egitea.A3
8 Halako tresna bat euskararako garatu nahi badugu,A3
9 eragozpen gehiago topatuko dugu ondoko hiru arrazoiengatik:A3
10 2. Terminologiaren erauzketaA3
11 Terminoaren definizio formal eta osoa lortzea lan neketsua daA3
12  eta horretan datza lanen atal garrantzitsu bat: terminoen ezaugarriak mugatzea.A3
13 Corpusetatik termino teknikoak lortzeko konbinatu ohi dira NLPko teknikak (ezagumendu linguistikoan oinarritutakoak) eta teknika estatistikoak.A3
14 2.1. Teknika linguistikoakA3
15 Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko.A3
16 Horretarako, eredu morfosintaktikoak erabili ohi direnez gero,A3
17 Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak.A3
18 Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96).A3
19 Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa.A3
20 Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu A3
21eta lematizazioa ezinbestekoa izango da.A3
22 Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere;A3
23 2.2 .Teknika estatistikoakA3
24 Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan.A3
25 Aplikatutako metodoak asko aldatzen dira proiektuaren arabera:A3
26 baina orokorrean formula probabilistiko anitz konbinatzen dira.A3
27 2.3. EmaitzakA3
28 Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko.A3
29 Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision).A3
30 Oreka horretan estaldurari lehentasuna ematen zaioA3
31 % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da,A3
32 atzetik terminologia murrizteko pertsona bat badago.A3
33 eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.A3
34 3. Euskararako aplikazioaA3
35 IXA taldearen asmoa da euskararako mota honetako tresna bat garatzea.A3
36 Horretarako analizatzaile morfologikoa jadanik prest dago (Alegria et al., 96),A3
37 lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96)A3
38 eta azaleko sintaxiari ere ekin diogu.A3
39 Tresna horiek prest dauden bitarteanA3
40 hau da murriztu behar ditugu termino teknikoen ezaugarriak.A3
41 Horretarako dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz, eredu nagusiak lortu behar dira.A3
42 Emaitzarik ez badugu ere,A3
43 Beste aldetik, termino teknikoak hautatzerakoan barneko deklinabidekasua erabakigarria izan daiteke.A3
44 sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95),A3
45 bateratze-prozesua bukatzeke izateagatik,A3
46 egindako ikerketak murritzak direlakoA3
47 eta hizkuntza eranskaria izateagatik.A3
48 komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua.A3
49 termino batzuk beste luzeago batzuen baitan egon daitezkeenez,A3
50 haien artean diskriminatu egin behar baita.A3
51 termino teknikoen modelizazioari ekin behar diogu,A3
52 eredua izen-sintagmarena baino zabalagoa izango dela susmatzen dugu.A3