| Id | Segment | Tagger | CU |
| 1 | Terminologiaren erauzketa automatikoa eta bere aplikazioa euskararako | A3 | |
| 2 |
1. Sarrera | A3 | |
| 3 |
Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako, | A3 | |
| 4 | baina oraindik giza laguntza behar izaten da automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko. | A3 | |
| 5 | Horren adibide gisa, tresna hauek aipa daitezke: LEXTER (Bourigault, 92) AT&Tko Termight (Church & Dagan, 94) IBMko TERMS (Justeson & Katz, 95) NPtool (Arpper, 95). | A3 | |
| 6 |
Aplikazio-eremuak bi multzo handitan bana daitezke: informazioa indexatzeko eta terminoen glosategiak eraikitzeko. | A3 | |
| 7 | Gainera, terminologia oso modu dinamikoan bilakatzen den arloetan, informatikan adib., halako tresnarik gabe ia ezinezkoa da lan terminologiko eraginkorrak egitea. | A3 | |
| 8 |
Halako tresna bat euskararako garatu nahi badugu, | A3 | |
| 9 | eragozpen gehiago topatuko dugu ondoko hiru arrazoiengatik: | A3 | |
| 10 |
2. Terminologiaren erauzketa | A3 | |
| 11 |
Terminoaren definizio formal eta osoa lortzea lan neketsua da | A3 | |
| 12 | eta horretan datza lanen atal garrantzitsu bat: terminoen ezaugarriak mugatzea. | A3 | |
| 13 | Corpusetatik termino teknikoak lortzeko konbinatu ohi dira NLPko teknikak (ezagumendu linguistikoan oinarritutakoak) eta teknika estatistikoak. | A3 | |
| 14 |
2.1. Teknika linguistikoak | A3 | |
| 15 |
Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko. | A3 | |
| 16 | Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, | A3 | |
| 17 | Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. | A3 | |
| 18 | Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96). | A3 | |
| 19 |
Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. | A3 | |
| 20 | Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu | A3 | |
| 21 | eta lematizazioa ezinbestekoa izango da. | A3 | |
| 22 | Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; | A3 | |
| 23 |
2.2 .Teknika estatistikoak | A3 | |
| 24 |
Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. | A3 | |
| 25 | Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: | A3 | |
| 26 | baina orokorrean formula probabilistiko anitz konbinatzen dira. | A3 | |
| 27 |
2.3. Emaitzak | A3 | |
| 28 |
Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko. | A3 | |
| 29 | Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). | A3 | |
| 30 | Oreka horretan estaldurari lehentasuna ematen zaio | A3 | |
| 31 | % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, | A3 | |
| 32 | atzetik terminologia murrizteko pertsona bat badago. | A3 | |
| 33 | eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen. | A3 | |
| 34 |
3. Euskararako aplikazioa | A3 | |
| 35 |
IXA taldearen asmoa da euskararako mota honetako tresna bat garatzea. | A3 | |
| 36 | Horretarako analizatzaile morfologikoa jadanik prest dago (Alegria et al., 96), | A3 | |
| 37 | lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96) | A3 | |
| 38 | eta azaleko sintaxiari ere ekin diogu. | A3 | |
| 39 |
Tresna horiek prest dauden bitartean | A3 | |
| 40 | hau da murriztu behar ditugu termino teknikoen ezaugarriak. | A3 | |
| 41 | Horretarako dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz, eredu nagusiak lortu behar dira. | A3 | |
| 42 | Emaitzarik ez badugu ere, | A3 | |
| 43 | Beste aldetik, termino teknikoak hautatzerakoan barneko deklinabidekasua erabakigarria izan daiteke. | A3 | |
| 44 | sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), | A3 | |
| 45 | bateratze-prozesua bukatzeke izateagatik, | A3 | |
| 46 | egindako ikerketak murritzak direlako | A3 | |
| 47 | eta hizkuntza eranskaria izateagatik. | A3 | |
| 48 | komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. | A3 | |
| 49 | termino batzuk beste luzeago batzuen baitan egon daitezkeenez, | A3 | |
| 50 | haien artean diskriminatu egin behar baita. | A3 | |
| 51 | termino teknikoen modelizazioari ekin behar diogu, | A3 | |
| 52 | eredua izen-sintagmarena baino zabalagoa izango dela susmatzen dugu. | A3 | |