TERM31_A3.rs3 (52)
IdSegmentTaggerCU
1Terminologiaren erauzketa automatikoa eta bere aplikazioa euskararako A3
2 1. SarreraA3
3 Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako,A3
4 baina oraindik giza laguntza behar izaten da automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko.A3
5 Horren adibide gisa, tresna hauek aipa daitezke: LEXTER (Bourigault, 92) AT&Tko Termight (Church & Dagan, 94) IBMko TERMS (Justeson & Katz, 95) NPtool (Arpper, 95). A3
6 Aplikazio-eremuak bi multzo handitan bana daitezke: informazioa indexatzeko eta terminoen glosategiak eraikitzeko.A3
7 Gainera, terminologia oso modu dinamikoan bilakatzen den arloetan, informatikan adib., halako tresnarik gabe ia ezinezkoa da lan terminologiko eraginkorrak egitea.A3
8 Halako tresna bat euskararako garatu nahi badugu,A3
9 eragozpen gehiago topatuko dugu ondoko hiru arrazoiengatik:A3
10 2. Terminologiaren erauzketaA3
11 Terminoaren definizio formal eta osoa lortzea lan neketsua daA3
12  eta horretan datza lanen atal garrantzitsu bat: terminoen ezaugarriak mugatzea.A3
13 Corpusetatik termino teknikoak lortzeko konbinatu ohi dira NLPko teknikak (ezagumendu linguistikoan oinarritutakoak) eta teknika estatistikoak.A3
14 2.1. Teknika linguistikoakA3
15 Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko.A3
16 Horretarako, eredu morfosintaktikoak erabili ohi direnez gero,A3
17 Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak.A3
18 Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96).A3
19 Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa.A3
20 Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu A3
21eta lematizazioa ezinbestekoa izango da.A3
22 Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere;A3
23 2.2 .Teknika estatistikoakA3
24 Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan.A3
25 Aplikatutako metodoak asko aldatzen dira proiektuaren arabera:A3
26 baina orokorrean formula probabilistiko anitz konbinatzen dira.A3
27 2.3. EmaitzakA3
28 Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko.A3
29 Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision).A3
30 Oreka horretan estaldurari lehentasuna ematen zaioA3
31 % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da,A3
32 atzetik terminologia murrizteko pertsona bat badago.A3
33 eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.A3
34 3. Euskararako aplikazioaA3
35 IXA taldearen asmoa da euskararako mota honetako tresna bat garatzea.A3
36 Horretarako analizatzaile morfologikoa jadanik prest dago (Alegria et al., 96),A3
37 lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96)A3
38 eta azaleko sintaxiari ere ekin diogu.A3
39 Tresna horiek prest dauden bitarteanA3
40 hau da murriztu behar ditugu termino teknikoen ezaugarriak.A3
41 Horretarako dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz, eredu nagusiak lortu behar dira.A3
42 Emaitzarik ez badugu ere,A3
43 Beste aldetik, termino teknikoak hautatzerakoan barneko deklinabidekasua erabakigarria izan daiteke.A3
44 sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95),A3
45 bateratze-prozesua bukatzeke izateagatik,A3
46 egindako ikerketak murritzak direlakoA3
47 eta hizkuntza eranskaria izateagatik.A3
48 komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua.A3
49 termino batzuk beste luzeago batzuen baitan egon daitezkeenez,A3
50 haien artean diskriminatu egin behar baita.A3
51 termino teknikoen modelizazioari ekin behar diogu,A3
52 eredua izen-sintagmarena baino zabalagoa izango dela susmatzen dugu.A3