TERM31-GS.rs3: UZ eta erlazioak
UZ:
Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako, baina oraindik giza laguntza behar izaten da automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko. elaborazioa<-- Horren adibide gisa, tresna hauek aipa daitezke: LEXTER (Bourigault, 92) AT&Tko Termight (Church & Dagan, 94) IBMko TERMS (Justeson & Katz, 95) NPtool (Arpper, 95).
Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako, baina oraindik giza laguntza behar izaten da automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko. Horren adibide gisa, tresna hauek aipa daitezke: LEXTER (Bourigault, 92) AT&Tko Termight (Church & Dagan, 94) IBMko TERMS (Justeson & Katz, 95) NPtool (Arpper, 95). elaborazioa<-- Aplikazio-eremuak bi multzo handitan bana daitezke: informazioa indexatzeko eta terminoen glosategiak eraikitzeko.
Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96). elaborazioa<-- Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da.
Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96). Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da. elaborazioa<-- Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; termino batzuk beste luzeago batzuen baitan egon daitezkeenez, haien artean diskriminatu egin behar baita.
Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko. elaborazioa<-- Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96). Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da. Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; termino batzuk beste luzeago batzuen baitan egon daitezkeenez, haien artean diskriminatu egin behar baita.
Terminoaren definizio formal eta osoa lortzea lan neketsua da eta horretan datza lanen atal garrantzitsu bat: terminoen ezaugarriak mugatzea. Corpusetatik termino teknikoak lortzeko konbinatu ohi dira NLPko teknikak (ezagumendu linguistikoan oinarritutakoak) eta teknika estatistikoak. elaborazioa<-- 2.1. Teknika linguistikoak. Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko. Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96). Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da. Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; termino batzuk beste luzeago batzuen baitan egon daitezkeenez, haien artean diskriminatu egin behar baita. 2.2. Teknika estatistikoak. Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), baina orokorrean formula probabilistiko anitz konbinatzen dira. 2.3. Emaitzak. Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko. Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). Oreka horretan estaldurari lehentasuna ematen zaio atzetik terminologia murrizteko pertsona bat badago. % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.
Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: elaborazioa<-- sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), baina orokorrean formula probabilistiko anitz konbinatzen dira.
Oreka horretan estaldurari lehentasuna ematen zaio atzetik terminologia murrizteko pertsona bat badago. elaborazioa<-- % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.
Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). elaborazioa<-- Oreka horretan estaldurari lehentasuna ematen zaio atzetik terminologia murrizteko pertsona bat badago. % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.
Tresna horiek prest dauden bitartean termino teknikoen modelizazioari ekin behar diogu, hau da murriztu behar ditugu termino teknikoen ezaugarriak. Horretarako dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz, eredu nagusiak lortu behar dira. elaborazioa<-- Emaitzarik ez badugu ere, eredua izen-sintagmarena baino zabalagoa izango dela susmatzen dugu.
IXA taldearen asmoa da euskararako mota honetako tresna bat garatzea. Horretarako analizatzaile morfologikoa jadanik prest dago (Alegria et al., 96), lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96) eta azaleko sintaxiari ere ekin diogu. elaborazioa<-- Tresna horiek prest dauden bitartean termino teknikoen modelizazioari ekin behar diogu, hau da murriztu behar ditugu termino teknikoen ezaugarriak. Horretarako dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz, eredu nagusiak lortu behar dira. Emaitzarik ez badugu ere, eredua izen-sintagmarena baino zabalagoa izango dela susmatzen dugu. Beste aldetik, termino teknikoak hautatzerakoan barneko deklinabidekasua erabakigarria izan daiteke.
Terminologiaren erauzketa automatikoa eta bere aplikazioa euskararako. prestatzea--> 1. Sarrera. Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako, baina oraindik giza laguntza behar izaten da automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko. Horren adibide gisa, tresna hauek aipa daitezke: LEXTER (Bourigault, 92) AT&Tko Termight (Church & Dagan, 94) IBMko TERMS (Justeson & Katz, 95) NPtool (Arpper, 95). Aplikazio-eremuak bi multzo handitan bana daitezke: informazioa indexatzeko eta terminoen glosategiak eraikitzeko. Gainera, terminologia oso modu dinamikoan bilakatzen den arloetan, informatikan adib., halako tresnarik gabe ia ezinezkoa da lan terminologiko eraginkorrak egitea. Halako tresna bat euskararako garatu nahi badugu, eragozpen gehiago topatuko dugu ondoko hiru arrazoiengatik: bateratze-prozesua bukatzeke izateagatik, egindako ikerketak murritzak direlako eta hizkuntza eranskaria izateagatik. 2. Terminologiaren erauzketa. Terminoaren definizio formal eta osoa lortzea lan neketsua da eta horretan datza lanen atal garrantzitsu bat: terminoen ezaugarriak mugatzea. Corpusetatik termino teknikoak lortzeko konbinatu ohi dira NLPko teknikak (ezagumendu linguistikoan oinarritutakoak) eta teknika estatistikoak. 2.1. Teknika linguistikoak. Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko. Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96). Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da. Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; termino batzuk beste luzeago batzuen baitan egon daitezkeenez, haien artean diskriminatu egin behar baita. 2.2. Teknika estatistikoak. Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), baina orokorrean formula probabilistiko anitz konbinatzen dira. 2.3. Emaitzak. Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko. Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). Oreka horretan estaldurari lehentasuna ematen zaio atzetik terminologia murrizteko pertsona bat badago. % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen. 3. Euskararako aplikazioa. IXA taldearen asmoa da euskararako mota honetako tresna bat garatzea. Horretarako analizatzaile morfologikoa jadanik prest dago (Alegria et al., 96), lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96) eta azaleko sintaxiari ere ekin diogu. Tresna horiek prest dauden bitartean termino teknikoen modelizazioari ekin behar diogu, hau da murriztu behar ditugu termino teknikoen ezaugarriak. Horretarako dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz, eredu nagusiak lortu behar dira. Emaitzarik ez badugu ere, eredua izen-sintagmarena baino zabalagoa izango dela susmatzen dugu. Beste aldetik, termino teknikoak hautatzerakoan barneko deklinabidekasua erabakigarria izan daiteke.
1. Sarrera. prestatzea--> Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako, baina oraindik giza laguntza behar izaten da automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko. Horren adibide gisa, tresna hauek aipa daitezke: LEXTER (Bourigault, 92) AT&Tko Termight (Church & Dagan, 94) IBMko TERMS (Justeson & Katz, 95) NPtool (Arpper, 95). Aplikazio-eremuak bi multzo handitan bana daitezke: informazioa indexatzeko eta terminoen glosategiak eraikitzeko. Gainera, terminologia oso modu dinamikoan bilakatzen den arloetan, informatikan adib., halako tresnarik gabe ia ezinezkoa da lan terminologiko eraginkorrak egitea. Halako tresna bat euskararako garatu nahi badugu, eragozpen gehiago topatuko dugu ondoko hiru arrazoiengatik: bateratze-prozesua bukatzeke izateagatik, egindako ikerketak murritzak direlako eta hizkuntza eranskaria izateagatik.
Aplikazio-eremuak bi multzo handitan bana daitezke: prestatzea--> informazioa indexatzeko eta terminoen glosategiak eraikitzeko.
2. Terminologiaren erauzketa. prestatzea--> Terminoaren definizio formal eta osoa lortzea lan neketsua da eta horretan datza lanen atal garrantzitsu bat: terminoen ezaugarriak mugatzea. Corpusetatik termino teknikoak lortzeko konbinatu ohi dira NLPko teknikak (ezagumendu linguistikoan oinarritutakoak) eta teknika estatistikoak. 2.1. Teknika linguistikoak. Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko. Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96). Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da. Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; termino batzuk beste luzeago batzuen baitan egon daitezkeenez, haien artean diskriminatu egin behar baita. 2.2. Teknika estatistikoak. Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), baina orokorrean formula probabilistiko anitz konbinatzen dira. 2.3. Emaitzak. Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko. Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). Oreka horretan estaldurari lehentasuna ematen zaio atzetik terminologia murrizteko pertsona bat badago. % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.
2.1. Teknika linguistikoak. prestatzea--> Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko. Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96). Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da. Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; termino batzuk beste luzeago batzuen baitan egon daitezkeenez, haien artean diskriminatu egin behar baita.
2.2. Teknika estatistikoak. prestatzea--> Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), baina orokorrean formula probabilistiko anitz konbinatzen dira.
2.3. Emaitzak. prestatzea--> Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko. Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). Oreka horretan estaldurari lehentasuna ematen zaio atzetik terminologia murrizteko pertsona bat badago. % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.
3. Euskararako aplikazioa. prestatzea--> IXA taldearen asmoa da euskararako mota honetako tresna bat garatzea. Horretarako analizatzaile morfologikoa jadanik prest dago (Alegria et al., 96), lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96) eta azaleko sintaxiari ere ekin diogu. Tresna horiek prest dauden bitartean termino teknikoen modelizazioari ekin behar diogu, hau da murriztu behar ditugu termino teknikoen ezaugarriak. Horretarako dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz, eredu nagusiak lortu behar dira. Emaitzarik ez badugu ere, eredua izen-sintagmarena baino zabalagoa izango dela susmatzen dugu. Beste aldetik, termino teknikoak hautatzerakoan barneko deklinabidekasua erabakigarria izan daiteke.
Horretarako, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. kausa<-- eredu morfosintaktikoak erabili ohi direnez gero,
Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu kausa--> eta lematizazioa ezinbestekoa izango da.
termino batzuk beste luzeago batzuen baitan egon daitezkeenez, kausa--> haien artean diskriminatu egin behar baita.
eragozpen gehiago topatuko dugu ondoko hiru arrazoiengatik: kausa<-- bateratze-prozesua bukatzeke izateagatik, egindako ikerketak murritzak direlako eta hizkuntza eranskaria izateagatik.
Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; kausa<-- termino batzuk beste luzeago batzuen baitan egon daitezkeenez, haien artean diskriminatu egin behar baita.
Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko. kausa--> Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). Oreka horretan estaldurari lehentasuna ematen zaio atzetik terminologia murrizteko pertsona bat badago. % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.
Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. testuingurua--> Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da.
Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako, baina oraindik giza laguntza behar izaten da automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko. Horren adibide gisa, tresna hauek aipa daitezke: LEXTER (Bourigault, 92) AT&Tko Termight (Church & Dagan, 94) IBMko TERMS (Justeson & Katz, 95) NPtool (Arpper, 95). Aplikazio-eremuak bi multzo handitan bana daitezke: informazioa indexatzeko eta terminoen glosategiak eraikitzeko. Gainera, terminologia oso modu dinamikoan bilakatzen den arloetan, informatikan adib., halako tresnarik gabe ia ezinezkoa da lan terminologiko eraginkorrak egitea. testuingurua--> Halako tresna bat euskararako garatu nahi badugu, eragozpen gehiago topatuko dugu ondoko hiru arrazoiengatik: bateratze-prozesua bukatzeke izateagatik, egindako ikerketak murritzak direlako eta hizkuntza eranskaria izateagatik.
Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. testuingurua--> Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), baina orokorrean formula probabilistiko anitz konbinatzen dira.
Tresna horiek prest dauden bitartean zirkunstantzia--> termino teknikoen modelizazioari ekin behar diogu, hau da murriztu behar ditugu termino teknikoen ezaugarriak.
Beste aldetik, barneko deklinabidekasua erabakigarria izan daiteke. zirkunstantzia<-- termino teknikoak hautatzerakoan
Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako, kontzesioa<-- baina oraindik giza laguntza behar izaten da
Terminoaren definizio formal eta osoa lortzea lan neketsua da kontzesioa--> eta horretan datza lanen atal garrantzitsu bat: terminoen ezaugarriak mugatzea.
Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. kontzesioa<-- Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96).
sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), kontzesioa<-- baina orokorrean formula probabilistiko anitz konbinatzen dira.
Emaitzarik ez badugu ere, kontzesioa--> eredua izen-sintagmarena baino zabalagoa izango dela susmatzen dugu.
Halako tresna bat euskararako garatu nahi badugu, baldintza--> eragozpen gehiago topatuko dugu ondoko hiru arrazoiengatik: bateratze-prozesua bukatzeke izateagatik, egindako ikerketak murritzak direlako eta hizkuntza eranskaria izateagatik.
Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. baldintza<-- Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak.
Oreka horretan estaldurari lehentasuna ematen zaio baldintza<-- atzetik terminologia murrizteko pertsona bat badago.
Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako, baina oraindik giza laguntza behar izaten da helburua<-- automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko.
Corpusetatik termino teknikoak lortzeko helburua--> konbinatu ohi dira NLPko teknikak (ezagumendu linguistikoan oinarritutakoak) eta teknika estatistikoak.
Teknika linguistikoak erabiltzen dira helburua<-- batez ere terminoen hasierako selekzioa egiteko.
Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko helburua--> erabili ohi dira metodo estatistikoak proiektu gehienetan.
Lortzen diren emaitzak ez dira oraindik beharko liratekeenak helburua<-- erauzketa zeharo automatikoa egiteko.
% 95 inguruko estaldura lortzeko helburua--> doitasuna % 50-era jaitsi ohi da,
eta doitasuna % 85 ingurukoa izan dadin helburua--> estaldura % 35era ere ez da iristen.
Terminoaren definizio formal eta osoa lortzea lan neketsua da eta horretan datza lanen atal garrantzitsu bat: terminoen ezaugarriak mugatzea. metodoa<-- Corpusetatik termino teknikoak lortzeko konbinatu ohi dira NLPko teknikak (ezagumendu linguistikoan oinarritutakoak) eta teknika estatistikoak.
IXA taldearen asmoa da euskararako mota honetako tresna bat garatzea. metodoa<-- Horretarako analizatzaile morfologikoa jadanik prest dago (Alegria et al., 96), lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96) eta azaleko sintaxiari ere ekin diogu.
Horretarako eredu nagusiak lortu behar dira. metodoa<-- dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz,
Tresna horiek prest dauden bitartean termino teknikoen modelizazioari ekin behar diogu, hau da murriztu behar ditugu termino teknikoen ezaugarriak. metodoa<-- Horretarako dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz, eredu nagusiak lortu behar dira.
Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako, baina oraindik giza laguntza behar izaten da automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko. Horren adibide gisa, tresna hauek aipa daitezke: LEXTER (Bourigault, 92) AT&Tko Termight (Church & Dagan, 94) IBMko TERMS (Justeson & Katz, 95) NPtool (Arpper, 95). Aplikazio-eremuak bi multzo handitan bana daitezke: informazioa indexatzeko eta terminoen glosategiak eraikitzeko. ebidentzia--> Gainera, terminologia oso modu dinamikoan bilakatzen den arloetan, informatikan adib., halako tresnarik gabe ia ezinezkoa da lan terminologiko eraginkorrak egitea.
termino teknikoen modelizazioari ekin behar diogu, birformulazioa<-- hau da murriztu behar ditugu termino teknikoen ezaugarriak.
% 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, kontrastea<--> eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.
informazioa indexatzeko lista<--> eta terminoen glosategiak eraikitzeko.
bateratze-prozesua bukatzeke izateagatik, lista<--> egindako ikerketak murritzak direlako
egindako ikerketak murritzak direlako lista<--> eta hizkuntza eranskaria izateagatik.
2.1. Teknika linguistikoak. Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko. Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96). Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da. Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; termino batzuk beste luzeago batzuen baitan egon daitezkeenez, haien artean diskriminatu egin behar baita. lista<--> 2.2. Teknika estatistikoak. Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), baina orokorrean formula probabilistiko anitz konbinatzen dira.
2.2. Teknika estatistikoak. Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), baina orokorrean formula probabilistiko anitz konbinatzen dira. lista<--> 2.3. Emaitzak. Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko. Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). Oreka horretan estaldurari lehentasuna ematen zaio atzetik terminologia murrizteko pertsona bat badago. % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.
analizatzaile morfologikoa jadanik prest dago (Alegria et al., 96), lista<--> lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96)
lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96) lista<--> eta azaleko sintaxiari ere ekin diogu.
1. Sarrera. Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako, baina oraindik giza laguntza behar izaten da automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko. Horren adibide gisa, tresna hauek aipa daitezke: LEXTER (Bourigault, 92) AT&Tko Termight (Church & Dagan, 94) IBMko TERMS (Justeson & Katz, 95) NPtool (Arpper, 95). Aplikazio-eremuak bi multzo handitan bana daitezke: informazioa indexatzeko eta terminoen glosategiak eraikitzeko. Gainera, terminologia oso modu dinamikoan bilakatzen den arloetan, informatikan adib., halako tresnarik gabe ia ezinezkoa da lan terminologiko eraginkorrak egitea. Halako tresna bat euskararako garatu nahi badugu, eragozpen gehiago topatuko dugu ondoko hiru arrazoiengatik: bateratze-prozesua bukatzeke izateagatik, egindako ikerketak murritzak direlako eta hizkuntza eranskaria izateagatik. lista<--> 2. Terminologiaren erauzketa. Terminoaren definizio formal eta osoa lortzea lan neketsua da eta horretan datza lanen atal garrantzitsu bat: terminoen ezaugarriak mugatzea. Corpusetatik termino teknikoak lortzeko konbinatu ohi dira NLPko teknikak (ezagumendu linguistikoan oinarritutakoak) eta teknika estatistikoak. 2.1. Teknika linguistikoak. Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko. Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96). Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da. Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; termino batzuk beste luzeago batzuen baitan egon daitezkeenez, haien artean diskriminatu egin behar baita. 2.2. Teknika estatistikoak. Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), baina orokorrean formula probabilistiko anitz konbinatzen dira. 2.3. Emaitzak. Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko. Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). Oreka horretan estaldurari lehentasuna ematen zaio atzetik terminologia murrizteko pertsona bat badago. % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.
2. Terminologiaren erauzketa. Terminoaren definizio formal eta osoa lortzea lan neketsua da eta horretan datza lanen atal garrantzitsu bat: terminoen ezaugarriak mugatzea. Corpusetatik termino teknikoak lortzeko konbinatu ohi dira NLPko teknikak (ezagumendu linguistikoan oinarritutakoak) eta teknika estatistikoak. 2.1. Teknika linguistikoak. Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko. Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96). Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da. Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; termino batzuk beste luzeago batzuen baitan egon daitezkeenez, haien artean diskriminatu egin behar baita. 2.2. Teknika estatistikoak. Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), baina orokorrean formula probabilistiko anitz konbinatzen dira. 2.3. Emaitzak. Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko. Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). Oreka horretan estaldurari lehentasuna ematen zaio atzetik terminologia murrizteko pertsona bat badago. % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen. lista<--> 3. Euskararako aplikazioa. IXA taldearen asmoa da euskararako mota honetako tresna bat garatzea. Horretarako analizatzaile morfologikoa jadanik prest dago (Alegria et al., 96), lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96) eta azaleko sintaxiari ere ekin diogu. Tresna horiek prest dauden bitartean termino teknikoen modelizazioari ekin behar diogu, hau da murriztu behar ditugu termino teknikoen ezaugarriak. Horretarako dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz, eredu nagusiak lortu behar dira. Emaitzarik ez badugu ere, eredua izen-sintagmarena baino zabalagoa izango dela susmatzen dugu. Beste aldetik, termino teknikoak hautatzerakoan barneko deklinabidekasua erabakigarria izan daiteke.
dauden hiztegi teknikoetan oinarritu, sekuentzia<--> eta teknika estatistikoak erabiliz,
Tresna horiek prest dauden bitartean termino teknikoen modelizazioari ekin behar diogu, hau da murriztu behar ditugu termino teknikoen ezaugarriak. Horretarako dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz, eredu nagusiak lortu behar dira. Emaitzarik ez badugu ere, eredua izen-sintagmarena baino zabalagoa izango dela susmatzen dugu. konjuntzioa<--> Beste aldetik, termino teknikoak hautatzerakoan barneko deklinabidekasua erabakigarria izan daiteke.
Horretarako, same-unit<--> komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua.
Horretarako same-unit<--> analizatzaile morfologikoa jadanik prest dago (Alegria et al., 96), lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96) eta azaleko sintaxiari ere ekin diogu.
Horretarako same-unit<--> eredu nagusiak lortu behar dira.
Beste aldetik, same-unit<--> barneko deklinabidekasua erabakigarria izan daiteke.