Segments | Relation type | Relation name | Document | Tagger | Area | Notes |
Komunikazio honetan, katalanerako terminologia normalizatzeko lanetan izandako eskarmentutik hasita, batetik, gizarteak terminologia normaltzeko duen beharra aurkeztuko dugu, | hurrengo, horretarako dauden zenbait zailtasun aipatuko ditugu,
| eta, amaitu orduko, ideia batzuk plazaratuko ditugu hori guztia egungo gizartean bideratu ahal izateko.
| sequence | N-N | TERM19_A3.rs3 | A3 | TERM | |
Bi hizkuntzetako testu guztiak euskarri informatikoan eskuratu ondoren, bi bertsioen alderatzeari, eta paralelizatzeari ekin diogu, eduki bereko testu-zatiak zenbaki bereko paragrafoan ager daitezen bietan. | Ondoren aplikazio berezi baten bidez, aldez aurretik prestaturiko gaztelaniazko zerrenda bateko termino garrantzitsuenen agerpenak, bere testuinguru-paragrafo osoarekin, eta zenbaki bereko euskal bertsioko paragrafoarekin, lortu ditugu.
| Ondoren, euskarazko paragrafoetan, erdal terminoaren eduki baliokidea daraman segmentua lokalizatu dugu, eta guztia, datu-base erlazional batera eraman.
| sequence | N-N | TERM28_A3.rs3 | A3 | TERM | |
Ondoren, euskarazko paragrafoetan, erdal terminoaren eduki baliokidea daraman segmentua lokalizatu dugu, | eta guztia, datu-base erlazional batera eraman.
| sequence | N-N | TERM28_A3.rs3 | A3 | TERM | |
Horrek amaieragabeko erronka ekarri izan dio | -eta oraindik ere hala dakarkio-
| sequence | N-N | TERM29_A3.rs3 | A3 | TERM | |
1. Sarrera
Azken urteotan testu teknikoetatik terminologia automatikoki erauzteko tresnak ari dira garatzen zenbait hizkuntzatarako, baina oraindik giza laguntza behar izaten da automatikoki hautatutako terminologiaren artean azken aukeraketa egiteko. Horren adibide gisa, tresna hauek aipa daitezke: LEXTER (Bourigault, 92) AT&Tko Termight (Church & Dagan, 94) IBMko TERMS (Justeson & Katz, 95) NPtool (Arpper, 95).
Aplikazio-eremuak bi multzo handitan bana daitezke: informazioa indexatzeko eta terminoen glosategiak eraikitzeko. Gainera, terminologia oso modu dinamikoan bilakatzen den arloetan, informatikan adib., halako tresnarik gabe ia ezinezkoa da lan terminologiko eraginkorrak egitea.
Halako tresna bat euskararako garatu nahi badugu, eragozpen gehiago topatuko dugu ondoko hiru arrazoiengatik: bateratze-prozesua bukatzeke izateagatik, egindako ikerketak murritzak direlako eta hizkuntza eranskaria izateagatik. | 2. Terminologiaren erauzketa
Terminoaren definizio formal eta osoa lortzea lan neketsua da聽 eta horretan datza lanen atal garrantzitsu bat: terminoen ezaugarriak mugatzea. Corpusetatik termino teknikoak lortzeko konbinatu ohi dira NLPko teknikak (ezagumendu linguistikoan oinarritutakoak) eta teknika estatistikoak.
2.1. Teknika linguistikoak
Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko. Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96).
Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da. Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; termino batzuk beste luzeago batzuen baitan egon daitezkeenez, haien artean diskriminatu egin behar baita.
2.2 .Teknika estatistikoak
Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), baina orokorrean formula probabilistiko anitz konbinatzen dira.
2.3. Emaitzak
Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko. Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). Oreka horretan estaldurari lehentasuna ematen zaio atzetik terminologia murrizteko pertsona bat badago. % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.
| 3. Euskararako aplikazioa
IXA taldearen asmoa da euskararako mota honetako tresna bat garatzea. Horretarako analizatzaile morfologikoa jadanik prest dago (Alegria et al., 96), lematizatzaile/etiketatzaile bat bukatzear dago (Aduriz et al., 96) eta azaleko sintaxiari ere ekin diogu.
Tresna horiek prest dauden bitartean termino teknikoen modelizazioari ekin behar diogu, hau da murriztu behar ditugu termino teknikoen ezaugarriak. Horretarako dauden hiztegi teknikoetan oinarritu, eta teknika estatistikoak erabiliz, eredu nagusiak lortu behar dira. Emaitzarik ez badugu ere, eredua izen-sintagmarena baino zabalagoa izango dela susmatzen dugu. Beste aldetik, termino teknikoak hautatzerakoan barneko deklinabidekasua erabakigarria izan daiteke.
| sequence | N-N | TERM31_A3.rs3 | A3 | TERM | |
2.1. Teknika linguistikoak
Teknika linguistikoak erabiltzen dira batez ere terminoen hasierako selekzioa egiteko. Horretarako, eredu morfosintaktikoak erabili ohi direnez gero, komenigarria da testua analizaturik edukitzea edo gutxienez etiketatua. Tresna linguistikoen kalitateak baldintzatuko ditu, hein handi batean behintzat, tresnaren emaitzak. Hala ere, proiektu batzuetan ez da analisi morfologikorik edo sintaktikorik egiten (Su et al., 96).
Analisi morfologikoarekin eta desanbiguazioarekin lotuta dago lematizazioa. Flexio konplexuko hizkuntzetan hitz-forma bakarrik tratatzeak emaitza kaxkarrak ekarriko ditu eta lematizazioa ezinbestekoa izango da. Ezagumendu linguistikoa funtsezkoa da terminoen normalizazioan ere; termino batzuk beste luzeago batzuen baitan egon daitezkeenez, haien artean diskriminatu egin behar baita. | 2.2 .Teknika estatistikoak
Eredu linguistikoari jarraitzen dioten balizko terminoak murrizteko erabili ohi dira metodo estatistikoak proiektu gehienetan. Aplikatutako metodoak asko aldatzen dira proiektuaren arabera: sinpleena izango litzateke maiztasun absolutu minimo bat eskatzea (Justeson & Katz, 95), baina orokorrean formula probabilistiko anitz konbinatzen dira.
| 2.3. Emaitzak
Lortzen diren emaitzak ez dira oraindik beharko liratekeenak erauzketa zeharo automatikoa egiteko. Oreka bilatu behar da estaldura (recall) eta doitasunaren artean (precision). Oreka horretan estaldurari lehentasuna ematen zaio atzetik terminologia murrizteko pertsona bat badago. % 95 inguruko estaldura lortzeko doitasuna % 50-era jaitsi ohi da, eta doitasuna % 85 ingurukoa izan dadin estaldura % 35era ere ez da iristen.
| sequence | N-N | TERM31_A3.rs3 | A3 | TERM | |
Definizio horien egitura-azterketatik gakohitzak ateratzen dira, txinerara hitzez-hitzezko itzulpena egin ahal izateko. | Gero, txinerazko gako-hitzen itzulpenak asmatzailean prozesatzen dira, txinerazko morfemen datu-baseak eta txinerazko hitz-eraketarako arauak erabiliz.
| Ondorioa itzulpen alternatiboak izango dira, gizaki adituek aukera dezaten.
| sequence | N-N | TERM32_A3.rs3 | A3 | TERM | |
baina askotan, jatorria eta izaera erreferentziala nahasi | eta zaku berean sartzen dira erabat predikatiboak diren izenondoak, zalantzarik gabe erreferentzial hutsak diren izenondoekin.
| sequence | N-N | TERM34_A3.rs3 | A3 | TERM | |
terminoak ingelesez sortzen dira, | eta mailegu moduan sartzen dira beste hizkuntzetan.
| sequence | N-N | TERM38_A3.rs3 | A3 | TERM | |
espezialitateko eremuaren mugak gainditzen dituela Interneteko terminologiak (espezialitatera mugatzen da, definizioz, lexiko zientifiko eta teknikoa), | eta erabilera orokorreko hizkeran sartzen dela indartsu;
| sequence | N-N | TERM38_A3.rs3 | A3 | TERM | |
1.- Arazoen analisia "geografiako terminologiaren erabiltzailearen" ikuspuntutik. | 2.- Toponimia normalizatzeko lanen barruan geografiako terminologia normalizatzeak daukan garrantzia eta hori egiteko dagoen premia. Nazio Batuen gomendioak eta espezialistenak bilduko dira.
| 3.- Deustuko Unibertsitateko DEIKER Institutuak toponimia normalizatzeko lanetan termino geografikoari eman zaion tratamendua laburbilduko da.
| 4.-Ondorioak. Galderak eta iradokizunak.
| sequence | N-N | TERM51_A3.rs3 | A3 | TERM | |
Komunikazioan landuko ditugun alderdiak zehaztu baino lehen, toponimo kontzeptuaren definizioa emango dugu, geografiako terminoarekin duen loturari dagokionean.
Definizioz, toponimoa edo izen geografikoa hauxe da: "izen propio bat da, eta osagai espezifiko bat dauka, eta gehienetan, baita osagai komun edo orokor bat ere. Entitate geografikoaren izaera orokorrean hartuta identifikatzen du azken osagai horrek, eta osagai espezifikoak, aldiz, modu partikularrean identifikatzen du".
Esate baterako, Pe馻 de Anboto, Avenida Ram贸n y Cajal, R铆o Ibaizabal, Alto de la Horca... Toponimo definizioa bera da termino geografikoaren garrantzia ikusarazten diguna; are gehiago, toponimoen normalizazio lanetan bi bertsio proposatzen direla kontuan hartzen bada (euskara eta gaztelera). Horrek esan nahi du, hala, oso goitik hartuta, osagai orokorra itzuli egin daitekeela, eta osagai espezifikoa bat ere aldatu gabe utzi behar dela.
Adibidez, goian aipatutako toponimoak honela normalizatuko lirateke euskaraz: Anbotoko atxa, Ram贸n y Cajal etorbidea (?), Ibaizabal, La Horca gaina (?). | Jarraian zenbait gogoeta puntu aipatutako ditugu eskuetan darabilgun gai honen gainean:
1.- Ez dugu ezagutzen osagai orokor askoren esanahi zehatza: "alto", "gaina" (bortua, mendia, gailurra...).
2.- "Normalizatutako" termino geografikoa edonola esleitzen da: adibidez, Deustuko auzoan bi "etorbide" aurkitzen dira, eta egia esan, ez lukete termino bera eduki behar: Avenida Ram贸n y Cajal (kalea) eta Avenida Lehendakari Agirre (etorbidea).
3.- Ez dago geografiako terminologia normalizaturik: adibidez, "avenida" terminoa itzultzeko "ibilbidea", "etorbidea", "pasealekua" etab. erabiltzen dira, udal bakoitzaren arabera, edo "pico" itzultzeko, "gailur", "haitzorrotza", "haizpunta", "mokorra", "mokoa", "punta", "tontorra"... ikerketa egin duen pertsonaren edo erakundearen arabera (DEIKER, Elhuyar, Nafarroako Gobernua, Euskaltzaindia...).
| Aurkezpen horren ondoren, komunikazioak gai hauek hartuko ditu:
1.- Arazoen analisia "geografiako terminologiaren erabiltzailearen" ikuspuntutik.
2.- Toponimia normalizatzeko lanen barruan geografiako terminologia normalizatzeak daukan garrantzia eta hori egiteko dagoen premia. Nazio Batuen gomendioak eta espezialistenak bilduko dira.
3.- Deustuko Unibertsitateko DEIKER Institutuak toponimia normalizatzeko lanetan termino geografikoari eman zaion tratamendua laburbilduko da.
4.-Ondorioak. Galderak eta iradokizunak.
| sequence | N-S | TERM51_A3.rs3 | A3 | TERM | |