ht-aplikazioak – Hizkuntza-teknologiak, Ixa Taldearen bloga

#txiotesia. Hizkuntza-teknologia arloko tesiak

ixa — Fri, 22 Nov 2013 13:56:24 +0000

Unibertsitatea.net atariak antolatu zuen #txiotesia ekimenean gutxienez 9 izan dira hizkuntza teknologiaren inguruko tesiak. Azaroaren 19an ospatu zen lehiaketan 86 ikertzailek hartu zuten parte eta hauek dira HT arloan guk jaso ditugun txioak.

Lehiaketaren sari banaketa ekitaldia Donostiako Koldo Mitxelenan izango da datorren astelehenean.

‏@zbeloki

Izenburua: Informazio linguistikoaren adierazpen-ereduak datuen prozesaketa masiborako. #txiotesia
Lan hau hizkuntzaren prozesamenduaren (HP) arloan kokatzen da. HPri esker itzulpen automatikoa bezalakoak lortu dira. #txiotesia
HPko aplikazioek testu-kopuru masiboekin lan egin behar izaten dute (corpusak). Gaurko prozesamendu-algoritmoak mugatuta daude. #txiotesia
Tesiaren 1. helburua: HPko tresnen arteko informazio-trukearen oinarri izango den informazio linguistikoa formalizatzea. #txiotesia
Tesiaren 2. helburua: Makina bat baino gehiagotan paraleloan banatuko diren algoritmoen diseinua, prozesaketa masiboa helburu. #txiotesia
Hizkuntzarekin lotutako aplikazioek ahalmen handiagoa izanen dute baliabide-kopuru erraldoiekin lan egiteko, aplikazioa hobetuz #txiotesia

‏@antxaotegi

Hedapena informazioaren berreskurapen (IB) sistemetan: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak #txiotesia
IB sistema: ordenagailuan edo interneten informazioa bilatzeko tresna; adib Google. Hitz batzuk idatziz egingo dugu bilaketa…#txiotesia
… eta sistemak hitz horiek bakarrik erabiliko ditu bilaketan: hitzak agertzen badira, dokumentua itzuliko du, bestela ez #txiotesia
Arazoaren adib: “hontz” jarrita, “mozolo” duen testurik ez du itzuli (baina hauek ere nahiko genituzke) #txiotesia pic.twitter.com/RS1c4w3bNG
Sistemak “hontz” jartzean bere sinonimoa den “mozolo” ere bilatuko balu, emaitzan hontzak eta mozoloak #txiotesia pic.twitter.com/Wjeho8fMjD
Ordenagailuari hizkuntzaren ezagutza gehituz (adib sinonimia, hitzen esanahia), IB sistemen bilaketak hobeak direla frogatu da #txiotesia

Itziar Aldabe ‏@jibalari 19 Nov

Gramatika eta hiztegia lantzeko ariketen sorkuntza automatikoa, hizkuntzalaritza konputazionala jorratuz – ArikIturri tresna #txiotesia
“Itsasoko ………… , esaterako, CO2 asko “irensten” du fotosintesia egitean.” a) florak b) planktonak c) animaliak d) landareak #txiotesia
Zientzia-hiztegia; Distraigarrien sorkuntza automatikoa; Antzekotasun neurrien aplikazioa; Sistemaren ebal.:DBH2ko 951 ikasle #txiotesia
“Jarraitu baino lehen ………… naizela esan behar dut.” a) rock zalea bat b) rock zale bat c) rocka zalea bat #txiotesia
Gramatika ariketak: dekl., determ., aditzen erabilera;Adituen jakintza/corpusetatik jasotako erroreak; Ebal: euskara irakasleak #txiotesia
ArikIturri: irakasleei ariketak sortzen laguntzeko tresna erabilgarria. HAP; Aplikazio domeinuak: Euskara; Zientzia @IxaTaldea #txiotesia

Manex ‏@zumarraga14

Hizkuntzalaritza konputazionaleko teknikak poesia edo bertso sortzaile automatikora bidean #txiotesia
Posible al da konputagailuak poesia sortu eta naturala izatea? Turingek antzeko zerbait planteatu zuen http://ttiki.com/57375 #txiotesia
Bertsolaritzaren inguruan lanean gabiltza: Bertsotarako arbel digitala, bilatzaile semantikoak, txapelketa nagusien azterketa #txiotesia
Kutxa beltz bat garatu nahi dugu, goitik behera bertsoak analizatuko dituena eta behetik gora bertsoak sortu. #txiotesia
Bertso kutxa hau garatzeko bide ezberdinak jorratuko ditugu: Bide klasikoa eta estatistikoa #txiotesia
Konputagailua izango ote da egunen batean bertso ulergarri eta naturalak sortzeko gai? #txiotesia

‏@ItziarGD

Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan #ŧxiotesia
Esaldi luzeek eta konplexuek arazoak sortzen dituzte tratamendu automatikoan, horiek aztertu eta sinplifikazioak proposatu #txiotesia
Zeintzuk dira eus. egitura konplexuak? Automatikoki posible? Proposamena: Konplexutasun neurriak erabili #txiotesia pic.twitter.com/hU7Ah8wYyD
Automatikoki sinplifikatzeko, egituren azterketa euskarazko corpusetan (adb. EPEC) eta erdaratan egindako lanetan oinarrituz #txiotesia
Automatiko sortuko diren esaldi eta testu berriek ahal den neurrian jatorrizkoa esaldiaren esanahia mantendu behar dute. #txiotesia
Esaldi sinpleak automatikoki itzultzean emaitza hobeak lortu #txiotesia #TextSimplification #TestuenSinplifikazioa pic.twitter.com/j3s6InAXYv

aitziber atutxa ‏@txibitsu 19 Nov

Aditzen inguruko informazio lexikala aplikatuta anbiguotasun sintaktikoen ebazpenean
Emazteak:Maitea, niregatik erretzeari utziko zenioke?(anbiguoa) Senarrak:Eta nondik atera duzu zuregatik erretzen dudala?
Umore egiteko sarri erabiltzen den anbiguotasuna, hizkuntzaren ordenagailu bidezko prozesamenduan arazoa bihurtzen da.
Gizakiok, komunikatzeko anbiguotasunari aurre egiten diogu esfortzurik gabe ezagutza ugari eta heterogeneoa baliatuz
Hizkuntzaren prozesamendu automatikoa burutzeko anbiguotasuna ebazteko erabilgarria den informazio antzematea beharrezkoa da
Anbiguotasun sintaktikoa ebazteko aditzek gainontzeko elementuekiko maiztasunaren erabilgarritasuna probatu da #txiotesia

‏@intxa

Erlazio Erauzketa (EE): Eskuzko Lana Arintzeko Teknikak #txiotesia
EE: Esaldi batean, bi entitateren artean erlazio semantikorik dagoen jakitea da, eta hala bada, erlazio horri izen bat eman #txiotesia
Guzti hau konputazionalki. Adibidez: #txiotesia pic.twitter.com/W1q9kmNN4B
EE oso baliagarria da galdera-erantzun sistemetarako, textu sinplifikaziorako, ezagutza-oinarriak aberasteko,… #txiotesia
Ordenagailuak eskuz etiketatutako korpusen bidez ikasten du EE, nahiz eta sistema onenak izan, oso garestiak dira #txiotesia
Gure helburua ikasketa prozesua automatikoki etiketatutako korpusen bidez egitea da, hau lortzeko erronka askori aurre eginez #txiotesia

‏@olatz87

Osasun-txostenak euskaraz sortzeko baliabideak: terminologiaren euskaratzea, idazketerako laguntza eta itzulpen automatikoa #txiotesia

Igor Leturia ‏@ileturia 19 Nov

Web-a euskarazko corpus gisa #txiotesia
Testu-corpusak beharrezko dira hizkuntza baten garapenean, baina euskarazk corpusak, orokorrean, gutxi eta txikiak dira #txiotesia
Hizkuntz teknologiak erabilita eta web-a iturri gisa hartuta euskarazko corpusak osa daitezke modu automatikoan? #txiotesia
Tesian, web-a euskarazko corpus gisa kontsultatzeko zerbitzua (http://www.corpeus.org ) eta corpus espezializatuak, orokorrak … #txiotesia
… eta konparagarriak biltzeko tresnak garatu dira; mota horietako hainbat corpus bildu dira (200 milioi hitzeko bat barne) #txiotesia
Hizkuntz teknologia bidezko metodo automatikoek eta web-ak lagun dezakete euskarazko corpusen egoera hobetzen, eta egin dute #txiotesia

Antton Gurrutxaga ‏@anttongu 19 Nov

Idiomatikotasunaren karakterizazio automatikoa: izen+aditz konbinazioak. Fraseologia konputazionala Elhuyar/IXA 2014an aurkeztu#txiotesia
Lokuzioak eta kolokazioak unitate “idiomatikoak” dira, ez “libreak” Ikus idiomatikotasunaren continuuma #txiotesia pic.twitter.com/iDEsEgYr6O
Xedea: konbinazioak testuetatik AUTOMATIKOKI lortu, ordenatu eta sailkatu Testuak:72M hitz(Egunk+Berria) #txiotesia
Teknikak 1 agerkidetza; 2 “gardentasun” semantikoa; 3 sintaktikoki malgua den; 4 osagaiak ordezkatzerik? #txiotesia pic.twitter.com/nDqLfIHb6S
Ebaluazioa: ausaz hautatutako 1200 bigrama, hiru adituk sailkatuta (lok/kol/lib) Banaka, onena semantika #txiotesia pic.twitter.com/txVzGMNhA9
Ikasketa automatikoa: ezaugarriak konbinatuz hobetzen da sailkapena Ekarpen handiena, semantikak http://bit.ly/1cDJASk #txiotesia

Bertsoak idazten laguntzeko “Arbel digitala” aurkeztu dute.

ixa — Fri, 11 Jan 2013 17:52:07 +0000

Manex Agirrezabal, Bertol Arrieta eta Iñaki Alegria Ixakideek eta Bertsozale Elkartearekin produktu berri bat sortu dute informatika, hizkuntza-teknologia eta bertsolaritza lantzeko. Arbel digitala aurkeztu dute Koldo Mitxelenan gaur Manex, Bertol eta Bertsozale Elkarteko Aritz Zerain eta Ixiar Eizagirrek.

Hainbat baliabide eskaintzen ditu tresna honek: errima-bilatzailea, neurri-markatzailea, neurri-egiaztatzailea, sinonimo-bilatzailea… Orain dela urte batzuk sortu zuten Bertsolarixa tresna baino dezente ahaltsuagoa da Arbel digital berri hau. Orain dela gutxi robot bertsolaria ere erakutsi zuten.

Bertsotarako arbel digitala zer den ondo jakiteko jo Bertsozale Elkarteak jarri duen azalpenera, edo hobeto, zuzenean joan proba egitera. Jarri lanean, ea “inspirazio artifizial” honekin bertso ederren bat sortzen duzun!

Albistea medioetan: Berria, bertso-eskolak.com, Diario Vasco, …

Albistea bertsoa.com webgunean

Google-en hizketa-ezagutza eta itzulpen automatikoa (bideo bat)

ixa — Thu, 05 Feb 2009 18:28:01 +0000

Google-k apostu garbia egiten du hizkuntza-teknologia erabiltzearen alde. Bideo interesante honetan azkenaldian plazaratu dituen bi zerbitzuen berri ematen dute. Bideoan elkarrizketa bat azaltzen da Googleko ikerlari ospetsu pare batekin: M. Cohen eta F. Och.

Google411 telefono mugikorretarako zerbitzua da,
Google Maps kontsultatzeko da eta hizketa bidez erabil daiteke, ingelesez.
Hau da AEBko telefonoa: 1-800-466-4411 edo 1-800-Goog411
Ikusi demo bat bideo horren 18:30 minututik aurrera.

Google Translate zerbitzuak itzulpen-zerbitzua ematen du.
Beste hizkuntza batean testu bat edo webgune bat ulertzeko tresna oso lagungarria da. Eta itzulpen bat egin behar baduzu, espainieratik ingelesera adibidez, abiapuntu “onargarria” emango dizu, posteditatu egin beharko duzu, baina zerotik abiatuz baino errazago egingo zaizu, baietz!
Cross Language Search ere egiten du Goggle-k. Interneteko bilaketa itzuliak dira horiek. Adibidez, esan bilatzeko “curación de verrugas” espainieraz eta bilatzeko ingelesez. Esango dizu “Healing of warts” bilatuko duela. Erakutsiko dizkizu hitz horiekin aurkitu dituen ingelesezko orriak, eta alboan erakutsiko dizkizu orri horiexek baina espainieraz. Saiatu bilatzen “Casas rurales en Lapurdi” ere, espainiera eta frantzesa jarrita.
Itzulpen mota bi horien adibideak bideoko 2:50 minutuan aurkituko dituzu.

Oinarri teknologikoaz ere hitz egiten dute. bi zutabe nagusi dira hor:corpus handiak eta estatistika. Azken urteetan ingeleserako 3 biloi hitz bildu dituztela! (ingelesez 3 triloi esaten dute baina). Azken urteetako konputazio-ahalmena asko handitu denez, datu andana horiek gorde eta prosesatzea posiblea dela.

Etorkizunerako ikerketa-lerroak aipatzen dituzte bukaeran: kalitate handiago lortze aldera corpus handiagoak, konputazio-baliabide gehiago eta hitzetan ezaugarri linguistikoak markatzea beharko direla diote.

Ondorioz zer? Ba… hizkuntzaren teknologiaren aplikazioak gero eta lagungarriagoak direla.

Bukatzeko, ikusiko zenuten euskara ez dela inondik agertzen.
Google-entzat oraindik ez gara interesgarriak
Oraindik badugu zeregina bertakoek

Hitzaldia: Interneteko liburutegi digitalak. (Rafael Carrasco 2009-XI-24)

ixa — Fri, 14 Nov 2008 17:02:45 +0000

HAP masterrak antolatu du hitzaldi bat azaroaren 24rako, astelehena.

Arratsaldeko 4etan,. Donostiako kanpuseko Korta eraikineko areto nagusian izango da, gaztelaniaz. Titulua eta edukia hauek izango dira:

Interneteko liburutegi digitalak: diseinua eta ustiatzea.
1. atala: Miguel de Cervantes liburutegi digitalaren esperientzia
2.atala: liburutegi digitalak sare sozialean

Rafael Carrasco fisikan doktorea da eta Alacanteko unibertsitateko Lengoaia eta Sistema Informatikoen katedraduna. Miguel de Cervantes liburutegi digitalaren zuzendari-laguntzailea da. Argitalpen ugari egin ditu ospe handiko aldizkari zein kongresutan, eta hainbat gairen inguruan zuzendu ditu proiektuak, hala nola, automata probabilistikoak, gramatika-ikasketa zorizko laginetatik, neurona-sareak, etiketatze-lengoaiak eta liburutegi digitalak, egoera finituetako makinak eta itzulpen automatikoa.

Inbitatuta zaude.

Galdera-erantzute eleanitzeko CLEF lehiaketa eta euskara

ixa — Thu, 08 May 2008 19:15:10 +0000

Galdera-erantzutea (Question Answering, QA) arloko sistemak oso interesgarriak dira Hizkuntza Teknologiaren komunitatean, sistema berean konbinatu behar baitira bi azpiarloko teknikak: Informazio Bilaketa (Information Retrieval, IR) eta Hizkuntzaren prozesaketa automatikoa (Natural Language Processing, NLP).

QAko sistemari lengoaia naturalezko galderak egiten zaizkio (kontuz gero, galdera horiek ez dira hitz gako hutsak!), eta sistemak testu librezko bilduma erraldoiak aztertu behar ditu emaitza gisa erantzun labur eta zehatzak itzultzeko (dokumentu osorik ez!).

Aurten NIST TREC QA lehiaketaren zazpigarren saioa jarri da martxan. Aurreko lehiaketek eragile-lan ukaezina egin dute QA arloan, egun edonon onartzen diren ebaluazio-neurriak eta ebaluazio-eskakizunak ezarri ditu-eta. Hala ere, hasierako TREC QA lehiaketetan ingelesa baino ez zen lantzen, eleaniztasuna ez zen inondik ere azaltzen.

2003. urtean CLEF foroa (Cross Language Evaluation Forum) hasi zen antolatzen lehiaketako adar berri bat ingelesa ez diren hizkuntzetarako eta hizkuntzen arteko QA sistemetarako:Multilingual Question Answering at CLEF. Geroago, adar berri horretako azken hiru lehiaketetan, partaideak gero eta gehiago dira eta emaitzak gero eta hobeak.

2008ko lehiaketan euskara ere izango da hizkuntza aztergaien artean. Guztira hamar izango dira: alemanera, bulgariera, errumaniera, espainiera, euskara, frantsesa, greziera, ingelesa, italiera, eta portugesa. Euskara bi modutan izango da aztergai:

Proba batean euskaraz idatzitako testuetan bilatu beharko dira erantzunak. Galderak espainieraz, euskaraz edo ingelesez egingo dira.
Beste proba batean galderak euskaraz egingo dira, eta erantzunak bilatu beharko dira espainieraz, ingelesez edo italieraz dauden testuetan.

Anhitz ikerketa proiektu estrategikoren barruan Ixa taldeko kide batzuk eta Elhuyar Fundazioa euskararen eginkizunetan antolatzaile izango dira (lehenengo proba osoa eta bigarren probako galderen euskarazko bertsioa prestatzen). Ixa taldeko beste partaide batzuk lehiakide izango dira, baina lehenengo proban bakarrik.

Maiatzaren 19rako zabalduko dira lehiaketarako testu-bildumak eta galderak, uztailean emaitzak, eta irailerako workshop bat antolatu dute parte hartzaileen balorazioak denen artean komentatzeko. Ea lehiaketa honek laguntzen duen arlo honetan euskararekin ere aurrera egiten.

----------------------------------------------- GALDEREI BURUZ Lehiaketaren arauetan ikus daitekeenez aurtengo 200 galderak lau multzotan bilduko dira: a) "Faktoideak" (%80): galdetu pertsona baten izena, toki bat, zein egunetan gertatu zen zerbait Q: Who was called the “Iron-Chancellor”? A: Otto von Bismarck. Q: What year was Martin Luther King murdered? A: 1968. Q: Which town was Mozart born in? A: Salzburg.b) Definizio-galderak (%15): Q: Who is Robert Altmann? A: Film maker. Q: What is the Knesset? A: Parliament of Israel. c) Lista-erantzunekoak (%5): Q: Name all the airports in London, England. A: Gatwick, Stansted, Heathrow, Luton and City. Q: Name the last three American Presidents. A: George H.W. Bush, Bill Clinton, George W. Bush. d) Erantzun ezagunik gabeko galderak (%5)

Fernando Morillo idazleak teknologia bidaide (II)

ixa — Wed, 12 Dec 2007 10:51:41 +0000

Euskara konputagailuekin automatikoki lantzen irakatsi nahi dugu HAP masterrean, berriro inbitatu nahi izan dugu Fernando Morillo idazlea mintegi ireki batean parte hartzeko.

Orain dela bi urte Hiztek masterrean txundituta utzi gintuen bere hitzaldiarekin. Honela hasten zen kronika hau bidali genuen Sustatura:

Fernando Morillo idazleak aho zabalik utzi gaitu ostiraleko Hiztek mintegian. Argi geratu zaigu etorri handikoa dela azpeitiar hau, baita ere teknologia funtsezkoa zaiola etorri hori aberasteko. Bi orduko saioan bere jardun profesionaleko 25 programa aurkeztu dizkigu, pantailan eta martxan. Txundituta utzi gaitu.

Ikusi, ikusi orduko hitzaldiaren laburpen osoa.
Beraz, badakizue nora joan ostiral arratsaldean:

Hitzaldia: Hizkuntza-teknologia berriak eta literatura
Non: Donostiako Informatika Fakultateko Gradu Aretoan
Hizlaria: Fernando Morillo Azpeitiarra da eta zientziazale amorratua txikitatik. Fisika ikasten hasi zen baina Filosofia ikasketak burutu zituen. Literatur sarien irabazle: /Gudoste ametsak/ lanak Donostia Hiria saria oparitu zion 1999. urtean; Pasaiako Hiria, Igartza Literatur beka eta Gabriel Aresti saria irabazi ditu, besteak beste. CAF-Elhuyar-ek emandako zientzia artikuluen gaineko sarien irabazle suertatu da birritan ere.
Gaia: hizkuntza-teknologiek literatura sortzerakoan eskaintzen dituzten aukerez mintzatuko da. Eta gogoeta egitearekin batera, literatura egiteko baliagarri izan daitezkeen hainbat tresna erakutsiko dizkigu.

Nola hobetu dokumentu-bilatzaileak? (Hitzaldia 2007-X-16)

ixa — Mon, 08 Oct 2007 20:40:46 +0000

Ricardo Baeza-Yates ikerlari txiletarra EHUko Informatika Fakultatean izango da urriaren 16an. Dokumentu-bilatzaileak nola hobetu? Hori da gaia.- Eguna: urriaren 16a– Ordua: arratsaldeko 4etan– Gaiak: IR y NLP. Mineria de consultas (hitzaldiak gaztelaniaz izango dira)– Tokia: Donostiako Informatika Fakultateko gradu-aretoa

Ricardo Baeza-Yates

Yahoo! Research Barcelona ikerketa-zentroko zuzendaria da gaur egun,baita Yahoo! Research Latin America zentrokoa ere. Lehenago, 2005. urtera arte, Txileko Weberako ikerketa zentroko zuzendaria eta Bartzelonako Pompeu Fabra unibertsitateko katedraduna izan zen.Oso ikerlari famatua da Information Retrieval arloan.Bere argitalpenen artean aipagarria da Modern Information Retrieval liburu.

Dokumentuen berreskurapena (IR, Information Retrieval)

Aplikazio honen helburua hainbat eta hainbat dokumenturen artean bakar bat (edo batzuk) hautatzea da, bilatzen dugun kontzeptu bat edo informazio bat daukana. Noski, adibide tipikoena Interneterako bilatzaileena da, Google eta Yahoo !esatebaterako. Euskarazko testuetan hitz osoak bilatzea oso praktikoa ez denez, hainbat ekarpen izan dira:

Ametzagaina taldearen Kapsula softwarea,
Diana Teknologia enpresaren Xerka, eta IXA taldearen lematitzailea erabilita.
IXA taldearen lematizatzailea zenbait web gunetan integratu izan da:
Berria egunkariaren hemerotekan, ZientziaNet-en, Jalgi-n…
Urrian bertan plazaratuko da Elebila Interneteko bilatzaile berria euskarazko dokumentuetan bakarrik bilatuko dituena eta euskararen ezaugarriak kontuan hartuta.

IR-ko programek barruan hiru modulu edukitzen dute: modulu indexatzailea, dokumentuak aztertuta hitzekin indizeak sortzen dituena; modulu bilatzailea, indizeak erabilita dokumentu interesgarriak azkar bilatzen dituena; eta dokumentu horiek beren garrantziaren arabera ordenatzen dituen modulua. Asko aurreratu da azken 10 urteetan baina erronka berriak badira IR-ko ikerketan: dokumentuen ereduak, dokumentuen sailkapena eta kategorizazioa, arkitektura eta lengoaia bereziak, erabiltzaileen interfazeak, datuen bistaratzea eta iragazketa,

Ohar batzuk Nazio Batuen Erakundeko itzulpen lanaz.

Ana I. Morales. Itzultzailea. NBE (New York) — Tue, 03 Apr 2007 09:11:51 +0000

Ana I. Morales itzultzailea urte askoan ibili da EHUko itzulpen zerbitzuan. Beti ibili da erne alor horretan berritasunak harrapatzeko. Hiztek titulua lortu zuen eta orain itzultzaile dabil New Yorken Nazio Batuen egoitzan. Bertatik kontatzen digu hango lanaren nondik norakoak: lanaren neurria (zenbat orri edo hitz itzultzen da urteko, zenbat itzultzaile), zer tresna erabiltzen diren eta teknologia horiek erabiliz lortzen diren adibide parregarri batzuk ere. Teknologiak lana errazten digu, eta umorea lantzeko aukera ere ematen digu!

Nazio Batuen Erakundea. Zenbat hizkuntza?

Nazio Batuen erakundeak bost egoitza ditu, erakunde honen tradizio jatorrenaren arabera hurrenkera alfabetikoz aipatuko ditudanak: Geneva, Nairobi, New York, Santiago de Chile eta Viena. Egoitza nagusia New Yorkekoa da, eta hortxe daude erakunde honen bost organismo nagusiak: Idazkaritza Nagusia, Segurtasun Kontseilua, Batzar Nagusia, Gizarte eta Ekonomia Kontseilua eta Estatu Administratzaileen Kontseilua.

Nazio Batuen Erakundeak bost hizkuntza ofizial dauzka: arabiera, errusiera, frantsesa, gaztelania, ingelesa eta
txinera. Hori dela eta, hizkuntza guzti hauentzako itzulpen zerbitzuak daude Nazio Batuetan. Gainera, alemaneko atal txiki bat ere badago New Yorken, hizkuntza hori erakunde honetan ofiziala ez izan arren.

Neurria. Zenbat orri edo hitz itzultzen da?

Itzultzen den dokumentazioa gehienbat administratiboa eta juridikoa da: gutunak, txostenak, erabakiak, aktak, curriculum vitaeak, aurrekontuak, hitzarmenak, arautegiak, eguneroko buletina…

Itzulpen produkzioaz eta itzultzaile kopuruaz orain emango ditudan datuak New Yorkeko Espainierako Zerbitzuko buruak, Constantine Danilevsky jaunak, emandakoak dira, eta zerbitzu horri bakarrik dagozkio: Urtean zerbitzuan bertan gaztelaniara 50.000 orri itzultzen dira, hau da, 1.650.000 berba inguru. Horri gehitu behar zaio bete %18 bat, kanpoan itzultzen dena.
Arabiera, errusiera, frantses eta txinerara pareko bolumena itzultzen da, Danilevskyren arabera beti ere. Ingelesera, berriz, beste hizkuntzenaren %20 inguru. Dena dela, zerbitzu honek bileren hitzez hitzeko aktak idazten ditu ingelesez.

Zenbat itzultzaile?

Zerbitzu guztiak kontuan hartuta, 300 itzultzaile inguru daude plantillan. Espainierako Zerbitzuan 54 lanpostu daude; horietatik une honetan 47 daude beteta. Horri gehitu behar zaio NBErentzat boladaka (hilabete batzuk urtean) lan egiten duen itzultzaileen kopuru aldakor bat (“temporary staff”).

Hizkuntza-teknologiaren erabilera

Itzulpengintzarako erabiltzen diren tresnei dagokienez, alde batetik, aipatu behar da ez zerbitzu guztietan ez egoitza guztietan ez direla erabiltzen tresna berak; zerbitzuak eurak ere ez daude antolatuta egitura beraren arabera. Orain aipatuko dudana New Yorkeko Espainiera Zerbitzuari dagokio eta neure behaketan oinarritzen da. Tresneria eta estrategiei dagokienez, ez dago batasunik zerbitzuko itzultzaileen artean: lanabes eta prozedura desberdinak erabiltzen dituzte, euren preferentzia eta ohituren arabera. Hasteko, bi talde handi bereiz ditzakegu:

a) Ahotsa erabiliz itzultzen dutenak. Itzultzaile hauek “diktatu” egiten diote itzulpena ordenagailuari, ez dute tekleatzen. Horretarako bi tresna hauetako bat erabiltzen dute:

a1) grabazio digitala (mikrofono digital batez eta grabaziorako programa batez audio artxibo bat sortu eta gero hori mekanografoei pasatzen diete, eurek transkriba dezaten); diktafono tradizionalak (magnetofoiak eta kaseteak) 2006ko irailean erretiratu ziren New Yorkeko egoitzatik horren ordez teknologia digitala ezartzeko;

a2) hizkuntza testu bihurtzeko programa bat, kasu honetan Dragon. Dragonez lan egiten duten itzultzaileek “irakatsi” egiten diote tresnari euren ahotsa eta ahoskera ezagutzen, baina, hala ere, diktatu osteko zuzenketak ezinbestekoak izaten dira, tresna egokia izan arren akats “arriskutsu” ugari egiten baititu.

b) Testu prozesatzailea erabiliz itzultzen dutenak. Hemen beste bi talde bereiz genitzake:

b1) Aurretik itzulitako dokumentuen datu-base dokumentalean bilaketak egin eta balio dieten testuak MsWordeko “kopiatu” eta “itsatsi” funtzioak erabiliz baliatzen dituzten itzultzaileak. Batzuek erruz darabiltzate autotestu eta autozuzenketa aukerak sintagmak “automatikoki” itzultzeko, eta zenbaitek oso makro elaboratuak ere bai. Talde honetako zenbait itzultzailek SDL Tradoseko Multiterm-eko terminologia datu base bat darabilte MSWorden txertatuta.

b2) Itzulpen memoriak darabiltzatenak: Wordfast, SDL Trados, Olifant (memorien editorea). Batzuek segmentatzaile huts modura darabiltzate tresna hauek, memoriarik elikatu gabe. Beste batzuek, aldiz, memoria elikatzen dute, eurek egindako itzulpenekin edo/eta alineatuta dauden dokumentuak inportatuz. Guztiek darabil(tza)te euren memoriari atxikitako terminologia datu base bat edo gehiago. Talde honetako gehienek SDL Trados darabilte. Nire kalkuluen arabera, zerbitzuko itzultzaileen herenak osatzen du talde hau.

Azken aldian badirudi New Yorken bultzada ematen hasi zaiola b2 taldearen jokabideari eta ekimen bat abiatu dela joera hori zerbitzuan hedatuz joateko.

Eranskina (umore onez):
Esan dugunez, a) taldeko itzultzaile batzuek ahotsa ezagutzeko Dragon programa darabilte, eta oso iritzi ona dute tresna horretaz. Hala ere, diktatzaile oso abilak izan arren (batzuk benetako artistak!) eta programa aurretik trebatu arren, Dragoni bihurrikeriak egitea gustatzen zaio. Hona hemen programak egindako zenbait okerreko transkripzio (bigarren lerroak adierazten du itzultzaileak benetan esan ziona):

> cono drama de la migración
> cronograma de la migración

> las recomendaciones casi incluidas
> las recomendaciones allí incluidas

> agravar la atención
> agravar la tensión

> se vende por la coherencia
> se vele por la coherencia

> destrozadas por órgano
> desglosadas por órgano

> las asas y bajas
> las alzas y bajas

> instituciones letales
> instituciones locales

> estrategia de sanción de la pobreza
> estrategia de reducción de la pobreza

> estrategia de reducción japonesa
> estrategia de reducción de la pobreza

> ese pimiento
> de seguimiento

> los amantes
> los donantes

> asesoramiento profético
> asesoramiento político

> se presenta a tiros
> representativos

> marcos de gatos operativos
> marcos de gastos operativos

> penosos tratados
> en los dos tratados

> a la tragedia de la CNUDMI
> al arbitraje de la CNUDMI

> parásito pecador
> parásito depredador

> de las gracias unidas
> de las Naciones Unidas

Mintegia: Hizkuntzarteko Informazio-Berreskurapena (2007-III-22)

Ixa Taldea. Eneko Agirre — Mon, 19 Mar 2007 18:42:44 +0000

Gero eta informazio gehiago dugu eskura testu modura. Sarritan, baina, informazio hori beste hizkuntza batean idatzita dago, eta zailago egiten zaigu hortik informazio interesgarria ateratzea, eskuratzea. Hizkuntza teknologian ahaleginak egiten ari dira zailtasun horiek gainditzeko, eta hortik sortu da Hizkuntzarteko Informazio-Berreskurapena atala (Cross Lingual Information Retrieval edo CLIR).

Ixa taldeak, Madrileko Hezkuntza Ministerioan lortu duen “KNOW: Desarrollo de tecnologías multilingües a gran escala para la comprensión del lenguaje” proiektuaren barruan, Hizkuntzarteko Informazio-Berreskurapena sistemen (CLIR) eta hizkuntzaren ulermenaren arteko harremanaz arituko den mintegi bat antolatu du. Bertan UNED unibertsitateko Julio Gonzalo irakaslea ere izango da.

Mintegia irekia izango da kanpoko interesatuentzat ere.<amaia.lorenzo(abildua)ehu.es>).
Joateko asmoa duenak mesedez abisatu (Amaia Lorenzo 943 005 172,

Eguna: Martxoaren 22a, osteguna
Tokia: Gradu-Aretoa (Donostiako Informatika Fakultatea)
Programa:

10:00 Question/Answering in IXA (Xabier Arregi – IXA Taldea)
10:30 MEANING for IR/CLIR (German Rigau – IXA Taldea)
11:00 Coffee
11:30 CLEF-Semeval task on WSD and IR/CLIR (Eneko Agirre – IXA Taldea)
12:00 Recent developments in IR/CLIR (Julio Gonzalo – UNED)
13:30 Lunch
15:30 Discussion

what does IR need from NLP and specially language understanding(NLU)
what can NLP and specially language understanding offer to IR
new areas of IR where NLP/NLU could be interesting

16:30 end