ht-aplikazioak – Hizkuntza-teknologiak, Ixa Taldearen bloga https://www.unibertsitatea.net/blogak/ixa IXA taldea. Hizkuntzaren prozesamendua Wed, 31 May 2023 21:32:01 +0000 eu hourly 1 https://wordpress.org/?v=4.9.23 https://www.unibertsitatea.net/blogak/ixa/files/2018/10/ixa.jpg ht-aplikazioak – Hizkuntza-teknologiak, Ixa Taldearen bloga https://www.unibertsitatea.net/blogak/ixa 32 32 #txiotesia. Hizkuntza-teknologia arloko tesiak https://www.unibertsitatea.net/blogak/ixa/2013/11/22/txiotesia-hizkuntza-teknologia-arloko-tesiak/ https://www.unibertsitatea.net/blogak/ixa/2013/11/22/txiotesia-hizkuntza-teknologia-arloko-tesiak/#comments Fri, 22 Nov 2013 13:56:24 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=1264

Unibertsitatea.net atariak antolatu zuen  #txiotesia ekimenean gutxienez 9 izan dira hizkuntza teknologiaren inguruko tesiak. Azaroaren 19an ospatu zen lehiaketan 86 ikertzailek hartu zuten parte eta hauek dira HT arloan guk jaso ditugun txioak.
Lehiaketaren sari banaketa ekitaldia Donostiako Koldo Mitxelenan izango da datorren astelehenean.
  1. Izenburua: Informazio linguistikoaren adierazpen-ereduak datuen prozesaketa masiborako. #txiotesia
  2. Lan hau hizkuntzaren prozesamenduaren (HP) arloan kokatzen da. HPri esker itzulpen automatikoa bezalakoak lortu dira. #txiotesia
  3. HPko aplikazioek testu-kopuru masiboekin lan egin behar izaten dute (corpusak). Gaurko prozesamendu-algoritmoak mugatuta daude. #txiotesia
  4. Tesiaren 1. helburua: HPko tresnen arteko informazio-trukearen oinarri izango den informazio linguistikoa formalizatzea. #txiotesia
  5. Tesiaren 2. helburua: Makina bat baino gehiagotan paraleloan banatuko diren algoritmoen diseinua, prozesaketa masiboa helburu. #txiotesia
  6. Hizkuntzarekin lotutako aplikazioek ahalmen handiagoa izanen dute baliabide-kopuru erraldoiekin lan egiteko, aplikazioa hobetuz #txiotesia
  1. Hedapena informazioaren berreskurapen (IB) sistemetan: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak #txiotesia
  2. IB sistema: ordenagailuan edo interneten informazioa bilatzeko tresna; adib Google. Hitz batzuk idatziz egingo dugu bilaketa…#txiotesia
  3. … eta sistemak hitz horiek bakarrik erabiliko ditu bilaketan: hitzak agertzen badira, dokumentua itzuliko du, bestela ez #txiotesia
  4. Arazoaren adib: “hontz” jarrita, “mozolo” duen testurik ez du itzuli (baina hauek ere nahiko genituzke) #txiotesia pic.twitter.com/RS1c4w3bNG Embedded image permalink
  5. Sistemak “hontz” jartzean bere sinonimoa den “mozolo” ere bilatuko balu, emaitzan hontzak eta mozoloak 🙂#txiotesia pic.twitter.com/Wjeho8fMjD
  6. Ordenagailuari hizkuntzaren ezagutza gehituz (adib sinonimia, hitzen esanahia), IB sistemen bilaketak hobeak direla frogatu da #txiotesia

Itziar Aldabe@jibalari 19 Nov

  1. Gramatika eta hiztegia lantzeko ariketen sorkuntza automatikoa, hizkuntzalaritza konputazionala jorratuz – ArikIturri tresna #txiotesia
  2. “Itsasoko ………… , esaterako, CO2 asko “irensten” du fotosintesia egitean.” a) florak b) planktonak c) animaliak d) landareak #txiotesia
  3. Zientzia-hiztegia; Distraigarrien sorkuntza automatikoa; Antzekotasun neurrien aplikazioa; Sistemaren ebal.:DBH2ko 951 ikasle #txiotesia
  4. “Jarraitu baino lehen ………… naizela esan behar dut.” a) rock zalea bat b) rock zale bat c) rocka zalea bat #txiotesia
  5. Gramatika ariketak: dekl., determ., aditzen erabilera;Adituen jakintza/corpusetatik jasotako erroreak; Ebal: euskara irakasleak #txiotesia
  6. ArikIturri: irakasleei ariketak sortzen laguntzeko tresna erabilgarria. HAP; Aplikazio domeinuak: Euskara; Zientzia @IxaTaldea #txiotesia

  Manex@zumarraga14

  1. Hizkuntzalaritza konputazionaleko teknikak poesia edo bertso sortzaile automatikora bidean #txiotesia
  2. Posible al da konputagailuak poesia sortu eta naturala izatea? Turingek antzeko zerbait planteatu zuen http://ttiki.com/57375  #txiotesia
  3. Bertsolaritzaren inguruan lanean gabiltza: Bertsotarako arbel digitala, bilatzaile semantikoak, txapelketa nagusien azterketa #txiotesia
  4. Kutxa beltz bat garatu nahi dugu, goitik behera bertsoak analizatuko dituena eta behetik gora bertsoak sortu. #txiotesia
  5. Bertso kutxa hau garatzeko bide ezberdinak jorratuko ditugu: Bide klasikoa eta estatistikoa #txiotesia
  6. Konputagailua izango ote da egunen batean bertso ulergarri eta naturalak sortzeko gai? #txiotesia
  1. Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan #ŧxiotesia
  2. Esaldi luzeek eta konplexuek arazoak sortzen dituzte tratamendu automatikoan, horiek aztertu eta sinplifikazioak proposatu #txiotesia
  3. Zeintzuk dira eus. egitura konplexuak? Automatikoki posible? Proposamena: Konplexutasun neurriak erabili #txiotesia pic.twitter.com/hU7Ah8wYyD
  4. Automatikoki sinplifikatzeko, egituren azterketa euskarazko corpusetan (adb. EPEC) eta erdaratan egindako lanetan oinarrituz
  5. Automatiko sortuko diren esaldi eta testu berriek ahal den neurrian jatorrizkoa esaldiaren esanahia mantendu behar dute.
  6. Esaldi sinpleak automatikoki itzultzean emaitza hobeak lortu
  1. Aditzen inguruko informazio lexikala aplikatuta anbiguotasun sintaktikoen ebazpenean
  2. Emazteak:Maitea, niregatik erretzeari utziko zenioke?(anbiguoa) Senarrak:Eta nondik atera duzu zuregatik erretzen dudala?
  3. Umore egiteko sarri erabiltzen den anbiguotasuna, hizkuntzaren ordenagailu bidezko prozesamenduan arazoa bihurtzen da.
  4. Gizakiok, komunikatzeko anbiguotasunari aurre egiten diogu esfortzurik gabe ezagutza ugari eta heterogeneoa baliatuz
  5. Hizkuntzaren prozesamendu automatikoa burutzeko anbiguotasuna ebazteko erabilgarria den informazio antzematea beharrezkoa da
  6. Anbiguotasun sintaktikoa ebazteko aditzek gainontzeko elementuekiko maiztasunaren erabilgarritasuna probatu da #txiotesia
  1. Erlazio Erauzketa (EE): Eskuzko Lana Arintzeko Teknikak #txiotesia
  2. EE: Esaldi batean, bi entitateren artean erlazio semantikorik dagoen jakitea da, eta hala bada, erlazio horri izen bat eman #txiotesia
  3. Guzti hau konputazionalki. Adibidez:
  4. EE oso baliagarria da galdera-erantzun sistemetarako, textu sinplifikaziorako, ezagutza-oinarriak aberasteko,…
  5. Ordenagailuak eskuz etiketatutako korpusen bidez ikasten du EE, nahiz eta sistema onenak izan, oso garestiak dira
  1.  Osasun-txostenak euskaraz sortzeko baliabideak: terminologiaren euskaratzea, idazketerako laguntza eta itzulpen automatikoa
  1. Web-a euskarazko corpus gisa #txiotesia
  2. Testu-corpusak beharrezko dira hizkuntza baten garapenean, baina euskarazk corpusak, orokorrean, gutxi eta txikiak dira
  3. Hizkuntz teknologiak erabilita eta web-a iturri gisa hartuta euskarazko corpusak osa daitezke modu automatikoan?
  4. Tesian, web-a euskarazko corpus gisa kontsultatzeko zerbitzua (http://www.corpeus.org ) eta corpus espezializatuak, orokorrak … #txiotesia
  5. … eta konparagarriak biltzeko tresnak garatu dira; mota horietako hainbat corpus bildu dira (200 milioi hitzeko bat barne) #txiotesia
  6. Hizkuntz teknologia bidezko metodo automatikoek eta web-ak lagun dezakete euskarazko corpusen egoera hobetzen, eta egin dute #txiotesia
  1. Idiomatikotasunaren karakterizazio automatikoa: izen+aditz konbinazioak. Fraseologia konputazionala Elhuyar/IXA 2014an aurkeztu#txiotesia
  2. Lokuzioak eta kolokazioak unitate “idiomatikoak” dira, ez “libreak” Ikus idiomatikotasunaren continuuma #txiotesia pic.twitter.com/iDEsEgYr6O
    Embedded image permalink
  3. Xedea: konbinazioak testuetatik AUTOMATIKOKI lortu, ordenatu eta sailkatu Testuak:72M hitz(Egunk+Berria) #txiotesia
    Embedded image permalink
  4. Teknikak 1 agerkidetza; 2 “gardentasun” semantikoa; 3 sintaktikoki malgua den; 4 osagaiak ordezkatzerik? #txiotesia pic.twitter.com/nDqLfIHb6S

    Embedded image permalink

  5. Ebaluazioa: ausaz hautatutako 1200 bigrama, hiru adituk sailkatuta (lok/kol/lib) Banaka, onena semantika #txiotesia pic.twitter.com/txVzGMNhA9
    Embedded image permalink
  6. Ikasketa automatikoa: ezaugarriak konbinatuz hobetzen da sailkapena Ekarpen handiena, semantikak http://bit.ly/1cDJASk  #txiotesia
]]>
https://www.unibertsitatea.net/blogak/ixa/2013/11/22/txiotesia-hizkuntza-teknologia-arloko-tesiak/feed/ 2
Bertsoak idazten laguntzeko “Arbel digitala” aurkeztu dute. https://www.unibertsitatea.net/blogak/ixa/2013/01/11/bertsoen-arbel-digitala/ https://www.unibertsitatea.net/blogak/ixa/2013/01/11/bertsoen-arbel-digitala/#comments Fri, 11 Jan 2013 17:52:07 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=815 Manex Agirrezabal, Bertol Arrieta eta Iñaki Alegria Ixakideek eta Bertsozale Elkartearekin produktu berri bat sortu dute informatika, hizkuntza-teknologia eta bertsolaritza lantzeko. Arbel digitala aurkeztu dute Koldo Mitxelenan gaur Manex, Bertol eta Bertsozale Elkarteko Aritz Zerain eta Ixiar Eizagirrek.

Hainbat baliabide eskaintzen ditu tresna honek: errima-bilatzailea, neurri-markatzailea, neurri-egiaztatzailea, sinonimo-bilatzailea… Orain dela urte batzuk sortu zuten Bertsolarixa tresna baino dezente ahaltsuagoa da Arbel digital berri hau. Orain dela gutxi robot bertsolaria ere erakutsi zuten.

Bertsotarako arbel digitala zer den ondo jakiteko jo Bertsozale Elkarteak jarri duen azalpenera, edo hobeto, zuzenean joan proba egitera. Jarri lanean, ea “inspirazio artifizial” honekin bertso ederren bat sortzen duzun!

Arbel_digitalaAlbistea medioetan: Berria, bertso-eskolak.com, Diario Vasco, …

Albistea bertsoa.com webgunean
]]>
https://www.unibertsitatea.net/blogak/ixa/2013/01/11/bertsoen-arbel-digitala/feed/ 2
Google-en hizketa-ezagutza eta itzulpen automatikoa (bideo bat) https://www.unibertsitatea.net/blogak/ixa/2009/02/05/google-en-hizketa-ezagutza-eta-itzulpen-automatikoa-bideo-bat/ https://www.unibertsitatea.net/blogak/ixa/2009/02/05/google-en-hizketa-ezagutza-eta-itzulpen-automatikoa-bideo-bat/#respond Thu, 05 Feb 2009 18:28:01 +0000 https://www.unibertsitatea.net/blogak/ixa/google-en-hizketa-ezagutza-eta-itzulpen-automatikoa-bideo-bat Google-k apostu garbia egiten du hizkuntza-teknologia erabiltzearen alde. Bideo interesante honetan azkenaldian plazaratu dituen bi zerbitzuen berri ematen dute. Bideoan elkarrizketa bat azaltzen da Googleko ikerlari ospetsu pare batekin: M. Cohen eta F. Och.

Google411 telefono mugikorretarako zerbitzua da,
Google Maps kontsultatzeko da eta hizketa bidez erabil daiteke, ingelesez.
Hau da AEBko telefonoa: 1-800-466-4411 edo 1-800-Goog411
Ikusi demo bat bideo horren 18:30 minututik aurrera.

Google Translate zerbitzuak itzulpen-zerbitzua ematen du.
Beste hizkuntza batean testu bat edo webgune bat ulertzeko tresna oso lagungarria da. Eta itzulpen bat egin behar baduzu, espainieratik ingelesera adibidez, abiapuntu “onargarria” emango dizu, posteditatu egin beharko duzu, baina zerotik abiatuz baino errazago egingo zaizu, baietz!
Cross Language Search ere egiten du Goggle-k. Interneteko bilaketa itzuliak dira horiek. Adibidez, esan bilatzeko “curación de verrugas” espainieraz eta bilatzeko ingelesez. Esango dizu “Healing of warts” bilatuko duela. Erakutsiko dizkizu hitz horiekin aurkitu dituen ingelesezko orriak, eta alboan erakutsiko dizkizu orri horiexek baina espainieraz. Saiatu bilatzen “Casas rurales en Lapurdi” ere, espainiera eta frantzesa jarrita.
Itzulpen mota bi horien adibideak bideoko 2:50 minutuan aurkituko dituzu.

Oinarri teknologikoaz ere hitz egiten dute. bi zutabe nagusi dira hor:corpus handiak eta estatistika. Azken urteetan ingeleserako 3 biloi hitz bildu dituztela! (ingelesez 3 triloi esaten dute baina). Azken urteetako konputazio-ahalmena asko handitu denez, datu andana horiek gorde eta prosesatzea posiblea dela.

Etorkizunerako ikerketa-lerroak aipatzen dituzte bukaeran: kalitate handiago lortze aldera corpus handiagoak, konputazio-baliabide gehiago eta hitzetan ezaugarri linguistikoak markatzea beharko direla diote.

Ondorioz zer? Ba… hizkuntzaren teknologiaren aplikazioak gero eta lagungarriagoak direla.

Bukatzeko, ikusiko zenuten euskara ez dela inondik agertzen.
Google-entzat oraindik ez gara interesgarriak
Oraindik badugu zeregina bertakoek 😉

]]>
https://www.unibertsitatea.net/blogak/ixa/2009/02/05/google-en-hizketa-ezagutza-eta-itzulpen-automatikoa-bideo-bat/feed/ 0
Hitzaldia: Interneteko liburutegi digitalak. (Rafael Carrasco 2009-XI-24) https://www.unibertsitatea.net/blogak/ixa/2008/11/14/hitzaldia-interneteko-liburutegi-digitalak-rafael-carrasco-2009-xi-24/ https://www.unibertsitatea.net/blogak/ixa/2008/11/14/hitzaldia-interneteko-liburutegi-digitalak-rafael-carrasco-2009-xi-24/#comments Fri, 14 Nov 2008 17:02:45 +0000 https://www.unibertsitatea.net/blogak/ixa/hitzaldia-interneteko-liburutegi-digitalak-rafael-carrasco-2009-xi-24 HAP masterrak antolatu du hitzaldi bat  azaroaren 24rako, astelehena.

Arratsaldeko 4etan,. Donostiako kanpuseko Korta eraikineko areto nagusian izango da, gaztelaniaz.  Titulua eta edukia hauek izango dira:

Interneteko liburutegi digitalak: diseinua eta ustiatzea.
1. atala: Miguel de Cervantes liburutegi digitalaren esperientzia
2.atala:  liburutegi digitalak sare sozialean


Rafael Carrasco
fisikan doktorea da eta Alacanteko unibertsitateko Lengoaia eta Sistema Informatikoen katedraduna. Miguel de Cervantes liburutegi digitalaren zuzendari-laguntzailea da. Argitalpen ugari egin ditu ospe handiko aldizkari zein kongresutan, eta hainbat gairen inguruan zuzendu ditu proiektuak, hala nola, automata probabilistikoak, gramatika-ikasketa zorizko laginetatik,  neurona-sareak, etiketatze-lengoaiak eta liburutegi digitalak, egoera finituetako makinak eta itzulpen automatikoa.

Inbitatuta zaude.

]]>
https://www.unibertsitatea.net/blogak/ixa/2008/11/14/hitzaldia-interneteko-liburutegi-digitalak-rafael-carrasco-2009-xi-24/feed/ 3
Galdera-erantzute eleanitzeko CLEF lehiaketa eta euskara https://www.unibertsitatea.net/blogak/ixa/2008/05/08/galdera-erantzute-eleanitzeko-clef-lehiaketa-eta-euskara/ https://www.unibertsitatea.net/blogak/ixa/2008/05/08/galdera-erantzute-eleanitzeko-clef-lehiaketa-eta-euskara/#respond Thu, 08 May 2008 19:15:10 +0000 https://www.unibertsitatea.net/blogak/ixa/galdera-erantzute-eleanitzeko-clef-lehiaketa-eta-euskara Galdera-erantzutea (Question Answering, QA) arloko sistemak
oso interesgarriak dira Hizkuntza Teknologiaren komunitatean, sistema
berean konbinatu behar baitira bi azpiarloko teknikak: Informazio
Bilaketa (Information Retrieval, IR) eta Hizkuntzaren prozesaketa
automatikoa (Natural Language Processing, NLP).

QAko sistemari lengoaia naturalezko galderak egiten zaizkio
(kontuz gero, galdera horiek ez dira hitz gako hutsak!), eta sistemak
testu librezko bilduma erraldoiak aztertu behar ditu emaitza gisa
erantzun labur eta zehatzak itzultzeko (dokumentu osorik ez!).

Aurten NIST TREC QA lehiaketaren zazpigarren saioa jarri da
martxan.  Aurreko lehiaketek eragile-lan ukaezina egin dute QA arloan,
egun edonon onartzen diren ebaluazio-neurriak eta
ebaluazio-eskakizunak  ezarri ditu-eta. Hala ere, hasierako TREC QA
lehiaketetan ingelesa baino ez zen lantzen, eleaniztasuna ez zen
inondik ere azaltzen.

2003. urtean CLEF foroa (Cross Language
Evaluation Forum)  hasi zen antolatzen lehiaketako adar berri bat ingelesa ez diren hizkuntzetarako eta
hizkuntzen arteko QA sistemetarako:
Multilingual Question Answering at CLEF. Geroago, adar berri horretako
azken hiru lehiaketetan, partaideak gero eta gehiago dira eta emaitzak
gero eta hobeak.

2008ko lehiaketan euskara ere izango da hizkuntza aztergaien
artean. Guztira hamar izango dira: alemanera, bulgariera, errumaniera,
espainiera, euskara, frantsesa, greziera, ingelesa, italiera, eta
portugesa. Euskara bi modutan izango da aztergai: 

  • Proba batean euskaraz idatzitako testuetan bilatu beharko
    dira erantzunak. Galderak espainieraz, euskaraz edo ingelesez egingo
    dira.
  • Beste proba batean galderak euskaraz egingo dira, eta
    erantzunak bilatu beharko dira espainieraz, ingelesez edo italieraz
    dauden testuetan.

Anhitz ikerketa proiektu estrategikoren barruan Ixa taldeko kide batzuk eta Elhuyar Fundazioa euskararen eginkizunetan antolatzaile izango dira
(lehenengo proba osoa eta bigarren probako galderen euskarazko bertsioa
prestatzen). Ixa taldeko beste partaide batzuk lehiakide izango dira,
baina lehenengo proban bakarrik.

Maiatzaren 19rako zabalduko dira lehiaketarako testu-bildumak eta
galderak, uztailean emaitzak, eta irailerako workshop bat antolatu dute
parte hartzaileen balorazioak denen artean komentatzeko.

Ea lehiaketa honek laguntzen duen arlo honetan euskararekin
ere aurrera egiten.

-----------------------------------------------
GALDEREI BURUZ
Lehiaketaren arauetan ikus daitekeenez aurtengo 200 galderak lau multzotan bilduko dira:
a) "Faktoideak" (%80): galdetu pertsona baten izena, toki bat, zein egunetan gertatu zen zerbait 
    Q: Who was called the “Iron-Chancellor”?         A: Otto von Bismarck.
    Q: What year was Martin Luther King murdered?    A: 1968.
    Q: Which town was  Mozart born in?               A: Salzburg.

b) Definizio-galderak (%15):
    Q: Who is Robert Altmann?                        A: Film maker.
    Q: What is the Knesset?                          A: Parliament of Israel.
c) Lista-erantzunekoak (%5):
    Q: Name all the airports in London, England.     A: Gatwick, Stansted, Heathrow, Luton and City.
    Q: Name the last three American Presidents.      A: George H.W. Bush, Bill Clinton, George W. Bush.
d) Erantzun ezagunik gabeko galderak (%5)

]]>
https://www.unibertsitatea.net/blogak/ixa/2008/05/08/galdera-erantzute-eleanitzeko-clef-lehiaketa-eta-euskara/feed/ 0
Fernando Morillo idazleak teknologia bidaide (II) https://www.unibertsitatea.net/blogak/ixa/2007/12/12/fernando-morillo-idazleak-teknologia-bidaide-ii/ https://www.unibertsitatea.net/blogak/ixa/2007/12/12/fernando-morillo-idazleak-teknologia-bidaide-ii/#comments Wed, 12 Dec 2007 10:51:41 +0000 https://www.unibertsitatea.net/blogak/ixa/fernando-morillo-idazleak-teknologia-bidaide-ii Euskara konputagailuekin automatikoki lantzen irakatsi nahi dugu  HAP masterrean, berriro inbitatu nahi izan dugu Fernando Morillo idazlea mintegi ireki batean parte hartzeko.

Orain dela bi urte Hiztek masterrean txundituta utzi gintuen bere hitzaldiarekin. Honela hasten zen kronika hau bidali genuen Sustatura:

Fernando Morillo idazleak aho zabalik utzi gaitu ostiraleko Hiztek mintegian. Argi geratu zaigu etorri handikoa dela azpeitiar hau, baita ere teknologia funtsezkoa zaiola etorri hori aberasteko. Bi orduko saioan bere jardun profesionaleko 25 programa aurkeztu dizkigu, pantailan eta martxan. Txundituta utzi gaitu.

Ikusi, ikusi orduko hitzaldiaren laburpen osoa.
Beraz, badakizue nora joan ostiral arratsaldean:

  • Hitzaldia: Hizkuntza-teknologia berriak eta literatura
  • Non: Donostiako Informatika Fakultateko Gradu Aretoan
  • Hizlaria: Fernando Morillo  Azpeitiarra da eta zientziazale amorratua txikitatik. Fisika ikasten hasi zen baina Filosofia ikasketak burutu zituen. Literatur sarien irabazle: /Gudoste ametsak/ lanak Donostia Hiria saria oparitu zion 1999. urtean; Pasaiako Hiria, Igartza Literatur beka eta Gabriel Aresti saria irabazi ditu, besteak beste. CAF-Elhuyar-ek emandako zientzia artikuluen gaineko sarien irabazle suertatu da birritan ere.
  • Gaia: hizkuntza-teknologiek literatura sortzerakoan eskaintzen dituzten aukerez mintzatuko da. Eta gogoeta egitearekin batera, literatura egiteko baliagarri izan daitezkeen hainbat tresna erakutsiko dizkigu.
]]>
https://www.unibertsitatea.net/blogak/ixa/2007/12/12/fernando-morillo-idazleak-teknologia-bidaide-ii/feed/ 1
Nola hobetu dokumentu-bilatzaileak? (Hitzaldia 2007-X-16) https://www.unibertsitatea.net/blogak/ixa/2007/10/08/nola-hobetu-dokumentu-bilatzaileak-hitzaldia-2007-x-16/ https://www.unibertsitatea.net/blogak/ixa/2007/10/08/nola-hobetu-dokumentu-bilatzaileak-hitzaldia-2007-x-16/#respond Mon, 08 Oct 2007 20:40:46 +0000 https://www.unibertsitatea.net/blogak/ixa/dokumentuen-berreskurapena-ricardo-baeza-ren-hitzaldia Ricardo Baeza-Yates ikerlari txiletarra EHUko Informatika Fakultatean izango da urriaren 16an. Dokumentu-bilatzaileak nola hobetu? Hori da gaia.- Eguna: urriaren 16a– Ordua: arratsaldeko 4etan– Gaiak: IR y NLP. Mineria de consultas (hitzaldiak gaztelaniaz izango dira)– Tokia: Donostiako Informatika Fakultateko gradu-aretoa

Ricardo Baeza-Yates

Yahoo! Research Barcelona ikerketa-zentroko zuzendaria da gaur egun,baita Yahoo! Research Latin America zentrokoa ere. Lehenago, 2005. urtera arte, Txileko Weberako ikerketa zentroko zuzendaria eta Bartzelonako Pompeu Fabra unibertsitateko katedraduna izan zen.Oso ikerlari famatua da Information Retrieval arloan.Bere argitalpenen artean aipagarria da Modern Information Retrieval liburu.

Dokumentuen berreskurapena (IR, Information Retrieval)

Aplikazio honen helburua hainbat eta hainbat dokumenturen artean bakar bat (edo batzuk) hautatzea da, bilatzen dugun kontzeptu bat edo informazio bat daukana. Noski, adibide tipikoena Interneterako bilatzaileena da,  Google  eta Yahoo !esatebaterako. Euskarazko testuetan hitz osoak bilatzea oso praktikoa ez denez, hainbat ekarpen izan  dira:

IR-ko programek barruan hiru modulu edukitzen dute: modulu indexatzailea, dokumentuak aztertuta hitzekin indizeak sortzen dituena;  modulu bilatzailea, indizeak erabilita dokumentu interesgarriak azkar bilatzen dituena; eta dokumentu horiek beren garrantziaren arabera ordenatzen dituen modulua. Asko aurreratu da azken 10 urteetan baina erronka berriak badira IR-ko ikerketan:  dokumentuen ereduak, dokumentuen sailkapena eta kategorizazioa, arkitektura eta lengoaia bereziak, erabiltzaileen interfazeak, datuen bistaratzea eta iragazketa,

]]>
https://www.unibertsitatea.net/blogak/ixa/2007/10/08/nola-hobetu-dokumentu-bilatzaileak-hitzaldia-2007-x-16/feed/ 0
Ohar batzuk Nazio Batuen Erakundeko itzulpen lanaz. https://www.unibertsitatea.net/blogak/ixa/2007/04/03/ohar-batzuk-nazio-batuen-erakundeko-itzulpen-lanaz/ https://www.unibertsitatea.net/blogak/ixa/2007/04/03/ohar-batzuk-nazio-batuen-erakundeko-itzulpen-lanaz/#comments Tue, 03 Apr 2007 09:11:51 +0000 https://www.unibertsitatea.net/blogak/ixa/ohar-batzuk-nazio-batuen-erakundeko-itzulpen-lanaz Ana I. Morales itzultzailea urte askoan ibili da EHUko itzulpen zerbitzuan. Beti ibili da erne alor horretan berritasunak harrapatzeko.  Hiztek titulua lortu zuen eta orain itzultzaile dabil New Yorken Nazio Batuen egoitzan.  Bertatik kontatzen digu hango lanaren nondik norakoak: lanaren neurria (zenbat orri edo hitz itzultzen da urteko, zenbat itzultzaile), zer tresna erabiltzen diren eta teknologia horiek erabiliz lortzen diren adibide parregarri batzuk  ere. Teknologiak lana errazten digu, eta umorea lantzeko aukera ere ematen digu!

Nazio Batuen Erakundea. Zenbat hizkuntza?

Nazio Batuen erakundeak bost egoitza ditu, erakunde honen tradizio jatorrenaren arabera hurrenkera alfabetikoz aipatuko ditudanak: Geneva, Nairobi, New York, Santiago de Chile eta Viena. Egoitza nagusia New Yorkekoa da, eta hortxe daude erakunde honen bost organismo nagusiak: Idazkaritza Nagusia, Segurtasun Kontseilua, Batzar Nagusia, Gizarte eta Ekonomia Kontseilua eta Estatu Administratzaileen Kontseilua.

Nazio Batuen Erakundeak bost hizkuntza ofizial dauzka: arabiera, errusiera, frantsesa, gaztelania, ingelesa eta
txinera. Hori dela eta, hizkuntza guzti hauentzako itzulpen zerbitzuak daude Nazio Batuetan. Gainera, alemaneko atal txiki bat ere badago New Yorken, hizkuntza hori erakunde honetan ofiziala ez izan arren.

Neurria. Zenbat orri edo hitz itzultzen da?

Itzultzen den dokumentazioa gehienbat administratiboa eta juridikoa da: gutunak, txostenak, erabakiak, aktak, curriculum vitaeak, aurrekontuak, hitzarmenak, arautegiak, eguneroko buletina…

Itzulpen produkzioaz eta itzultzaile kopuruaz orain emango ditudan datuak New Yorkeko Espainierako Zerbitzuko buruak, Constantine Danilevsky jaunak, emandakoak dira, eta zerbitzu horri bakarrik dagozkio:  Urtean zerbitzuan bertan gaztelaniara 50.000 orri  itzultzen dira, hau da, 1.650.000 berba inguru. Horri gehitu behar zaio bete %18 bat, kanpoan itzultzen dena.
Arabiera, errusiera, frantses eta txinerara pareko bolumena itzultzen da, Danilevskyren arabera beti ere.  Ingelesera, berriz, beste hizkuntzenaren %20 inguru. Dena dela, zerbitzu honek bileren hitzez hitzeko aktak idazten ditu ingelesez.

Zenbat itzultzaile?

Zerbitzu guztiak kontuan hartuta, 300 itzultzaile inguru daude plantillan. Espainierako Zerbitzuan 54 lanpostu daude; horietatik une honetan 47 daude beteta. Horri gehitu behar zaio NBErentzat boladaka (hilabete batzuk urtean) lan egiten duen itzultzaileen kopuru aldakor bat (“temporary staff”).

Hizkuntza-teknologiaren erabilera

Itzulpengintzarako erabiltzen diren tresnei dagokienez, alde batetik, aipatu behar da ez zerbitzu guztietan ez egoitza guztietan ez direla erabiltzen tresna berak; zerbitzuak eurak ere ez daude antolatuta egitura beraren arabera. Orain aipatuko dudana New Yorkeko Espainiera Zerbitzuari dagokio eta neure behaketan oinarritzen da. Tresneria eta estrategiei dagokienez, ez dago batasunik zerbitzuko itzultzaileen artean: lanabes eta prozedura desberdinak erabiltzen  dituzte, euren preferentzia eta ohituren arabera. Hasteko, bi talde handi bereiz ditzakegu:

a) Ahotsa erabiliz itzultzen dutenak. Itzultzaile hauek “diktatu” egiten diote itzulpena ordenagailuari, ez dute tekleatzen. Horretarako bi tresna hauetako bat erabiltzen dute:

 a1) grabazio digitala (mikrofono digital batez eta grabaziorako programa batez audio artxibo bat sortu eta gero hori mekanografoei pasatzen diete, eurek transkriba dezaten); diktafono tradizionalak (magnetofoiak eta  kaseteak) 2006ko irailean erretiratu ziren New Yorkeko egoitzatik horren ordez teknologia digitala ezartzeko;

a2) hizkuntza testu bihurtzeko programa bat, kasu honetan Dragon. Dragonez lan egiten duten itzultzaileek “irakatsi” egiten diote tresnari euren ahotsa eta ahoskera ezagutzen, baina, hala ere, diktatu osteko zuzenketak ezinbestekoak izaten dira, tresna egokia izan arren akats “arriskutsu” ugari egiten baititu.

b) Testu prozesatzailea erabiliz itzultzen dutenak. Hemen beste bi talde bereiz genitzake:

b1) Aurretik itzulitako dokumentuen datu-base  dokumentalean bilaketak egin eta balio dieten testuak MsWordeko “kopiatu” eta “itsatsi” funtzioak erabiliz  baliatzen dituzten itzultzaileak. Batzuek erruz darabiltzate autotestu eta autozuzenketa aukerak sintagmak “automatikoki” itzultzeko, eta zenbaitek oso makro elaboratuak ere bai. Talde honetako zenbait itzultzailek SDL Tradoseko Multiterm-eko terminologia datu base bat darabilte MSWorden txertatuta.

b2) Itzulpen memoriak darabiltzatenak: Wordfast, SDL Trados, Olifant (memorien editorea). Batzuek segmentatzaile huts modura darabiltzate tresna hauek, memoriarik elikatu gabe. Beste batzuek, aldiz, memoria  elikatzen dute, eurek egindako itzulpenekin edo/eta alineatuta dauden dokumentuak inportatuz. Guztiek darabil(tza)te euren memoriari atxikitako terminologia  datu base bat edo gehiago. Talde honetako gehienek SDL Trados darabilte. Nire kalkuluen arabera, zerbitzuko itzultzaileen herenak osatzen du talde hau.

Azken aldian badirudi New Yorken bultzada ematen hasi zaiola  b2 taldearen jokabideari eta ekimen bat abiatu dela joera hori zerbitzuan hedatuz joateko.

Eranskina (umore onez):
Esan dugunez, a) taldeko itzultzaile batzuek ahotsa ezagutzeko Dragon programa darabilte, eta oso iritzi ona dute tresna horretaz. Hala ere, diktatzaile oso abilak izan arren (batzuk benetako artistak!) eta programa  aurretik trebatu arren, Dragoni bihurrikeriak egitea  gustatzen zaio. Hona hemen programak egindako zenbait  okerreko transkripzio (bigarren lerroak adierazten du itzultzaileak benetan esan ziona):

> cono drama de la migración
> cronograma de la migración

> las recomendaciones casi incluidas
> las recomendaciones allí incluidas

> agravar la atención
> agravar la tensión

> se vende por la coherencia
> se vele por la coherencia

> destrozadas por órgano
> desglosadas por órgano

> las asas y bajas
> las alzas y bajas

> instituciones letales
> instituciones locales

> estrategia de sanción de la pobreza
> estrategia de reducción de la pobreza

> estrategia de reducción japonesa
> estrategia de reducción de la pobreza

> ese pimiento
> de seguimiento

> los amantes
> los donantes

> asesoramiento profético
> asesoramiento político

> se presenta a tiros
> representativos

> marcos de gatos operativos
> marcos de gastos operativos

> penosos tratados
> en los dos tratados

> a la tragedia de la CNUDMI
> al arbitraje de la CNUDMI

> parásito pecador
> parásito depredador

> de las gracias unidas
> de las Naciones Unidas

]]>
https://www.unibertsitatea.net/blogak/ixa/2007/04/03/ohar-batzuk-nazio-batuen-erakundeko-itzulpen-lanaz/feed/ 1
Mintegia: Hizkuntzarteko Informazio-Berreskurapena (2007-III-22) https://www.unibertsitatea.net/blogak/ixa/2007/03/19/mintegia-hizkuntzen-arteko-informazio-erauzketa-2007-iii-22/ https://www.unibertsitatea.net/blogak/ixa/2007/03/19/mintegia-hizkuntzen-arteko-informazio-erauzketa-2007-iii-22/#respond Mon, 19 Mar 2007 18:42:44 +0000 https://www.unibertsitatea.net/blogak/ixa/mintegia-hizkuntzen-arteko-informazio-erauzketa-2005-ii-12 Gero eta informazio gehiago dugu eskura testu modura. Sarritan, baina, informazio hori beste hizkuntza batean idatzita dago, eta zailago egiten zaigu hortik informazio interesgarria ateratzea, eskuratzea. Hizkuntza teknologian  ahaleginak egiten ari dira zailtasun horiek gainditzeko, eta hortik sortu da  Hizkuntzarteko Informazio-Berreskurapena atala (Cross Lingual Information Retrieval edo CLIR).

Ixa taldeak, Madrileko Hezkuntza Ministerioan lortu duen “KNOW: Desarrollo de tecnologías multilingües a gran escala para la comprensión del lenguaje” proiektuaren barruan, Hizkuntzarteko Informazio-Berreskurapena sistemen (CLIR) eta hizkuntzaren ulermenaren arteko harremanaz arituko den mintegi bat antolatu du. Bertan UNED unibertsitateko Julio Gonzalo irakaslea ere izango da.

Mintegia irekia izango da kanpoko interesatuentzat ere.<amaia.lorenzo(abildua)ehu.es>).
Joateko asmoa duenak mesedez abisatu (Amaia Lorenzo
943 005 172,

Eguna:    Martxoaren 22a, osteguna
Tokia:     Gradu-Aretoa (Donostiako Informatika Fakultatea)
Programa:

10:00 Question/Answering in IXA (Xabier Arregi – IXA Taldea)
10:30 MEANING for IR/CLIR (German Rigau – IXA Taldea)
11:00 Coffee
11:30 CLEF-Semeval task on WSD and IR/CLIR (Eneko Agirre –  IXA Taldea)
12:00 Recent developments in IR/CLIR (Julio Gonzalo – UNED)
13:30 Lunch
15:30 Discussion

    • what does IR need from NLP and specially language understanding(NLU)
    • what can NLP and specially language understanding offer to IR
    • new areas of IR where NLP/NLU could be interesting

16:30 end

]]>
https://www.unibertsitatea.net/blogak/ixa/2007/03/19/mintegia-hizkuntzen-arteko-informazio-erauzketa-2007-iii-22/feed/ 0