HiTZ Zentroa – Hizkuntza-teknologiak, Ixa Taldearen bloga https://www.unibertsitatea.net/blogak/ixa IXA taldea. Hizkuntzaren prozesamendua Wed, 31 May 2023 21:32:01 +0000 eu hourly 1 https://wordpress.org/?v=4.9.23 https://www.unibertsitatea.net/blogak/ixa/files/2018/10/ixa.jpg HiTZ Zentroa – Hizkuntza-teknologiak, Ixa Taldearen bloga https://www.unibertsitatea.net/blogak/ixa 32 32 Kubako sari akademiko gorena Xabier Artola Ixakideari (2023-02-16) https://www.unibertsitatea.net/blogak/ixa/2023/02/16/kubako-sari-akademiko-gorena-xabier-artola-ixakideari-2023-02-16/ https://www.unibertsitatea.net/blogak/ixa/2023/02/16/kubako-sari-akademiko-gorena-xabier-artola-ixakideari-2023-02-16/#respond Thu, 16 Feb 2023 20:13:15 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=3135 Kubak “Carlos J. Finlay” Ordenaren Saria eman dio Ixa Taldeko Xabier Artola irakasleari 2023ko otsailaren 16an. Kubako zientzialari nazionalei eta atzerritarrei ematen dien kondekoraziorik gorena da hori. Artolari Kubarekin 20 urteko lankidetza zientifiko emankorrarengatik eman diote saria. Santiagoko Linguistika Aplikatuaren Zentroarekin bereziki.

Xabier Artolari Carlos J. Finlay saria  emateko ekitaldia(Kuba, 2023-02-16)

Euskal Herriko Unibertsitateko IXA taldea lankidetzan aritu izan da 2001tik CLA ikergunearekin. Hortik atera da, adibidez, Diccionario Básico Escolar Cubano (DBE) hiztegia (digitala eta paperezkoa). Lankidetza honen barruan mende hasieran sortu zen lehenengo bertsioan hiztegiaren diseinu informatikoa oso aurreratu izan zen: XML lengoaia kodetuta dago), eta hiztegiak editatzeko Ixa taldean garatu zen leXkit izeneko ingurunea erabiltzen zen. Geroago hiztegiaren lau edizio (2005, 2008, 2009, 2013-2015) argitaratu dira Kuban, paperean eta digitalki. Hiztegiaren sortzaileak Eloína Miyares Bermúdez eta Vitelio Ruiz Hernández linguistak ziren. Urteetan zehar zabalkuntza handia izan du hiztegiak Kubako eskoletan. 2023. urtera arte guztira hiztegiaren 300.000tik gora ale salduta zeuden paperean, eta bertsio elektronikoan 1100 CD.

Irakurri gehiago:

]]>
https://www.unibertsitatea.net/blogak/ixa/2023/02/16/kubako-sari-akademiko-gorena-xabier-artola-ixakideari-2023-02-16/feed/ 0
Bingen Zupiria, Hizkuntzaren ekonomia berriko jardunaldian (2022-06-01) https://www.unibertsitatea.net/blogak/ixa/2022/06/01/bingen-zupiria-hinkuntzaren-ekonomia-berriko-jardunaldian-2022-05-31/ https://www.unibertsitatea.net/blogak/ixa/2022/06/01/bingen-zupiria-hinkuntzaren-ekonomia-berriko-jardunaldian-2022-05-31/#respond Wed, 01 Jun 2022 09:17:06 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=3096
Bingen Zupiria, Eusko Jaurlaritzako Kultura Sailburua.

Hizkuntzaren ekonomia berriko trantsizio digital eleaniztunari buruzko jardunaldia antolatu dugu Donostiako Miramar jauregian. Galdera hauei erantzuteko asmoz:

  • Nola egin arrakastaz trantsizio digital eleaniztuna; nola bermatu gure hizkuntzen eta kulturen iraupen digitala?
  • Nola bihurtu sozioekonomikoki errentagarri eleaniztasuna: berrikuntza, zerbitzuak, produktuak eta negozio-eredu berriak?

SEPLN Hizkuntza Naturala Prozesatzeko Espainiako Elkarteak, Eusko Jaurlaritzako Kultura Sailaren eta UPV/EHUko HiTZ zentroaren lartean antolatu dugu.

Hau da Eusko Jaurlaritzako Kultura Saiburu Bingen Zupiriaren hasierako interbentzioa:

Egun on guztioi eta mila esker gaur Donostiara hurbildu zareten guztioi. Azken urteotan teknologiaren eraginez, gauza asko aldatu dira gure hizkuntzentzat.
Ikusi dugu hizkuntza-teknologiei esker, adimen artifizialari esker, euskara bezalako hizkuntzentzat aukera berriak sortu direla gure hizkuntzaren erabilera areagotze eta indartze aldera.
Kontzeptu berriak ere agertu dira, adibidez, gaur jardunaldi honen ardatzean dagoena: “Hizkuntzaren ekonomia berria”. Orain gutxi “Hizkuntzen industriei” buruz hitz egiten genuen, baina teknologiarekin gertatzen den moduan, hizkuntza ere etengabe aldatzen ari da.Gure gizartea gero eta eleaniztunagoa eta gero eta teknologikoagoa da, eta errealitate horrek gobernuok politika zehatzak diseinatzera eta gauzatzera garamatza.

Eva Ferreira, Bingen Zupiria, eta Allfonso Ureña.

Horrela, hemen gauden gobernuok estrategia digitalak, planak, ekintza-planak eta antzekoak onartu ditugu gure gobernuetan, hain zuzen, gure hizkuntzak hizkuntza-teknologietan integratzeko eta gure herritarrei Administrazioarekiko harremanetan nahiz eguneroko bizitzan, teknologia baliatuta, haien aukerako hizkuntza erabil dezaten bermatzeko. Hizkuntzek elkarren ondoan bizi behar dute, handiek eta txikiek;  Baina Hizkuntza guztiak ez daude egoera berean; eta herritar guztion ere ez, hizkuntzen desberdintasun horren ondorioz.

Guztiok nahi eta behar dugu geure tokia mundu berri honetan eta denon obligazioa da hizkuntza guztien trantsizio digital arrakastatsua bultzatzea eta gauzatzea. Baita hiztun gutxiago dituzten hizkuntzena ere. Eusko Jaurlaritzak “GAITU Hizkuntza-teknologien Ekintza-plana 2021-2024” (www.euskadi.eus/gaitu) jarri du martxan.  Jaurlaritzako sailen arteko Ekintza-plana da eta abian dauden proiektuak jasotzen ditu, baita legegintzaldian zehar garatuko direnak ere. Badakigu oso garrantzitsua izango dela proiektu horiek guztiak aurrera eramatea eta berriak txertatzea.
Ekintza-plan hau irekia da, moldagarria, dinamikoa eta etengabe eguneratuko da. Administraziotik herritarrei zerbitzu on eta aurreratuak ematea da Ekintza-planaren lehenengo fase honen helburua, baina, aurrerantzean, ikerketa ere txertatzea aurreikusi dugu.

Hizkuntza-teknologietan eta adimen artifizialean euskara modu eraginkorrean integratzearen ardatza elkarlana da, hau da, erakunde publikoen konpromisoa  eta ikerketa-zentroen eta enpresen ezagutza eta esperientzia (eskarmentua) etengabe uztartzea ezinbestekoa da. Elkarlan hori beti izan da gure printzipioa eta praktika, hemen, gure artean.
Bide horretan jarraitzeko eta euskara hizkuntzak Adimen Artifizialean behar duen garapena izan dezan, hain zuzen, programak eta proiektuak bideratu ahal izateko, laguntza handia izan daiteke Espainiako Gobernuak onartu Hizkuntzaren Ekonomia berriaren PERTEa. Oso garrantzitsua da Gaztelaniak ekonomia berrian izan behar duen tokia bermatzea, baina era berean, nahieta nahi ezkoa da Estatu espainiarreko beste hizkuntza ofizialentzat ere diru-baliabideak esleitzea ahalik eta lasterren. Gaztelania ez diren Estatuko beste hizkuntzek, garapen teknolinguistikoa dela eta, bermatu beharra daukate beren etorkizuna mundu digitalean.
Ez da hautazko kontu bat. Hitz ala biziko kontua da. Izatea edo ez izatea, hori izango da kontua.

Bestalde, ezin ahaztu ikerketa eta, zentzu horretan, Estatuko Gobernuari lankidetza luzatzen diogu Europa mailako CLARIAH proiektuan (Digital Humanities resources and infrastructures) parte hartzeko.
Gure hizkuntza-teknologietako ikerlarientzat aukera garrantzitsua litzateke Estatuko Gobernua proiektu horretako kide balitz (Estatuak izan behar dira kide).  Eusko Jaurlaritza proiektu horretan Euskadiko bi ikerlari jartzeko prest dagoela adierazi nahi dizuet. La incorporación del euskera y de las otras lenguas cooficiales del estado español al mundo de las tecnologías de la lengua y de la inteligencia artificial no es una opción.
Es una cuestión de supervivencia. Y su logro solo será posible mediante el trabajo en común, es decir, mediante el compromiso de las instituciones públicas y el conocimiento y la experiencia de los centros de investigación y de las empresas. Esa colaboración siempre ha sido nuestro principio y nuestra manera de trabajar.  Para poder continuar en ese camino y que el euskera tenga el desarrollo necesario en la Inteligencia Artificial, para poder canalizar programas y proyectos, el PERTE de la nueva economía de la lengua recientemente aprobado por el Gpbierno de España debe ser una herramienta fundamental.
No concebimos un futuro digital europeo o mundial en el que los ciudadanos no tengamos la libertad de elegir nuestra lengua de comunicación y tengamos que renunciar al uso de una de nuestras lenguas.
Ese es el reto y la oportunidad que las tecnologías de la lengua y la inteligencia artificial nos ofrecerán si somos capaces de impulsar las políticas adecuadas. Y es urgente que lo hagamos ràpido y bien.

Es legítimo que las instituciones públicas en el estado español busquen el protagonismo del castellano en el escenario universal en el que vamos a vivir. Pero además de legítimo, es una obligación de todos que todas las lenguas del estado español tengan asegurada su presencia y desarrollo en el mundo digital. Es una cuestión de democracia e igualdad y atañe a todas las instancias del estado español. Es obligación de todas nuestras instituciones que todas nuestras lenguas puedan acceder, existir, competir, desarrollarse y pervivir en un nuevo mundo digital, que sí o sí deberá ser multi y plurilingÜe como es la realidad analógica del estado español.
Preocuoación del Gpobvbierno vasco por como se han planteado y sustanciado los fondos europeos. Vemos en el Perter de la economía de la lengua una oportunidad que no deberíamos desperdiciar
Así quiero trasladarles la disposición del Gobierno Vasco a poner a disposición de este proyecto a dos personas investigadoras de Euskadi.

Amaitzeko, esan, hizkuntza koofizialak ezin direla atzera geratu Hizkuntzaren Ekonomia Berrian. Beraz, jardunaldi honek argibide interesgarriak eta lankidetzarako eta konpromisorako aukera paregabea izatea espero dugu. Eskerrik asko! “

]]>
https://www.unibertsitatea.net/blogak/ixa/2022/06/01/bingen-zupiria-hinkuntzaren-ekonomia-berriko-jardunaldian-2022-05-31/feed/ 0
Eva Ferreira, Hizkuntzaren ekonomia berriko jardunaldian (2022-06-01) https://www.unibertsitatea.net/blogak/ixa/2022/06/01/eva-ferreira-hizkuntzaren-ekonomia-berriko-jardunaldian-2022-06-01/ https://www.unibertsitatea.net/blogak/ixa/2022/06/01/eva-ferreira-hizkuntzaren-ekonomia-berriko-jardunaldian-2022-06-01/#respond Wed, 01 Jun 2022 09:06:30 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=3092
Eva Ferreira, Bingen Zupiria, eta Allfonso Ureña.

Hizkuntzaren ekonomia berriko trantsizio digital eleaniztunari buruzko jardunaldia antolatu dugu Donostiako Miramar jauregian. Galdera hauei erantzuteko asmoz:

  • Nola egin arrakastaz trantsizio digital eleaniztuna; nola bermatu gure hizkuntzen eta kulturen iraupen digitala?
  • Nola bihurtu sozioekonomikoki errentagarri eleaniztasuna: berrikuntza, zerbitzuak, produktuak eta negozio-eredu berriak?

SEPLN Hizkuntza Naturala Prozesatzeko Espainiako Elkarteak, Eusko Jaurlaritzako Kultura Sailaren eta UPV/EHUko HiTZ zentroaren lartean antolatu dugu.

Hau da UPV/EHUko errektore Eva Ferreriraren hasierako interbentzioa:

“Kultura eta Hizkuntza Politika sailburu jauna; Comisionada para la Alianza por la Nueva Economía de la Lengua, Gobierno de España; Presidente de la Sociedad Española para el Procesamiento del Lenguaje Natural; HiTZ zentroko zuzendari jauna; autonomi erkidego ezberdinetako herri agintariok; jaun-andreok.

Euskal Herriko Unibertsitatearentzat oso pozgarria da hizkuntzaren ekonomia berriko trantsizio digital eleaniztunari buruzko jardunaldi honen antolaketan eta garapenean parte hartu izana.

Horregatik, eskerrak eman nahi dizkiot Kultura eta Hizkuntza Politikako Sailari jardunaldi hau sustatu eta babestu izanagatik. Eskerrik asko sailburu jauna gure unibertsitate publikoan jarri duzun, jarri duzuen, konfiantzagatik. Pozgarria eta atsegina zait gaur zuekin Miramar Jauregi honetan egotea. Egoitza hau unibertsitateko jarduera akademikoarekin estuki lotua baitago.

Hizkuntza gizateriak duen tresnarik konplexuena eta bereziena da. Maiz errepikatu denez, hizkuntzak egiten gaitu, nolabait, gizaki.

Hizkuntza tresna konplexua da bere egituran, noski, baina are konplexuagoa kultura aniztasunean, hizkuntza asko izanik. Hizkuntzek kultura-tapiz aberatsa ehundu dute historian zehar, baina tapiz horrek are gehiago zaildu ditu giza harremanak.

(…)

El lenguaje es, en efecto, la herramienta intelectual más sofisticada que ha ideado el ser humano. Pero a esa complejidad se le une la complejidad añadida del multilingüismo como producto de la diversidad de pueblos y culturas.

Por ello, el lenguaje se ha convertido en un objeto de atracción para la tecnología y para su desarrollo, desde una perspectiva multidisciplinar.

Ese campo de trabajo, tan vasto y también tan ambicioso, se sitúa en eso que denominamos “conocimiento de frontera”. La tecnología del lenguaje constituye una auténtica vanguardia del conocimiento dirigida a explorar la inteligencia humana; a explotar los recursos textuales y orales que esta ha desarrollado; y a indagar en formas cada vez más ambiciosas y sugestivas de inteligencia artificial.

En ese sentido, la tecnología del lenguaje encara verdaderos desafíos. Uno de ellos es el desarrollo cada vez más sofisticado de tecnologías dirigidas a actuar en un entorno multilingüe. Nadie puede negar que el multilingüismo es una riqueza para el patrimonio cultural de la humanidad. Pero ahora, en el contexto de nuestro tiempo, el multilingüismo no es una circunstancia localizada en el tiempo y en el espacio, sino la consecuencia lógica de una sociedad global. Y las tecnologías del lenguaje son cada vez más eficaces a la hora de salvar los inconvenientes que suscita el uso de lenguas incomprensibles entre sí.

Los desafíos son numerosos. Uno de ellos, la exploración de un nuevo espacio de actividad económica, basada en nuevos servicios para nuevas necesidades, dentro de un contexto global.

Sin embargo, hay más: a menudo se habla de la economía global pero no tanto de su irremediable consecuencia: una cultura global. Las culturas, y con ellas, las lenguas, ya no habitan espacios separados, con puntuales sectores de convivencia. Ahora, las culturas y las lenguas se superponen, de diversas maneras, en un mundo donde las fronteras físicas ya han desaparecido y las fronteras políticas, en buena medida, también.

Por ello, deben construirse puentes entre las lenguas y las nuevas tecnologías son determinantes en esa tarea. Ese es, además, un condicionamiento fundamental para conseguir otro objetivo: que las lenguas sobrevivan, que sigan cumpliendo su decisiva función de comunicación en sus comunidades de origen y que también permitan entrar en contacto directo -e inmediato- con otras lenguas y culturas.

Los temas a abordar esta jornada son muy ambiciosos y requieren la colaboración de la universidad, la administración pública y la empresa. Creo que, desde la Universidad del País Vasco, la aportación que podemos hacer es inmejorable: HiTZ, centro vasco de tecnología del lenguaje, un proyecto en el que se integran grupos de investigación tan relevantes como AHOLAB (que ha participado en proyectos de reconocimiento de voz, conversión de texto a voz e identificación de locutor) e IXA Taldea (que trabaja en el desarrollo de recursos y herramientas para el tratamiento del euskera, castellano o inglés).

El centro de investigación HiTZ es hoy día una referencia a nivel internacional en su especialidad y creo que hay un reconocimiento implícito a esa realidad en la elección de nuestra universidad para esta jornada de trabajo.

Uste dut hizkuntzaren teknologia aliatu berria dela hizkuntza gutxituen biziraupenerako, eta ziur nago lan-eremu horrek etorkizunerako aukera berriak ekarriko dituela.

Nire aldetik, besterik ez. Lanaldi emankorra opa dizuet eta mila esker zuen arretagatik.

]]>
https://www.unibertsitatea.net/blogak/ixa/2022/06/01/eva-ferreira-hizkuntzaren-ekonomia-berriko-jardunaldian-2022-06-01/feed/ 0
Linguatec AI Bikaintasun-Sarea (2021-06-18) https://www.unibertsitatea.net/blogak/ixa/2021/10/08/linguatec-ai-bikaintasun-sarea-2021-06-18/ https://www.unibertsitatea.net/blogak/ixa/2021/10/08/linguatec-ai-bikaintasun-sarea-2021-06-18/#comments Fri, 08 Oct 2021 12:09:32 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=3028

Bukatu da aurten LINGUATEC proiektu europarra. Proeiktuaren xedea okzitanieraren, aragoieraren eta euskararen digitalizazio-maila hobetzea izan da, eta neurri handi batean lortu dugu helburua.

  • 2021eko maiatzeko workshopean emaitza zientifikoak konpartitu genituen komunitate akademikoarekin,
  • Ekaineko biltzar publikoan Linguatec AI Bikaintasun-Sarea sortu genuen proiektuko kideen artean, 2018-2021 urteetan egin dugun lankidetza-lan eredugarriari jarraipena emateko.
Linguatec sarearen erakunde sortzaileen ordezkariak: Elhuyar fundazioa, Aragoiko Gobernua, Okzitaniako Tolosako CRNS goi mailako ikerketa zentroa, Euskaltzaindia, Lo Congrés okzitanieraren akademia eta EHUko Ixa taldea. (Naiz, 2021-06-19)

Sare berria sortzeko adierazpena lau hizkuntzatan idatzi genuen (espainieraz, frantsesez, okzitanieraz eta euskaraz, LINGUATEC-AI_ES-EU-FR-OC.pdf). Hau da euskarazko bertsioa:

 

LINGUATEC AI BIKAINTASUN-SAREA

Adimen Artifiziala Hizkuntzan Mugaz Gaindiko Bikaintasun Sarea eratzea (Pirinioez gaindiko hizkuntza-azpiegitura eraikitzeko lankidetza teknologikoa)

Pirinioetako Lan Elkartearen lurraldea eraikitzen ari diren mugaz gaindiko proiektua da, eta 15 milioi herritarrek baino gehiagok partekatzen dituzte 6 hizkuntza eta horien tokiko barietateak. Eleaniztasuna gure lurraldeko aktiborik handienetako bat da, eta erronka garrantzitsuenetako bat ere bada, kulturaren eta ekonomiaren ikuspegitik kohesionatutako lurralde bat sortzeko. Gauza bera gertatzen da Europan, non hogeita lau hizkuntza ofizial eta 60 hizkuntza gutxitu baino gehiago osatzen duten eremu eleaniztun aberatsa baita; garai batean, eleaniztasuna komunikazioa eta informazioaren zirkulazio librea zailtzen zituzten hizkuntza-oztopo gisa ikusi ziren.

Adimen artifiziala hizkuntza eguneroko produktu digital askotan erabiltzen da, gehienak hizkuntzaz baliatzen baitira. Komunikazio mugikorrek, sare sozialek, laguntzaile adimendunek eta ahotsean oinarritutako interfazeek herritarrak, enpresak eta administrazio publikoak mundu digitalean elkarreraginean aritzeko modua aldatzen ari dira

Hizkuntza-teknologiek eraginkortasunez laguntzen dute Europako herritar guztien (eta Pirinioetako Lan Elkartearen lurraldearen) arteko berdintasuna lortzen eguneroko bizitzan, edozein dela ere hitz egiten duten hizkuntza. Nahiz eta hizkuntza gutxituek asko duten irabazteko hizkuntza-teknologiekin, egoera teknologiko ahula dute abiapuntu; izan ere, hizkuntza horiek digitalki garatzeko behar diren tresna eta baliabideak oso urriak dira, eta, kasu batzuetan, ez dira existitzen. 2018ko irailaren 11n Europako Parlamentuak onartutako ebazpenean (“On language equality in the digital age” 2018/2028(INI)) argiki egiaztatu du Europako hizkuntzen artean desoreka dagoela hizkuntzaren teknologien barruan, eta ekintzarako deia egin du, hizkuntzen arteko arrakala horiek lehenbailehen gainditzeko.

Hizkuntza baten garapena, eta beraz, hizkuntza horretatik elikatzen den kultura, erabat loturik dago hizkuntza horrek ingurune moderno eta aldakorretan, hala nola mundu digitalean funtzionatzeko duen gaitasunarekin. Hala, hizkuntza- eta kultura-aniztasuna estu lotuta dago mundu digitalean hizkuntza batek dituen gaitasun eta baliabideekin, hau da, gure kasuan mugaz gaindiko hizkuntza-azpiegitura sortzearekin. Hori dela eta, oso garrantzitsua da hizkuntza-oztopoak gainditzea eta, hartara, Pirinioetako Lan Elkartearen lurraldeko hizkuntzak indartzea, lurraldeak duen balio ekonomiko, kultural eta linguistikoa osorik bultzatu ahal izateko.

Lurraldeko hizkuntza guztientzat euskarri teknologiko egokia bermatzeak enplegua sortuko dugu, hazkuntza, aukerak, kulturarteko harremanak eta nazioarteko erreferentzialtasuna.

Era berean, funtsezkoa da ingurune digitaleko hizkuntza-oztopoak gainditzea, funtsezkoa baita gizarte inklusiborako eta aniztasunari batasuna eta kohesioa emateko urte askoan.

Linguatec AI Bikaintasun Sarearen xedea

Adimen Artifiziala Hizkuntza Mugaz Gaindiko Bikaintasun Sarea sortzea, lankidetza teknologikoaren bidez Pirinioez gaindiko hizkuntza-azpiegitura eraikitzen laguntzeko.

Helburuak

1. LINGUATEC bezalako mugaz gaindiko proiektuen beharra balioan jarri eta transmititzea, gure lurraldearen aberastasun eleaniztunak balio ekonomiko, turistiko eta kulturala sortzen baitu. Hau da, hizkuntza-hesia gainditzea eta ahaleginak batzea gure kultura- eta hizkuntza-aberastasuna motor ekonomiko gisa aprobetxatzeko.

2. Agenda estrategiko baten oinarriak eta ibilbide-orri bat ezartzea, hizkuntza-berdintasun digitala errealitate izan dadin Pirinioetako Lan Elkartearen lurraldean 2030ean.

3. Euskararen, katalanaren, aragoieraren eta okzitanieraren arteko lankidetza estua abiaraztea, guztiek oinarri teknologiko nahikoa izan dezaten, eta, hartara, pertsona bakoitzak bere hizkuntzan eroso parte har dezan mundu digitalean.

4. Adimen artifizialak hizkuntza eskaintzen dizkigun aukerak eta ahalmenak gizarteratzea, lurralde kohesionatua, integratzailea, eleaniztuna eta adimenduna lortzeko.

5. Adimen artifizialean azken belaunaldiko ezagutza eta teknologia sortzea, enpresek, erakundeek eta gizarte-erakundeek teknologiaren ahalmena aprobetxa dezaten Pirinioetako Lan Elkartearen lurraldearen garapen ekonomiko, sozial eta instituzionalerako.

6. Beste lurralde eleaniztun batzuetan, Europan zein mundu osoan, Pirinioetako Lan Elkartearen lurraldean lortutako lorpenak zabaltzea, esperientzia, prestakuntza, aholkularitza eta teknologia eskainiz.

7. Pirinioetako Lan Elkartearen lurraldea erreferentzia garrantzitsu bihurtzea hizkuntza-teknologietan baliabide urriak dituzten hizkuntzentzat eta haren garapen digitalean aurrera egin nahi duten hizkuntzentzat.

]]>
https://www.unibertsitatea.net/blogak/ixa/2021/10/08/linguatec-ai-bikaintasun-sarea-2021-06-18/feed/ 1
Linguatec biltzar publikoa: Adimen artifiziala, azpiegitura linguistikoak eta mugaz gaindiko lankidetza (online, 2021-06-17 eta 18) https://www.unibertsitatea.net/blogak/ixa/2021/06/14/biltzar-publikoa-adimen-artifiziala-eta-mugaz-gaindiko-lankidetza-online-2021-06-17-eta-18/ https://www.unibertsitatea.net/blogak/ixa/2021/06/14/biltzar-publikoa-adimen-artifiziala-eta-mugaz-gaindiko-lankidetza-online-2021-06-17-eta-18/#comments Mon, 14 Jun 2021 12:15:42 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=3012

Bukatzen da. Okzitanieraren, aragoieraren eta euskararen  digitalizazio-maila hobetzea izan da LINGUATEC proiektu europarraren helburua. 2021eko maiatzaren 12an workshop batean konpartitu genuen komunitate akademikoarekin. Orain gizarte osoari gonbitea luzatzen diogu.

Ezagutu nahi dituzu Linguatec proiektuan sortu ditugun tresnak eta baliabideak?

Ostegunean, ekainak 17, Pauen
eta ostiralean, ekainak 18, Donostian.

Interesa duten guztientzat, proiektuaren barruan egindako lana zabaltzeko.
Biltzarra jende guztiarentzat dago irekita, baina erregistratu egin behar da (MATRIKULATU)

Informazio gehiago: https://www.uik.eus/sites/default/files/linguatec_eu_-_0806202

MUGAZ GAINDIKO BILTZARRA
Adimen artifiziala eta mugaz gaindiko lankidetza: azpiegitura linguistiko, adimendun eta irisgarri baten bidean


Ekainaren 17a, Paue.

  • Toki Fisikoa: Complexe de la République (700 aretoa)
  • Ordutegia: 9:00etatik 15:00etara.
  • Formatua:Aurrez aurrekoa (erakundeak eta prentsa) eta streaming bidez emango da Facebook-en eta Youtube-n. Ekitaldiaren grabazioa Interneten jarriko da ikusgai, gero.

PROGRAMA

10h – Irekiera

9:00 –HASIERA (15 min)

  • Gilabèrt Mercadièr, Okzitanieraren Kongresu Iraunkorreko lehendakaria.
  • Jon Abril Olaetxea, Elhuyarreko koordinatzaile nagusia. POCTEFA LINGUATEC proiektuko taldeburua da Elhuyar.

9:15 –TEKNOPOLISEN BIDEO-EMANALDIA (15 min)

9:30 –MAHAI-INGURUAK
Moderatzailea: Marius Blénet, kazetaria

9:30 –1. mahai-ingurua: “Europako eta mugaz gaindiko lankidetza, Pirinioetako hizkuntzen garapen digitalerako esparru pribilegiatua” (1:30)

  • Charline Claveau, Okzitanieraren Bulego Publikoko lehendakaria.
  • Antton Curutcharry, Euskararen Bulego Publikoko lehendakaria.
  • José Ignacio López Susín, Aragoiko Gobernuko Hizkuntza Politikako zuzendari nagusia

10:45 KAFEA HARTZEKO ATSEDENALDIA

11:00 ENPRESEN ETA ERAKUNDEEN ARTEKO HITZARMENA SINATZEA(25 minutu), bazkideen eta prentsaren aurrean

11:30 2. mahaiingurua: “Pirinioetan mugaz gaindiko hizkuntzaazpiegitura bat eraikitzekoadimen artifizialeko bikaintasunsare bat lortzeko bidean” (1,5 h)

  • Josu Aztiria Urtaran, Elhuyar Fundazioa.
  • Benaset Dazéas, Okzitanieraren Kongresu Iraunkorra.
  • José Ignacio López Susín, Aragoiko Gobernua.
  • Battittu Coyos, Euskaltzaindia.
  • Kepa Sarasola, IXA Euskal Herriko Unibertsitatea.
  • Myriam Bras, CLLEERSS Tolouseko UnibertsitateaJean Jaurés/CNRS.

13:00 BAZKALTZEKO ETENALDIA (1 h).

14:00 OKZITANIERARAKO GARATUTAKO TRESNAK TRANSFERITZEKO TAILERRA (45 min).
Moderatzailea: Benaset Dazéas, Okzitanieraren Kongresu Iraunkorreko zuzendaria.

  • Votz, okzitanieraren ahotssintesia:Michaël Barret (15 min).
  • Okzitanierarako itzultzaile automatikoa:Aure Séguier (15 min).
  • Appak eta zerbitzu berritzaileak:Itziar Cortes Etxabe (15 min).

Ekainaren 18a, Donostia.

  • Tokia: Miramar jauregia
  • Ordutegia: 9:00etatik 15:00etara.
  • Formatua:Workshopa aurrez aurre egingo da, eta ZOOM bidez zuzenean partehartzeko aukera ere izango da.

PROGRAMA

9:30 HASIERA (30 min)

  • Jon Abril Olaetxea, Elhuyarreko koordinatzaile nagusia. POCTEFA LINGUATEC proiektuko taldeburua da Elhuyar.
  • Junkal Gutierrez, EHUkoEuskara, Kultura eta Nazioartekotzearen arloko errektoreordea.
  • Garbiñe Mendizabal, Gipuzkoako Foru Aldundiko Hizkuntza Berdintasuneko zuzendaria.

10:00 Mahaiingurua: “Hizkuntzaazpiegituren beharra mugaz gaindiko lankidetza areagotzeko” (1,5 h) Moderatzailea: Josu Aztiria, Elhuyarreko Adimen Artifiziala eta Hizkuntza Teknologien Unitateko koordinatzailea eta LINGUATEC proiektuaren zuzendaria

  • Mikel Anton, Eusko Jaurlaritzako Europako Gaietarako zuzendaria
  • Pello Pellejero, Nafarroako Gobernuko Europako Ekintzaren, Eskualdeekiko Lankidetzaren eta Kanpoko Herritarren Zerbitzua
  • José Ignacio López Susín, Aragoiko Gobernuko Hizkuntza Politikako zuzendari nagusiaArola Urdangarin, Akitania BerriaEuskadiNafarroa Euroeskualdearen zuzendaria
  • JeanLouis Valls, CTPPOCTEFAko zuzendaria

11:30 KAFEA HARTZEKO ATSEDENALDIA

Prentsa: Mugaz gaindiko hizkuntzaazpiegitura bat eraikitzeko adimen artifizialeko bikaintasunsarearen aurkezpena.

  • Eneko Goia, Donostiako alkatea
  • Partzuergoaren bazkideek sorreramanifestua irakurri eta sinatzea.12:00 Hizkuntzen arteko lankidetza teknologikoaren aukerak eta erronkak(1,5 h)

12:00 European Language initiatives 1(45 min)
Moderatzailea: German Rigau, Hitz Zentroa

  • Georg Rhem, European Language Grid (20 min)
  • Andy Way, European Language Equality (20 min)
  • Galderen txanda (5 min)

12:45 European Language initiatives 2(45 min)
Moderatzailea: Klara Ceberio, Elhuyar

Claudia Soria, The Digital Language Diversity Project (20 min)

Benaset Dazeas, Congrès permanent de la lenga occitana (20 min)

Galderen txanda (5 min)

13:30 ATSEDENALDIA

14:00 LINGUATEC PROIEKTUAREN APLIKAZIOEN ERAKUSTALDITAILERRA (1 h).

  • Itzulpen automatikoa: APPa, tresnabarra, CMS plugina
  • Ahotssintesirako plataformak eta aplikazioak (okzitaniera eta euskara)
  • APP eleaniztun eta irisgarriak
  • Ahotsezagutzea eta azpititulazio automatikoa
]]>
https://www.unibertsitatea.net/blogak/ixa/2021/06/14/biltzar-publikoa-adimen-artifiziala-eta-mugaz-gaindiko-lankidetza-online-2021-06-17-eta-18/feed/ 1
Arantza Diaz de Ilarrazaren hitzaldia eta 5 artikulu IkerGazte kongresuan! https://www.unibertsitatea.net/blogak/ixa/2021/06/09/3000/ https://www.unibertsitatea.net/blogak/ixa/2021/06/09/3000/#respond Wed, 09 Jun 2021 19:36:04 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=3000

 

 

Gasteizen ikerlari gazteak biltzen dituen IkerGazte biltzarrean 5 artikulu aurkeztu dituzte Ixa-kideek. Parte hartze handia da hori.

Gainera Arantza Diaz de Ilarrazarena izan da hitzaldi gonbidatuetako bat:Hizkuntza teknologiaren bilakaera: IXA taldearen esperientzia. Erabili zientzia gure gizartearen alde.
Ixa tadearen 33 urteko jarduera azaldu du Arantzak.

Ikusi artikulu guztiak  informatikako komunikazioen LIBURUAN

  • (68) Erlazio-erauzketa testu klinikoetan hizkuntzaren prozesamenduaren bidez.
    Sergio Santana, Alicia Pérez, Arantza Casillas eta Maite Oronoz
  • (84) Ezeztapena identifikatzeko Murriztapen Gramatikako erregelak sentimenduen analisiaren testuinguruan.
    Jon Alkorta, Koldo Gojenola, X Arregi
  • (112) Unibertsitateko ikasleen laburpen-gaitasunaren azterketa eta testuaren egitura hierarkikoan oinarrituriko atzera elikadura automatikoa.
    Unai Atutxa.
  • (128) Twitterreko Euskal Komunitatearen Eduki Azterketa Pandemia Garaian.
    Joseba Fernandez de Landa, Iker Garcia, Ander Salaberria and Jon Ander Campos
  • (139) Itzulpen Automatikoko Sistemen Analisia: Genero Alborapenaren Kasua.
    Ander Salaberria, Jon Ander Campos, Iker Garcia and Joseba Fernandez de Landa

Informatika Fakultatetik beste bi artikulu ere aurkeztuko dira:

  • (42) Diseinuaren ezagutzaren biltzea software artefaktuetan; Produktu Lerroen Ingeniaritzan oinarritutako proposamena
    Xabier Garmendia, Oscar Díaz, Maider Azanza
  • (155)
    Mikel Iceta Tena, Iñaki Morlán Santacatalina and Jose Antonio Pascual Saiz
]]>
https://www.unibertsitatea.net/blogak/ixa/2021/06/09/3000/feed/ 0
Espainiako Informatika-Ikerketako Sari bana eman diete Eneko Agirre eta Mikel Artetxeri (elkarrizketak eta esker-hitzak, 2021-11-18) https://www.unibertsitatea.net/blogak/ixa/2021/05/21/espainiako-informatika-ikerketa-sari-bi-eneko-agirre-eta-mikel-artetxerentzat/ https://www.unibertsitatea.net/blogak/ixa/2021/05/21/espainiako-informatika-ikerketa-sari-bi-eneko-agirre-eta-mikel-artetxerentzat/#comments Fri, 21 May 2021 17:01:27 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2992
Eneko Agirreri eta Mikel Artetxeri Ixakideei SCIE-FBBVA 2021 ikerketa sari bana emateko ekitaldi ofiziala atzo izan zen Madrilen. Estatu mailan informatikako sari nagusia dena jaso dute. Enekok Aritmel saria jaso zuen eta Mikelek ikertzaile gazteen sarietako bat. Zorionak Eneko eta Mikel!
Ekarri dugu hona ekitaldian aurkeztu ziren bideoak eta eskerrak emateko Enekok eta Mikelek esan zutena (ikusgarriak)
Irudia

Eneko Agirrerentzat izan da Espainiako Informatika-Ikerketa Saria (Aritmel Saria)

Epaimahaiak azaldu du hizkuntzaren prozesamenduaren esparruan egindako ekarpen bikainengatik eman diotela; bereziki, testu-baliabide handien ustiapenean, eta itzulpen automatikoari aplikatutako neurona-konputazioan oinarritutako ikasketa automatiko ez-gainbegiratuan. Aipatu du, gainera, zientzia-argitalpenen kalitate bikainagatik ez ezik (bere argitalpen horietako batzuk erreferentetzat hartzen dira mundu mailan), bere ikerketaren emaitza-transferentzia handiagatik, zientzia-lidergoagatik —Hitz ikerketa-zentro ospetsuaren zuzendaria da— eta nazioarteko ibilbide oso nabarmenagatik, bai prestakuntzan, bai lankidetzetan.

 

Eneko Agirreren esker-hitzak

Antes de todo doy las gracias a la FBBVA, a la SCIE, al jurado y a la Sociedad Española para el Procesamiento del Lenguaje Natural por este reconocimiento.

El lenguaje es la base de la comunicación, desde los sentimientos más íntimos a las ideas más complejas. Es la base del progreso, donde el conocimiento descubierto en cada generación se ha codificado para poder transmitirlo a las generaciones siguientes. Y también fuente de riqueza y diversidad para las culturas del planeta. Cada idioma es un tesoro.

Ha sido además una de las grandes promesas de la Inteligencia Artificial desde sus inicios, incumplidas hasta hace bien poco. En escasos años el aprendizaje profundo ha revolucionado el área, dando lugar a grandes avances en investigación que en pocos meses han pasado a ser productos comerciales, tales como la traducción automática y el reconocimiento de voz.

Entre los descubrimientos inesperados de estos últimos años está el que hizo nuestro grupo, un algoritmo que por primera vez era capaz de traducir entre idiomas sin necesidad de diccionarios bilingües.

Pero la inteligencia artificial aprende de una manera muy distinta a la humana. Las personas aprenden tareas de muy pocos ejemplos y normalmente lo hacen mediante la interacción. Los sistemas artificiales en cambio requieren de grandes y costosas cantidades de ejemplos de entrenamiento. Pero eso también está cambiando con los modelos pre-entrenados.

Por ejemplo, acabamos de crear en nuestro grupo un programa que distingue menciones de eventos (p.ej. brotes epidémicos) aprendiendo de solamente uno o dos
ejemplos por clase. También hemos presentado un premiado algoritmo de pregunta-respuesta capaz de aprender de la mera interacción con usuarios. Todo ello de una forma más cercana a la humana, y abaratando los costes de la IA industrial.

A pesar de estos resultados y los de otros grupos notables en PLN, la mayoría de los avances se dan en otros países y la brecha en atracción de talento se acrecienta, como muestra la baja tasa de publicación en congresos. Esperamos pues con ilusión que la Estrategia Nacional en IA y el Plan Nacional de Tecnologías del Lenguaje den empuje a la investigación y así evitar que seamos meros consumidores de tecnología de terceros. En ello trabajamos en el grupo Ixa desde hace más de 25 años, investigando
de modo cooperativo. Resultado de ello es la creación del centro de investigación HiTZ, Centro Vasco de Tecnología del Lenguaje, el centro de investigación más productivo en procesamiento del lenguaje natural. Es a todos los miembros de Ixa, en especial a sus fundadores, que debo este premio y mi agradecimiento final. Mila esker! Gracias!

Mikele Artetxerentzat izan da Ikertzaile Gazteentzako Informatika Sarietako bat,

Mikele Artetxerentzat izan da Ikertzaile Gazteentzako Informatika Sarietako bat, arloko SCIE elkarte nagusiak ematen duena (Sociedad Científica Informática de España). Epaimahaiak saria eman dio nazioartekoan duen presentzia handiagatik, hizkuntzaren prozesamenduaren arloko enpresa garrantzitsuenetan egindako egonaldiengatik eta ospe handiko biltzarretan egindako ekarpenengatik.[17]

 

Mikel Artetxeren esker-hitzak

“Es un verdadero honor para mí recibir este premio por mi trabajo sobre el procesamiento del lenguaje natural. Me gustaría dar las gracias a todos los que han contribuido a este trabajo. Habría sido imposible sin el apoyo y la contribución de muchos colegas y amigos. Me gustaría agradecer especialmente a mi asesor, Jon Kleinberg, y a mi coautora, Stefanie Jegelka, todo su apoyo.

He tenido la suerte de pasar los dos últimos años en Google trabajando en un proyecto llamado Searchbased Question Answering (SQA). SQA es un proyecto de IA que trata de hacer posible la respuesta a preguntas utilizando la búsqueda de Google.”
Estas palabras que acabo de leer no las he escrito yo. Salvo la primera frase, el texto entero ha sido generado por una inteligencia artificial. En realidad no trabajo en Google sino en Facebook, donde investigo modelos de lenguaje que, entre otras cosas, pueden escribir discursos como ese.

Como habéis podido comprobar, la tecnología actual ya es capaz de generar texto fluido y coherente, dibujando un horizonte verdaderamente prometedor donde podremos interactuar de manera natural con una máquina. Pero todavía queda mucho por hacer, pues estos sistemas tienden a comportarse como bocas sin cerebro, y lo que he leído antes, aunque creíble, nada tiene que ver con la realidad. El reto científico que tenemos adelante es, pues, apasionante, pero también una responsabilidad conjunta. No debemos desconfiar de la inteligencia artificial temiendo que se vuelva demasiado inteligente, pero tampoco confiar en exceso en ella creyendo que es más inteligente de lo que es en realidad.

Para terminar, me gustaría corregir a la inteligencia artificial y dar las gracias a los verdaderos directores de mi tesis, Eneko Agirre y Gorka Labaka, por todo lo que me han enseñado, así como a FBBVA y SCIE por este reconocimiento.
]]>
https://www.unibertsitatea.net/blogak/ixa/2021/05/21/espainiako-informatika-ikerketa-sari-bi-eneko-agirre-eta-mikel-artetxerentzat/feed/ 1
Workshop: Pirinioetako hizkuntzak automatikoki prozesatzeko baliabideak eta tresnak (online, 2021-05-12) https://www.unibertsitatea.net/blogak/ixa/2021/04/30/workshop-pirinioetako-hizkuntzak-automatikoki-prozesatzeko-baliabideak-eta-tresnak-online-2021-05-12/ https://www.unibertsitatea.net/blogak/ixa/2021/04/30/workshop-pirinioetako-hizkuntzak-automatikoki-prozesatzeko-baliabideak-eta-tresnak-online-2021-05-12/#comments Fri, 30 Apr 2021 12:20:46 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2975

INTELE bilkuran erakutsitako posterra (2020, CC-BY-SA)

Okzitanieraren, aragoieraren eta euskararen  digitalizazio-maila hobetzea izan da LINGUATEC proiektu europarraren helburua. Hainbat baliabide, tresna eta aplikazio linguistiko berritzaile garatu ditugu 2018tik hona. Proiektuak hizkuntzen arteko lankidetza teknologikoa ahalbidetu du.

Orain online workshop hau antolatu dugu. 2021eko maiatzaren 12an konpartituko dugu komunitate akademikoarekin.
Online izango da, aurkezpenak ingelesez, gaztelaniaz eta frantsesez, eta aldi bereko itzulpenak ingelesez, gaztelaniaz eta frantsesez.

Interesa duten ikertzaile guztientzat, proiektuaren barruan egindako lana zabaltzeko, baita euskararako eta okzitanierarako egindako aurrerapen batzuk aurkezteko ere.

Workshopa jende guztiarentzat dago irekita, baina erregistratu egin behar da (registration form)

Informazio gehiago: ixa.eus/events/linguatec

 

PROGRAMA

10h – Irekiera

10h15     Hitzaldi gonbidatuak: Katalanaren prozesamendua

    Lluis Padró (Universitat Politècnica de Catalunya)
    Morphological and Syntactic Resources in FreeLing
    Ingelesez – Aldibereko itzulpena espainieraz eta frantsesez

   Mariona Taulé (Universitat de Barcelona)
   AnCora: un corpus anotado a diferentes niveles lingüístico
AnCora hainbat hizkuntza-mailatan etiketatutako corpusa.
    Gaztelaniaz – Aldibereko itzulpena ingelesez eta frantsesez

11h15 — Atsenaldia

11h30 Aurkezpenak: Okzitanierarako eta euskararako corpus anotatuak

   Assaf Urieli, Joliciel
    Talismane, Jochre: automatic syntax analysis and OCR for under-resourced languages
    Ingelesez – Aldibereko itzulpena espainieraz eta frantsesez

   Aleksandra Miletic y Dejan Stosic, CLLE
    Mutualisation des ressources pour la création de treebanks : le cas du serbe et de l’occitan
    Frantsesez – Aldibereko itzulpena espainieraz eta frantsesez

    Ainara Estarrona (IXA, HiTZ, UPV/EHU)
    Construcción del corpus histórico en euskera
    Euskararen corpus historikoa eraikitzea
   Gaztelaniaz – Aldibereko itzulpena ingelesez eta frantsesez

13h — Bazkaltzeko etenaldia

14h30     Hitzaldi gonbidatua: Neurona-sareen erabilera

   Mans Hulden (University of Colorado)
   Neural Networks in Linguistic Research
    Ingelesez – Aldibereko itzulpena espainieraz eta frantsesez

15h30 Aurkezpena: Hizuntzaren prozesamendua

   Rodrigo Agerri (IXA, HITZ, UPV/EHU)
   Contextual lemmatization for inflected languages: statistical and deep-learning approaches
    Ingelesez – Aldibereko itzulpena espainieraz eta frantsesez

16h – Atsedenaldia

16h15 – Aurkezpenak: LINGUATEC proiektuaren emaitzak

    Myriam Bras, Aleksandra Miletic, Marianne Vergez-Couret, Clamença Poujade, Jean Sibille, Louise Esher, CLLE :
    Automatic processing of Occitan: construction of the first annotated corpora.
    Okzitaneraren prozesamendua: lehen corpus etiketatuaren eraikitzea.
    Okzitanierazko bideoa, azpitituluak beste hizkuntzetan.               

    Elhuyar
    Creation and improvement of Basque resources within the framework of Linguatec
    Euskarazko bideoa, azpitituluak beste hizkuntzetan. 

16h45 – Ondorioak
    Espainieraz eta frantsesez, itzulpen zerbitzurik gabe.   

]]>
https://www.unibertsitatea.net/blogak/ixa/2021/04/30/workshop-pirinioetako-hizkuntzak-automatikoki-prozesatzeko-baliabideak-eta-tresnak-online-2021-05-12/feed/ 3
HiTZ zentroa = IXA + Aholab (Aurkezpen ekitaldia, 2020-11-05) https://www.unibertsitatea.net/blogak/ixa/2020/11/06/hitz-zentroa-ixa-aholab-aurkezpen-ekitaldia-2020-11-05/ https://www.unibertsitatea.net/blogak/ixa/2020/11/06/hitz-zentroa-ixa-aholab-aurkezpen-ekitaldia-2020-11-05/#respond Fri, 06 Nov 2020 19:17:34 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2935
Jokin Bildarratz, Hezkuntza sailburua

Atzo HiTZ ikerketa-zentro berria aurkeztu genuen.
Eneko Agirre zuzendariarekin batera egon ziren Nekane Balluerka errektorea, Jokin Bildarratz, Hezkuntza sailburua, Markel Olano Diputatu Nagusia eta Eneko Goia alkatea.

UPV/EHUko IXA eta Aholab ikerketa-taldeen artean sortu dugu HiTZ.
Formakuntzan, ikerketan eta teknologiaren transferentzian egiten duguna batuz ikerketa-zentro berri honek Hizkuntza Teknologian motor eta erreferentzia gisa jokatu nahi du nazioartean.

Eneko Agirre zuzendaria

Guztira 60 kide gara, irakasle, ikertzaile, teknikari eta doktoretza-ikasleak kontuan hartuta.
Diziplinarteko adituen talde zabala biltzen du HiTZek: informatikariak, hizkuntzalariak, ingeniariak, itzultzaileak eta soziologoak, besteak beste. 

IXA Taldean 32 urteko ibilbidea dugu idatzizko edukien tratamenduan,
Aholab t
aldeak 1998tik dihardu ahozko edukien tratamenduan.
2002az geroztik lankidetzan ari gara bi ikerketa-taldeak, eta orain
bat egin dugu HiTZ zentroan.
Mundu mailan ikerketa-gune eta garapen-
gune garrantzitsua gara, adimen artifizialaren inguruko beste eragileekin batera. Egun 36 ikerkuntza-proiektutan dihardugu lanean, horietako seitan Europan eta Estatu Batuetan. Azken urtean 78 zientzi-artikulutan zabaldu dugu lortutako emaitzak.

Formakuntzari dagokionez, Erasmus Mundus nazioarteko masterra eskaintzen dugu, hizkuntzaren teknologien inguruko doktorego-programa, baita “Deep Learning” tekniken inguruko nazioarteko ikastaroa ere. Donostiako Informatika Fakultatean berriki eratu den Adimen Artifizialeko Graduan ere zeregin garrantzitsua dugu.

Ikerketan, hizkuntza-teknologietako punta-puntako hainbat adarretan dihardute lanean: itzulpengintza automatikoa, informazioaren erauzketa, testu masiboen analisia eta gizaki-ordenagailu elkarrizketak, besteak beste. Teknologiaren transferentziaren alorrean, azkenik, enpresei ideia berritzaileen inguruan, bai eta prototipo industrialak sortzen lagundu ere. Joan den urtean enpresekin aholkularitza emateko 34 kontratu izan genituen.

Jendartearentzako ekarpenak egiten ari zaizkio hainbat arlotan. Adibidez, ezgaitasuna duten pertsonak ingurune digitaletik kanpo gelditu ez daitezen, HiTZ zentroko ikerketek ahotsa galdu duten pertsonei ahotsa berriz izatea erraztu diete. Humanitate digitaletan, prentsan eta sare sozialetan gehien aipatzen diren pertsona eta gaien inguruko iritziak aztertzeko softwarea kasu. Estatu Batuetako gobernuak bultzatutako txapelketan COVIDaren inguruko galderak automatikoki erantzuten dituen sistemak saria irabazi du.

Nazioartean adimen artifizialean eta hizkuntzen teknologietan gako diren sare eta partzuergoetako kide dira HiTZeko ikertzaileak, hala nola CLARIN, CLAIRE, BDVA eta DAIRO. Hizkuntzen berdintasun digitalerako agenda estrategikoa idatziko duen European Language Equality (ELE) proiektuko kide nagusietako bat ere bagara.

Ongi etorri, HiTZ!            Urte askotarako!

]]>
https://www.unibertsitatea.net/blogak/ixa/2020/11/06/hitz-zentroa-ixa-aholab-aurkezpen-ekitaldia-2020-11-05/feed/ 0
IXAmBERT: Berri onak baliabide gutxiko hizkuntzentzat! https://www.unibertsitatea.net/blogak/ixa/2020/09/30/ixambert-berri-onak-baliabide-gutxiko-hizkuntzetarako/ https://www.unibertsitatea.net/blogak/ixa/2020/09/30/ixambert-berri-onak-baliabide-gutxiko-hizkuntzetarako/#comments Wed, 30 Sep 2020 10:23:11 +0000 https://www.unibertsitatea.net/blogak/ixa/?p=2887 Berri onak baliabide gutxiko hizkuntzentzat!
Ixa taldean aurre-entrenatutako hizkuntz eredu elebakarra eta eleaniztuna biak ala biak oso erabilgarriak dira euskararen prozesamenduko zereginetan! Euskaraz egindako galderak euskaraz automatikoki erantzuteko sistema batean adibidez.
Nahiz eta ingelesezkoa baino 500 aldiz txikiagoa den corpus batekin eta 80 aldiz txikiagoa den Euskal Wikipediarekin sortu ditugun, gure hizkuntza-eredu berri hauek emaitza onak eman dituzte.


Elkarrizketa eredu bat. Ingelesezko transkripzioarekin.

Hitz-bektoreek (word embedding-ak) eta aurrez entrenatutako hizkuntza-ereduek testuen errepresentazio aberatsak eraikitzeko aukera ematen dute, eta, horri esker, hobekuntzak egin ahal izan dira Hizkuntzaren Prozesamenduko ataza gehienetan. Zoritxarrez, errepresentazio horiek oso garestiak dira entrenatzeko, eta enpresa txiki eta ikerketa-talde askok eurenak eraiki beharrean, Googlek aurrez entrenatutako eta eskura jarritako ereduak baino ez dituzte erabiltzen. Hori ez da biderik onena, hizkuntza askotan ereduak enpresa txikiagoetan (edo kalitate txikiagokoetan) entrenatu baitira. Gainera, ingelesa ez diren hizkuntzetarako beti ez daude erabilgarri aurrez entrenatutako eredu elebakarrak. Kasurik onenean, hizkuntza horietako ereduak bertsio eleaniztunetan sartzen dira, eta hizkuntza bakoitzak gainerako hizkuntzekin partekatzen ditu tamaina eta parametroen zati bat. Hori egia da, bereziki, hizkuntza txikienetarako, hala nola euskararako.

Joan den apirilean Ixa Taldean erakutsi genuen euskarazko corpus handiekin (on-line egunkarietatik arakatuak) trebatutako zenbait eredu elebakarrek (FastText word embeddings, FLAIR eta BERT hizkuntza-ereduak) emaitza askoz hobeak eman zituztela Hizkuntzaren Prozesamenduko zereginetan, publikoki eskuragarri zeuden bertsioek baino. Besteak beste, emaitza hobeak lortu ziren gai-sailkapenean, sentimenduen analisian, baita PoS eta NER etiketatzean ere. Lan hori “Give your Text Representation Models some Love: the Case for Basque” izeneko artikuluan aurkeztu genuen. Hona hemen esperimentu horretan erabilitako Corpusaren osaketa:

Iturria Testu mota Milioi token
Euskal Wikipedia Entziklopedia 35M
Berria egunkaria Albisteak 81M
EiTB Albisteak 28M
Argia aldizkaria Albisteak 16M
Herri aldizkariak Albisteak 224.6M

Kontuan izan ingeleserako BERT hizkuntza-eredu originala Google Books corpus erabiliz entrenatu zela. 155 mila milioi hitz ditu iamerikako ingelesez, eta 34 mila milioi hitz ingeles brikanikoz. Ingelesezko corpusa euskarazkoa baino 500 aldiz handiagoa da.

Agerri
San Vicente
Campos
Barrena
Otegi
Saralegi
Soroa
E. Agirre
Sistema berriarekin egindako elkarrizketa bat

 

 

 

 

 

 


Orain, irailean, IXAmBERT argitaratu dugu, ingeleserako, gaztelaniarako eta euskararako aurrez prestatutako hizkuntza-eredu eleaniztuna. Eta arrakastaz erabili dugu  euskarazko elkarrizketetan galderak erantzuteko sistema batean. Transferentzia-esperimentu horiek Googleren mBERT eredu ofizialarekin egin litezke ere, baina, Googleren ereduan hizkuntza asko direnez, euskara ez dago oso ondo ordezkatuta. Ingelesa, gaztelania eta euskara soilik dituen eredu eleaniztun berri hori sortzeko, apirilean aurkeztutako ereduaren konfigurazio bera erabili dugu. Euskal eredu sortzeko  corpus elabkar bera erabili dugu berriz ere, eta gainera Ingeles Wikipedia eta espainierazkoa gehitu ditugu, hurrenez hurren, 2.5 G eta 650M tokenekin. Wikipedia horien tamainak euskarazkoa baino 80 eta 20 aldiz handiagoa dira.

Berri ona zera da, eredu hori arrakastaz erabili dugula ingelesezko testuetan dagoen  ezagutza euskarara transferitzeko, elkarrizketa bidezko galdera-/erantzun-sistema baten bidez. Artikulu honetan azaldu dugu:  Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque. IXAmBERT izeneko gure hizkuntza-eredu berria erabiliz mBERT  eredu generikoarekin baino hobeto egin zen ingelesaren ezagutza euskarara transferitzea. Galderak euskaraz egin, informazioa ingelesez, espainieraz eta euskarazko wikipedietan bilatu eta erantzuna euskaraz eman. Taula honetan ikus daiteke zenbatekoa da hobekuntza:

Eredua Zero-shot Transfer learning
Baseline 28.7 28.7
mBERT 31.5 37.4
IXAmBERT 38.9 41.2
mBERT + history 33.3 28.7
IXAmBERT + history 40.7 40.0

Taula horretan, Elkarrizketa Bidezko Galderak Erantzuteko  (CQA, Conversational Question Anwering) euskarazko sistema baten emaitzak agertzen dira. Zero-shot-ek esan nahi du eredua fine-tuned dagoela QuaC, CQA datu-multzo ingelesa erabiliz. Transfer Learning konfigurazioan, eredua lehenengo aldiz QuaC-n zehazten da, eta gero euskal CQA datu-multzo batean.

Lan hauek koxka bat gorago ezartzen dute artearen egoera  euskararako zeregin horietan.
Lan honetan erabilitako datuak eta eredu guztiak eskuragarri daude publikoki: https://huggingface.co/ixa-ehu/ixambert-base-cased

 

]]>
https://www.unibertsitatea.net/blogak/ixa/2020/09/30/ixambert-berri-onak-baliabide-gutxiko-hizkuntzetarako/feed/ 1