
Euskal Herriko Unibertsitateko IXA taldea lankidetzan aritu izan da 2001tik CLA ikergunearekin. Hortik atera da, adibidez, Diccionario Básico Escolar Cubano (DBE) hiztegia (digitala eta paperezkoa). Lankidetza honen barruan mende hasieran sortu zen lehenengo bertsioan hiztegiaren diseinu informatikoa oso aurreratu izan zen: XML lengoaia kodetuta dago), eta hiztegiak editatzeko Ixa taldean garatu zen leXkit izeneko ingurunea erabiltzen zen. Geroago hiztegiaren lau edizio (2005, 2008, 2009, 2013-2015) argitaratu dira Kuban, paperean eta digitalki. Hiztegiaren sortzaileak Eloína Miyares Bermúdez eta Vitelio Ruiz Hernández linguistak ziren. Urteetan zehar zabalkuntza handia izan du hiztegiak Kubako eskoletan. 2023. urtera arte guztira hiztegiaren 300.000tik gora ale salduta zeuden paperean, eta bertsio elektronikoan 1100 CD.
Irakurri gehiago:
Epaimahaiak azaldu du hizkuntzaren prozesamenduaren esparruan egindako ekarpen bikainengatik eman diotela; bereziki, testu-baliabide handien ustiapenean, eta itzulpen automatikoari aplikatutako neurona-konputazioan oinarritutako ikasketa automatiko ez-gainbegiratuan. Aipatu du, gainera, zientzia-argitalpenen kalitate bikainagatik ez ezik (bere argitalpen horietako batzuk erreferentetzat hartzen dira mundu mailan), bere ikerketaren emaitza-transferentzia handiagatik, zientzia-lidergoagatik —Hitz ikerketa-zentro ospetsuaren zuzendaria da— eta nazioarteko ibilbide oso nabarmenagatik, bai prestakuntzan, bai lankidetzetan.
Antes de todo doy las gracias a la FBBVA, a la SCIE, al jurado y a la Sociedad Española para el Procesamiento del Lenguaje Natural por este reconocimiento.
El lenguaje es la base de la comunicación, desde los sentimientos más íntimos a las ideas más complejas. Es la base del progreso, donde el conocimiento descubierto en cada generación se ha codificado para poder transmitirlo a las generaciones siguientes. Y también fuente de riqueza y diversidad para las culturas del planeta. Cada idioma es un tesoro.
Ha sido además una de las grandes promesas de la Inteligencia Artificial desde sus inicios, incumplidas hasta hace bien poco. En escasos años el aprendizaje profundo ha revolucionado el área, dando lugar a grandes avances en investigación que en pocos meses han pasado a ser productos comerciales, tales como la traducción automática y el reconocimiento de voz.
Entre los descubrimientos inesperados de estos últimos años está el que hizo nuestro grupo, un algoritmo que por primera vez era capaz de traducir entre idiomas sin necesidad de diccionarios bilingües.
Pero la inteligencia artificial aprende de una manera muy distinta a la humana. Las personas aprenden tareas de muy pocos ejemplos y normalmente lo hacen mediante la interacción. Los sistemas artificiales en cambio requieren de grandes y costosas cantidades de ejemplos de entrenamiento. Pero eso también está cambiando con los modelos pre-entrenados.
Por ejemplo, acabamos de crear en nuestro grupo un programa que distingue menciones de eventos (p.ej. brotes epidémicos) aprendiendo de solamente uno o dos
ejemplos por clase. También hemos presentado un premiado algoritmo de pregunta-respuesta capaz de aprender de la mera interacción con usuarios. Todo ello de una forma más cercana a la humana, y abaratando los costes de la IA industrial.
A pesar de estos resultados y los de otros grupos notables en PLN, la mayoría de los avances se dan en otros países y la brecha en atracción de talento se acrecienta, como muestra la baja tasa de publicación en congresos. Esperamos pues con ilusión que la Estrategia Nacional en IA y el Plan Nacional de Tecnologías del Lenguaje den empuje a la investigación y así evitar que seamos meros consumidores de tecnología de terceros. En ello trabajamos en el grupo Ixa desde hace más de 25 años, investigando
de modo cooperativo. Resultado de ello es la creación del centro de investigación HiTZ, Centro Vasco de Tecnología del Lenguaje, el centro de investigación más productivo en procesamiento del lenguaje natural. Es a todos los miembros de Ixa, en especial a sus fundadores, que debo este premio y mi agradecimiento final. Mila esker! Gracias!
Mikele Artetxerentzat izan da Ikertzaile Gazteentzako Informatika Sarietako bat, arloko SCIE elkarte nagusiak ematen duena (Sociedad Científica Informática de España). Epaimahaiak saria eman dio nazioartekoan duen presentzia handiagatik, hizkuntzaren prozesamenduaren arloko enpresa garrantzitsuenetan egindako egonaldiengatik eta ospe handiko biltzarretan egindako ekarpenengatik.[17]
Zorionak Mikeli eta zuzendari biei, Eneko Agirre eta Gorka Labaka
Ikerketaren motibazioa, galderak:
Sekuentziatik sekuentziarako eredu neuronalaren etorrerak aurrerapen izugarria ekarri du itzulpen automatikoan. Horrek hobekuntza handia ekarri du itzulpen-sistema estandarretan eta horrela zenbait ingurunetan giza-itzulpenen kalitatearen maila lortu dute lehenengoz. Hala ere, gaur egun dauden sistemek datu asko behar dute (gainbegiratze sakona), corpus paralelo gisa normalean milioika perpaus behar izaten dituzte. Baina harrigarria da, baldintza hori ez du behar gizakiak hizkuntza eskuratzeko. Eta gainera arazo praktiko garrantzitsu bat planteatzen du euskara bezalako baliabide gutxiko hizkuntzekin itzulpenak egiteko.
Tesiaren helburua datu paraleloen mendekotasun hori guztiz ezabatzea da, corpus elebakarra baino beharko ez duten “gainbegiratu gabeko itzulpen automatiko”ko sistemak eratzeko. Horretarako, lehenengo urrats batean bi hizkuntzatarako sortutako hitz-bektoreak (word embedding-ak) lerrokatzen ditu, beren arteko egitura-antzekotasunean oinarrituta. Gero, bigarren urrats batean, lerrokatze horren emaitzak erabiltzen ditu itzulpen-sistema neuronal bat edo itzulpen-sistema estatistiko bat hasieratzeko, azken urratsean back-translationaren bidez hobetzen joango dena.
Tesiaren egindako bide progresiboa eta ekarpenak oso ondo jarraitu daiteke Mikel Artetxek 2016tik argitaratu zituen 9 artikulu hauen zehar:
Joseba Fernandez de Landak gaur Gasteizen bukatu den IkerGazte kongresuko sari berezia jaso du. Udalbiltzak eskaintzen du sari hori, Euskal Herriko garapenerako bereziki garrantzitsua den gaia lantzeagatik. Ingeniaritza eta Arkitektura alorrean egin du artikulu hori Josebak beste hiru Ixakiderekin: Iker García, Ander Salaberria, eta Jon Ander Campos,.
Joseba soziologoa da gizartearen kezkak nondik nora mugitzen diren aztertu nahi du. Bere tesian Twitterreko txioetan erabiltzen diren hitzak aztertzen ditu. urtez urte nola aldatzen diren miatzen du hizkuntza teknologia erabiliz. Ikergazte artikulu irabazle honetan Hizkuntzaren Prozesamenduak eskaintzen dituen teknika ez-gainbegiratuak erabili ditu euskarazko txioetan COVID-19aren pandemiak izan duen eragina aztertzeko.
Irakurri artikulu osoa, Kongresuko artikulu bilduman irakur dezakezu 137. orrialdean. Motibazio moduan hemen dituzu bertako irudi batzuk
ZORIONAK Josebari eta bere zuzendaria den Rodrigo Agerriri!
Baita Iker, Jon Ander eta Ander laguntzaileei
Epaimahaiak azaldu du hizkuntzaren prozesamenduaren esparruan egindako ekarpen bikainengatik eman diotela; bereziki, testu-baliabide handien ustiapenean, eta itzulpen automatikoari aplikatutako neurona-konputazioan oinarritutako ikasketa automatiko ez-gainbegiratuan. Aipatu du, gainera, zientzia-argitalpenen kalitate bikainagatik ez ezik (bere argitalpen horietako batzuk erreferentetzat hartzen dira mundu mailan), bere ikerketaren emaitza-transferentzia handiagatik, zientzia-lidergoagatik —Hitz ikerketa-zentro ospetsuaren zuzendaria da— eta nazioarteko ibilbide oso nabarmenagatik, bai prestakuntzan, bai lankidetzetan.
Antes de todo doy las gracias a la FBBVA, a la SCIE, al jurado y a la Sociedad Española para el Procesamiento del Lenguaje Natural por este reconocimiento.
El lenguaje es la base de la comunicación, desde los sentimientos más íntimos a las ideas más complejas. Es la base del progreso, donde el conocimiento descubierto en cada generación se ha codificado para poder transmitirlo a las generaciones siguientes. Y también fuente de riqueza y diversidad para las culturas del planeta. Cada idioma es un tesoro.
Ha sido además una de las grandes promesas de la Inteligencia Artificial desde sus inicios, incumplidas hasta hace bien poco. En escasos años el aprendizaje profundo ha revolucionado el área, dando lugar a grandes avances en investigación que en pocos meses han pasado a ser productos comerciales, tales como la traducción automática y el reconocimiento de voz.
Entre los descubrimientos inesperados de estos últimos años está el que hizo nuestro grupo, un algoritmo que por primera vez era capaz de traducir entre idiomas sin necesidad de diccionarios bilingües.
Pero la inteligencia artificial aprende de una manera muy distinta a la humana. Las personas aprenden tareas de muy pocos ejemplos y normalmente lo hacen mediante la interacción. Los sistemas artificiales en cambio requieren de grandes y costosas cantidades de ejemplos de entrenamiento. Pero eso también está cambiando con los modelos pre-entrenados.
Por ejemplo, acabamos de crear en nuestro grupo un programa que distingue menciones de eventos (p.ej. brotes epidémicos) aprendiendo de solamente uno o dos
ejemplos por clase. También hemos presentado un premiado algoritmo de pregunta-respuesta capaz de aprender de la mera interacción con usuarios. Todo ello de una forma más cercana a la humana, y abaratando los costes de la IA industrial.
A pesar de estos resultados y los de otros grupos notables en PLN, la mayoría de los avances se dan en otros países y la brecha en atracción de talento se acrecienta, como muestra la baja tasa de publicación en congresos. Esperamos pues con ilusión que la Estrategia Nacional en IA y el Plan Nacional de Tecnologías del Lenguaje den empuje a la investigación y así evitar que seamos meros consumidores de tecnología de terceros. En ello trabajamos en el grupo Ixa desde hace más de 25 años, investigando
de modo cooperativo. Resultado de ello es la creación del centro de investigación HiTZ, Centro Vasco de Tecnología del Lenguaje, el centro de investigación más productivo en procesamiento del lenguaje natural. Es a todos los miembros de Ixa, en especial a sus fundadores, que debo este premio y mi agradecimiento final. Mila esker! Gracias!
Mikele Artetxerentzat izan da Ikertzaile Gazteentzako Informatika Sarietako bat, arloko SCIE elkarte nagusiak ematen duena (Sociedad Científica Informática de España). Epaimahaiak saria eman dio nazioartekoan duen presentzia handiagatik, hizkuntzaren prozesamenduaren arloko enpresa garrantzitsuenetan egindako egonaldiengatik eta ospe handiko biltzarretan egindako ekarpenengatik.[17]
Euskal Herriko Unibertsitateko iXa taldeko kide maiteok:
Santiagoko Linguistika Aplikatuko Zentroak, bere 50. urteurreneko ospakizunen testuinguruan, eskerrak eman nahi dizkie bere zeregin zientifikoa garatzen luzaroan lagundu duten erakundeei eta pertsonei.
Zuek omendatutako kide eta erakunde horien artean zaudete, eta atsegin handiz bidaltzen dizuegu zuen diplomaren irudia. Espero dugu 2023ko urtarrilean ematea.
ESKERRIK ASKO IXAKO LAGUNEI !!!!!
Nire lankideen izenean, jaso ezazue besarkada handi bat.
Leonel Ruiz Miyares
Queridos miembros del Grupo iXa de la Universidad del Pais Vasco:
El Centro de Linguistica Aplicada de Santiago de Cuba en el contexto de las celebraciones por su cincuentenario desea agradecer a instituciones y a personalidades que han contribuido durante largo tiempo al desarrollo de su quehacer científico.
Ustedes estan entre esos colegas e instituciones homenajeados y les anexamos con mucho gusto una fotocopia de su diploma que esperamos entregarselo personalmente en enero del 2023.
MUCHAS GRACIAS AMIGOS de IXA!!!!!
En nombre de mis colegas, reciban un fuerte abrazo,
Dr. Leonel Ruiz Miyares
Director Centro de Linguistica Aplicada (CLA)
Ministerio de Ciencia, Tecnología y Medio Ambiente
http://www.cla.cu/clanuevo/es/ – Sitio web del CLA
http://www.cla.cu/simposio/index.php – Sitio web Simposios
http://ixa2.si.ehu.es/dbe/index.html – Diccionario Basico Escolar
Estamos muy agradecidos por este reconocimiento, que significa mucho para Ixa.
La relación que mantenemos con el centro de Lingüística Aplicada de Santiago de Cuba es muy enriquecedora para nuestro grupo, porque nos brinda la oportunidad de conocer, contrastar y compartir desarrollos y avances en entornos que no son hegemónicos y dominantes en nuestra área. En el mundo, también en la Lingüística Aplicada y en las Tecnologías del Lenguaje, hay mucho más que el inglés y los países ricos.
Gure esker ona adierazi nahi dizuegu, Leonel, asko esan nahi baitu eskutitz horrek Ixa taldearentzat.
Santiago de Cubako Hizkuntzalaritza Aplikatuko zentroarekin dugun harremana oso aberasgarria da gure taldearentzat, aukera ematen baitigu gure arloan hegemonikoak eta menderatzaileak ez diren inguruneetako garapenak eta aurrerapenak ezagutu, kontrastatu eta partekatzeko. Munduan, Hizkuntzalaritza Aplikatuan eta Hizkuntzaren Teknologietan ere, ingelesa eta herrialde aberatsak baino askoz gehiago daude.
Eskerrik asko, eta besarkada bero bat.
Xabier Arregi (Ixa Taldeko koordinatzailea)
Irakurri gehiago:
2010: XML teknologiaren erabilera hiztegigintzan: Diccionario Básico Escolar
2011: Santiago de Cubako Centro de Lingüística Aplicada-k 40 urte
]]>
Rodrigo Agerrirekin batera German Rigau, Ander Barrena eta Jon Ander Campos ere aritu dira talde-lanean.
Zorionak Rodrigori eta lan-talde osoari!
Hizkuntza Teknologia garatzeko PlanTL planaren esparruan, gaztelaniaren akademiak (RAE) eta Ekonomia Ministerioko Sustapen Digitaleko Estatu Idazkaritzak (SEAD) akordio bat sinatu zuten gaztelaniazko albisteekin corpus linguistiko idatzi bat garatzeko, espainieraren hizkuntza-baliabideen azpiegitura handitzeko. Corpus horren izena CAPITEL da (Corpus del Plan de Impulso a las Tecnologías del Lenguaje, Hizkuntzaren Teknologiak Sustatzeko Planaren Corpusa), eta hainbat komunikabide-hornitzailerekin egindako hitzarmenei esker, gaur egungo albisteak dituzten hainbat artikuluk osatzen dute. CAPITELek hiru etiketatze maila ditu: morfosintaktikoa (lema eta dependentzia unibertsalen moduko ezaugarriekin), sintaktikoa (Universal Dependencies v2 jarraituta) eta entitate izendunena.
CAPITEL corpusaren azpimultzo baten etiketatze linguistikoa egin da, etiketatze-automatikoa geroago eskuz zuzenduta. Eskuzko berrikuspena hizkuntzalari graduatuek egin dute, CAPITEL corpuserako berariaz sortutako Etiketatzeko Jarraibideak erabiliz. Izendatutako entitateen corpus zuzenduak milioi bat hitz inguru hartzen ditu, eta etiketatze sintaktikoarenak 250.000 gutxi gorabehera.
Corpusaren tamaina eta etiketatzeen izaera direla eta, CAPITEL@IberLEF2020 aterkiaren barruan IberLEF lehiaketan bi azpiataza proposatu zituzten:
Beren helburu nagusia erlazio-erauzketako azpiatazan parte hartzea bazen ere, beste bietan ere (entitate-ezagutzan eta domeinu-aldaketan) sistematxo bat aurkeztu zuten, eta laugarren geratu dira sailkapen orokorrean.
ZORIONAK Oscar Sainz, Edgar Andrés, Oier lopez de Lacalleri eta Aitziber Atutxari!
Lan bikaina egin dute!
Emaitzak hemen ikusgai:
https://knowledge-learning.github.io/ehealthkd-2020/results
]]>
CORD-19 delako txapelketa (COVID-19 Open Research Dataset Challenge) hainbat erakundek antolatu dute, tartean dira Allen Institute for AI, Chan Zuckerberg Initiative, Georgetown University, Microsoft Research, National Institutes of Health eta Etxe Zuriko Office of Science and Technology Policy. Antolatzaileek COVID-19, SARS-CoV-2 eta beste koronabirus batzuei buruzko 50.000 artikulu zientifikotik gora jarri dituzte eskuragarri munduko ikerketa-komunitatearentzat. Horrekin batera, adimen artifizialeko ikertzaileei ekintzarako deia egin zien hizkuntzaren prozesamenduan berriki egin diren aurrerapenak aplika zitzaten, COVID-19 gaixotasunaren aurkako borrokan ari diren zientzialariei laguntzeko literatura zientifiko horretan lagungarri zaien informazioa ahalik eta errazen bilatzen.
Txapelketaren lehen fasean 10 sari banatu dituzte, eta horietako bat irabazi du HiTZ zentroko Ixa taldean garatutako sistemak. Sistemaren garapenean Euskal Herriko Unibertsitateko Arantxa Otegi eta Jon Ander Campos ikertzaileek eta Eneko Agirre eta Aitor Soroa irakasleek hartu dute parte.
Hauek garatutako sistemak COVID-19 gaixotasuna eta SARS-CoV-2 birusaren inguruan adituek dituzten lehentasunezko galderen erantzunak bilatzen ditu aipatutako artikulu zientifiko horiek aztertuz. Sistema hau erabilgarria da, besteak beste, koronabirusaren historiaren, birusaren kutsatze eta diagnostikoaren, gizakien eta animalien arteko ukipenean hartu beharreko prebentzio-neurrien eta aurretik egindako azterketa epidemiologikoetako ikasbideen inguruko galderen erantzunak aurkitzeko. Sistemaren emaitza Estatu Batuetako NIH delakoaren aditu talde batek epaitu du, eta “What do we know about diagnostics and surveillance?” (Zer dakigu diagnostiko eta zaintzari buruz?) gaiaren inguruko galdera-sortari hoberen erantzun dion sistema bezala aukeratu dute. Sistemak emandako erantzunak hemen ikusi daitezke.
]]>Eneko Agirrek aurten (martxoan) berriro lortu du Google-ren sari bat. Google Faculty Research Award saria hirutan lortu duen ikertzaile bakanetakoa da bera. Sariko 62.000 dolarrek ‘Conversational Question Answering agents that learn after deployment’ izeneko proiektua finantzatuko dute, erabiltzaileekin elkarrizketa-sistemak garatzeko.
Chatbot-ak eta adimen artifiziala.
HiTZ ikerketa-zentro sortu berriko zuzendaria da Eneko, Ixakidea eta Informatika Fakultateko irakaslea. Proiektu irabazkean badira beste 6 ixakide hauek: Aitor Soroa eta Gorka Azkune irakasleak, Arantxa Otegi ikertzailea, Jon Ander Campos doktoretza ikaslea, Aitor Agirre Hizkuntza Prozesamenduan Masterreko masterreko ikaslea eta Eduardo Vallejo Informatikako graduko ikaslea.
Proiektua batez ere ingelesezko elkarrizketetan zentratzen bada ere (sukaldaritzari eta elikadurari buruzko galderak), euskarazko elkarrizketekin ere lan egin dute. Horretarako iaz Ixa taldeak euskarazko elkarrizketak biltzeko boluntarioak erakartzeko kanpaina jarri zuen martxan. Kanpainak oso harrera ona izan zuen, eta pertsonei buruzko euskarazko elkarrizketak jaso ziren, Wikipedian dagoen informazioan oinarrituta (2.irudian adibide bat ikus daiteke). Norbaitek kanpainarekin bat egin nahi badu, nahikoa da http://ixa.eus/lagundu helbidera sartu eta izena ematea.