publications

JOURNAL PAPERS

Olia Toporkov and Rodrigo Agerri (2024). On the Role of Morphological Information for Contextual Lemmatization. Computational Linguistics, 2024, MIT Press.

Suna Şeyma Uçar, Itziar Aldabe, Nora Aranberri, Ana Arruarte (2024). Exploring Automatic Readability Assessment for Science Documents within a Multilingual Educational Context. International Journal of Artificial Intelligence in Education, 1-43.

Iratxe Pinedo, Mikel Larrañaga, Ana Arruarte (2024). ArZiGo: A recommendation system for scientific articles. Information Systems (122), 102367.

Stefano Masneri, Ana Domínguez, Guillermo Pacho, Mikel Zorrilla, Mikel Larrañaga, Ana Arruarte (2024). A collaborative AR application for education: from architecture design to user evaluation. Virtual Reality 28(42).

José Alfredo Díaz-León, Olatz Arbelaitz, Ana Arruarte (2024). Introduction to informatics in a Peruvian penitentiary using cs unplugged: from university to penitentiary. Education and Information Technologies (29), pp. 971-989.

Gorka Azkune, Ander Salaberria, Eneko Agirre (2024). Grounding spatial relations in text-only language models. Neural Networks, Volume 170, pp. 215-226.

Rodrigo Agerri and Eneko Agirre (2023). Lessons learned from the evaluation of Spanish Language Models. Procesamiento del Lenguaje Natural (70), pp 157-170. https://doi.org/10.26342/2023-70-13

Nayla Escribano, German Rigau, Rodrigo Agerri (2023). A modular approach for multilingual timex detection and normalization using deep learning and grammar-based methods. Knowledge-Based Systems 273. https://doi.org/10.1016/j.knosys.2023.110612

Begoña Altuna, Rodrigo Agerri, Lidia Salas-Espejo, José Javier Saiz, Alberto Lavelli, Bernardo Magnini, Manuela Speranza, Roberto Zanoli, Goutham Karunakaran (2023). Overview of TESTLINK at IberLEF 2023: Linking Results to Clinical Laboratory Tests and Measurements. Procesamiento del Lenguaje Natural (71), pp 313-320.

Pérez N., Cuadros M. and Rigau G. Negation and speculation processing: A study on cue-scope labeling and assertion classification in Spanish clinical text, Artificial Intelligence in Medicine, Volume 145, ISSN 0933-3657. 2023.

Luis Chamba-Eras, Ana Arruarte, Jon A. Elorriaga (2023). T-VLC: A Trust Model for Virtual Learning Communities. IEEE Transactions on Learning Technologies 16(5), pp. 847-860.

Ander Salaberria, Gorka Azkune, Oier Lopez de Lacalle, Aitor Soroa, Eneko Agirre (2023). Image captioning for effective use of language models in knowledge-based visual question answering. Expert Systems with Applications, Volume 212, ISSN 0957-4174.

Itziar Gonzalez-Dios, Begoña Altuna (2022). Natural Language Processing and Language Technologies for the Basque Language. In Cuadernos Europeos de Deusto. NÚMERO ESPECIAL. Linguas minoritarias y el futuro de Europa. Minority Languages and the Future of Europe 26, 203-230.

CONGRESS PAPERS

Oscar Sainz, Iker García-Ferrero, Rodrigo Agerri, Oier Lopez de Lacalle, German Rigau, Eneko Agirre, 2024. GoLLIE: Annotation Guidelines improve Zero-Shot Information-Extraction (2024). In the Twelfth International Conference on Learning Representations (ICLR 2024).

Julen Etxaniz, Gorka Azkune, Aitor Soroa, Oier Lopez de Lacalle and Mikel Artetxe. 2024. Do Multilingual Language Models Think Better in English? Proceedings of the 2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2024).

Maxime Masson, Christian Sallaberry, Marie-Noelle Bessagnet, Annig Le Parc Lacayrelle, Philippe Roose and Rodrigo Agerri (2024). TextBI: An Interactive Dashboard for Visualizing Multidimensional NLP Annotations in Social Media Data. In Proceedings of the Conference of the European Chapter of the Association for Computational Linguistics (EACL 2024).

Mikel Zubillaga, Oscar Sainz, Ainara Estarrona, Oier Lopez de Lacalle, Eneko Agirre (2024). Event Extraction in Basque: Typologically motivated Cross-Lingual Transfer-Learning Analysis. In Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024).

Olia Toporkov and Rodrigo Agerri (2024). Evaluating Shortest Edit Script Methods for Contextual Lemmatization. In Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024).

Jaione Bengoetxea, Yi-Ling Chung, Marco Guerini and Rodrigo Agerri (2024). Basque and Spanish Counter Narrative Generation: Data Creation and Evaluation. In Joint International Conference on Computational Linguistics, Language Resources and Evaluation(LREC-COLING 2024).

Iker García-Ferrero, Rodrigo Agerri, Aitziber Atutxa Salazar, Elena Cabrio, Iker de la Iglesia, Alberto Lavelli, Bernardo Magnini, Benjamin Molinet, Johana Ramirez-Romero, German Rigau, Jose Maria Villa-Gonzalez, Serena Villata and Andrea Zaninello (2024). Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain. In Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024).

Iker García-Ferrero, Rodrigo Agerri, German Rigau (2023). T-Projection: High Quality Annotation Projection for Sequence Labeling Tasks. Findings of the Association for Computational Linguistics: EMNLP 2023.

García-Ferrero I., Altuna B., Álvez J., González-Dios I. and Rigau G. This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models. Empirical Methods for Natural Language Processing (EMNLP 2023). Singapur. 2023.

Gorka Urbizu, Iñaki San Vicente, Xabier Saralegi, Rodrigo Agerri, Aitor Soroa (2023). Scaling Laws for BERT in Low-Resource Settings. Findings of the Association for Computational Linguistics: ACL 2023.

Aner Egaña, Itziar Aldabe, Oier Lopez de Lacalle (2023). Exploration of Annotation Strategies for Automatic Short Answer Grading. The 24th International Conference on Artificial Intelligence in Education, AIED 2023.

Elisa Sanchez-Bayona and Rodrigo Agerri (2022). Leveraging a New Spanish Corpus for Multilingual and Crosslingual Metaphor Detection. In CoNLL 2022.

Iker García-Ferrero, Rodrigo Agerri and German Rigau (2022). Model and Data Transfer for Cross-Lingual Sequence Labelling in Zero-Resource Settings. Findings of the Association for Computational Linguistics: EMNLP 2022.

Mikel Artetxe, Itziar Aldabe, Rodrigo Agerri, Olatz Perez-de-Viñaspre, Aitor Soroa (2022). Does Corpus Quality Really Matter for Low-Resource Languages? In EMNLP 2022.

Hugo Laurençon, Lucile Saulnier, (...) Itziar Gonzalez-Dios, Aitor Soroa (...) & Jernite, Y. (2022). The bigscience roots corpus: A 1.6 tb composite multilingual dataset. Advances in Neural Information Processing Systems, 35, 31809-31826.

Oscar Sainz, Itziar Gonzalez-Dios, Oier Lopez de Lacalle, Bonan Min, Eneko Agirre (2022). Textual Entailment for Event Argument Extraction: Zero- and Few-Shot with Multi-Source Learning In Findings of the Association for Computational Linguistics: NAACL 2022, Seattle, Washington. Association for Computational Linguistics.