Eustagger

Descripción breve: 
Euskararako etiketatzaile morfosintaktikoa
Descripción: 

Eustagger analizatzaile morfosintaktiko sendo eta estaldura zabalekoa da. Analizatzailea bi mailatako formalismoan oinarritzen da eta modu inkrementalean diseinatua izan da, hiru modulu nagusirekin: analizatzaile estandarra, aldaera linguistikoen analizatzailea, eta lexiko gabeko analizatzailea, hitz-formak hauteman ditzakeena lexikoan izan gabe. Transduktore lexikoak erabiliz gure analizatzailearen sistemaren osagai ezberdinen errendimendua eta deskripzioa bera hobetu ditugu. Lema posibleak, PoS eta bestelako informazio morfologikoa ere eskaintzen du. Era berean, data/denbora adierazpenak eta zenbakiak ezagutzen ditu. Desanbiguazioan erabili ditugun metodoak, Murriztapen Gramatika (MG) formalismoa eta HMMan oinarritutako analizatzailea dira. MGko erregelak ezaugarri morfologiko guztiak kontuan hartuz sortu dira eta prozesu honek testuen anbiguotasun morfologikoa gutxitzen du. Azkenik, tresna estokastikoa erabiltzen dugu ematen dituen etiketa-aukeretatik bat hautatzeko. Metodo estokastikoa bakarrik erabiliz, errore-tasa % 14 ingurukoa da, baina lexikoa hitz ezezagunekin aberastuz doitasuna % 2 inguru handitu daiteke. Bi metodoak konbinatzen direnean, prozesu osoaren errore-tasa % 3,5 da.

Enlace para acceder online o descargar: 
Persona de contacto: 
Nerea Ezeiza
Email persona de contacto: 
nerea.ezeiza@ehu.eus
Grupo de investigación: 
Euskara
Bajo demanda
Descripción breve (en): 
Morphosyntactic tagger for Basque
Descripción (en): 
Eustagger is a robust and wide-coverage morphological analyser and a Part-of-Speech tagger for Basque. The analyser is based on the two-level formalism and has been designed in an incremental way with three main modules: the standard analyser, the analyser of linguistic variants, and the analyser without lexicon which can recognize word-forms without having their lemmas in the lexicon. Using lexical transducers for our analyser we have improved both the performance of the different components of the system and the description itself. Provides possible lemmas, PoS and other morphological information for a token. It also recognizes date/time expressions, numbers. The methods we have used in disambiguation are Constraint Grammar formalism and an HMM based tagger. CG rules are applied using all the morphological features and this process decreases morphological ambiguity of texts. Finally, we use the stochastic tool to select just one from the possible remaining tags. Using only the stochastic method the error rate is about 14%, but the accuracy may be increased by about 2% enriching the lexicon with the unknown words. When both methods are combined, the error rate of the whole process is 3.5%.
No mostrar: 
Demo: 
Demo

Gramáticas y modelos de lenguaje

Hizkuntza-ezagutzan oinarrituta osatu den Euskarako Dependentzia Gramatika Konputazionala (EDGK) da.

BERT hitzkuntza eredua euskararako

Herramientas y servicios

Euskarazko Adiera-Desanbiguazioa
Hizkuntzaren Prozesamendurako tresna eleanitzak
Euskararen tratamendurako balio duen hizkuntza prozesatzaileen kate modularra
Analizatzaile sintaktiko-estatistikoa

Euskararako etiketatzaile morfosintaktikoa

Euskarazko zuzentzaile ortografiko eta gramatikala
Euskararen sintaxiaren aldaketak aztertzeko aplikazioa
Analizador de categorias