BERTeus

Descripción breve: 
BERT hitzkuntza eredua euskararako
Descripción: 

BERT (Devlin et al., 2019) hizkuntza eredua entrenatu dugu euskararako BMC corpusa (Basque Media Corpus) erabiliz. Entrenamendurako corpusak 224,6 milioi token ditu, eta horietatik 35 milioi Wikipediatik jaso dira.

Enlace para acceder online o descargar: 
Persona de contacto: 
Ander Barrena
Email persona de contacto: 
ander.barrena@ehu.eus
Grupo de investigación: 
Euskara
Descarga
Descripción breve (en): 
BERT language model for Basque
Descripción (en): 
We have trained a BERT (Devlin et al., 2019) model for Basque Language using the BMC corpus (Basque Media Corpus). The training corpus contains 224.6 million tokens, of which 35 million come from the Wikipedia.

Gramáticas y modelos de lenguaje

Hizkuntza-ezagutzan oinarrituta osatu den Euskarako Dependentzia Gramatika Konputazionala (EDGK) da.

BERT hitzkuntza eredua euskararako

Herramientas y servicios

Euskarazko Adiera-Desanbiguazioa
Hizkuntzaren Prozesamendurako tresna eleanitzak
Euskararen tratamendurako balio duen hizkuntza prozesatzaileen kate modularra
Analizatzaile sintaktiko-estatistikoa

Euskararako etiketatzaile morfosintaktikoa

Euskarazko zuzentzaile ortografiko eta gramatikala
Euskararen sintaxiaren aldaketak aztertzeko aplikazioa
Analizador de categorias