EPEC-RolSem PropBank-VerbNet ereduari jarraiki, predikatu mailan erdiautomatikoki etiketatutako corpusa da. EPEC-RolSem EPEC corpusaren (Euskararen Prozesamendurako Erreferentzia Corpusa) gainean eraiki da, zehazki, dependentziekin etiketatutako corpusaren gainean (EPEC-DEP). EPEC corpusak 300.000 hitz ditu euskara estandarrean idatziak eta hizkuntza naturalaren prozesamenduko hainbat tresna entrenatzeko helburua du. Aurretik, EPEC corpusa morfologikoki eta sintaktikoki etiketatu da (baita semantikoki ere WordNet-eko synsetak erabiliz, baina bakarrik izenen kasuan), azken maila hau dependentzia gramatika erabiliz (Basque Dependency Treebank). Gure helburua, argumentu/adjunktu hautagaiak diren dependentziak oinarri hartuta, EPEC corpusari predikatu mailako informazioa gehitzea izan da. Beraz, EPEC-RolSem semantikoki etiketatutako EPEC corpusaren bertsioa dela esan dezakegu.

    EPEC-DEP corpusean 200.000 hitz etiketatu dira eskuz, 1.211 aditz desberdin daude (30.740 aditz-agerpen guztira). Horietatik 288 (23.000 agerpen inguru) dira EPEC-RolSem corpusean eskuz etiketatu direnak (corpusean 30 agerpen baino gehiago dituzten 155 aditzak barne hartuta). Horrela, corpusaren % 85 eskuz etiketatu da, eta eskuz landu gabe geratu den corpusaren % 15 (923 aditz) automatikoki etiketatu da IXA taldean garatutako SRL sistema erabiliz. Beraz, gaur egun corpus osoa dugu etiketatuta, %85 eskuz, eta gainontzeko %15 automatikoki.