Master Tesia

Title:

Distributional Semantics and Machine Learning for Statistical Machine Translation

Author:

Mikel Artetxe

Laburpena:

LaburpenaLan honetan semantika distribuzionalaren eta ikasketa automatikoaren erabilera aztertzendugu itzulpen automatiko estatistikoa hobetzeko. Bide horretan, erregresio logistikoanoinarritutako ikasketa automatikoko eredu bat proposatzen dugu hitz-segiden itzulpen-probabilitatea modu dinamikoan modelatzeko. Proposatutako eredua itzulpen automatikoestatistikoko ohiko itzulpen-probabilitateen orokortze bat dela frogatzen dugu, eta testuinguruko nahiz semantika distribuzionaleko informazioa barneratzeko baliatu ezaugarrilexiko, hitz-cluster eta hitzen errepresentazio bektorialen bidez. Horretaz gain, semantikadistribuzionaleko ezagutza itzulpen automatiko estatistikoan txertatzeko beste hurbilpenbat lantzen dugu: hitzen errepresentazio bektorial elebidunak erabiltzea hitz-segidenitzulpenen antzekotasuna modelatzeko. Gure esperimentuek proposatutako ereduen baliagarritasuna erakusten dute, emaitza itxaropentsuak eskuratuz oinarrizko sistema sendobaten gainean. Era berean, gure lanak ekarpen garrantzitsuak egiten ditu errepresentaziobektorialen mapaketa elebidunei eta hitzen errepresentazio bektorialetan oinarritutakohitz-segiden antzekotasun neurriei dagokienean, itzulpen automatikoaz haratago baliopropio bat dutenak semantika distribuzionalaren arloan.AbstractIn this work, we explore the use of distributional semantics and machine learning toimprove statistical machine translation. For that purpose, we propose the use of a logisticregression based machine learning model for dynamic phrase translation probability modeling. We prove that the proposed model can be seen as a generalization of the standardtranslation probabilities used in statistical machine translation, and use it to incorporatecontext and distributional semantic information through lexical, word cluster and wordembedding features. Apart from that, we explore the use of word embeddings for phrasetranslation probability scoring as an alternative approach to incorporate distributionalsemantic knowledge into statistical machine translation. Our experiments show theeffectiveness of the proposed models, achieving promising results over a strong baseline.At the same time, our work makes important contributions in relation to bilingual wordembedding mappings and word embedding based phrase similarity measures, which go beyond machine translation and have an intrinsic value in the field of distributional semantics.Bideoa: http://ehutb.ehu.es/es/video/index/uuid/578f35dd46cc0.html

Bideoa url:

http://ehutb.ehu.es/es/video/index/uuid/578f35dd46cc0.html

File:

MikelArtetxe.pdf

Tutor:

Eneko Agirre eta Gorka Labaka

Urtea:

2016

bilatzailea

You are here

Languages

Master Tesia