Vaasan yliopiston opinnäytteet

Filosofinen tiedekunta, 2013

Linna, Matti

Quality of Machine Translations by Google Translate, Microsoft Bing Translator and iTranslate4

Ohjaaja/Valvoja (DI):
Sirkku Aaltonen
Tutkinto:
Filosofian maisteri
Pääaine:
Englannin kieli
Tutkielman kieli:
Englanti
Sivumäärä:
73
Tässä tutkimuksessa on tavoitteena vertailla kolmen konekääntimen tekemien käännösten laatua. Mukaan tutkimukseen valittiin konekääntimet Google Translate, Microsoft Bing ja iTranslate4. Tutkimuksen ensisijaisena tarkoituksena on selvittää, mikä valituista järjestelmistä toimii parhaiten käännettäessä suomen kielestä englannin kielelle. Tutkimuksen alussa asetettiin oletushypoteesiksi, että iTranslate4-konekäännin tulisi tekemään muita konekääntimiä vähemmän virheitä, etunaan suomalainen kehitystausta. Tutkimuksen toisena tarkoituksena oli selvittää, mikä tutkimusmateriaalin kolmesta tekstityypistä on haastavin vertailun konekääntimille. Oletuksena oli, että mitä pidempi teksti, sitä suurempi virheprosentti ja täten ajankohtaisten tapahtumien tekstit osoittautuisivat haastavimmiksi, koska ne olivat pisimpiä valituista teksteistä. Englannin kielelle käännettävä suomenkielinen tutkimusmateriaali otettiin Vaasan yliopiston internet-sivuilta, joilta tutkimukseen valittiin sosiologian ja venäjän kielen opintojen esittelytekstit. Materiaalina käytettiin tämän lisäksi kahta uutisartikkelia, jotka valittiin Pohjalaisen ja Uusisuomen internet-sivuilta, sekä kahta ajankohtaisten tapahtumien kuvausta, joista toinen otettiin koripallojoukkue Vaasan Salaman ja toinen harrastuskerho Waasa Snowmobilen internet-sivustoilta. Käännösten laadun arviointi perustuu Maarit Koposen vuonna 2010 laatimaan virheanalyysiin, jossa käännöksistä etsittiin käsitevirheitä, lajitellen virheet neljään eri kategoriaan: poisjätetyt-, lisätyt-, väärin käännetyt-, sekä kääntämättömät käsitevirheet. Tässä vertailussa vähiten kaikkia neljän eri tyypin käsitevirhettä yhteensä tehnyt konekäännin todettiin vertailun parhaaksi konekääntimeksi ja kaikkien virhetyyppien merkitystä pidettiin yhtä suurena. Tutkimustulokset osoittavat, että suomalaisen Sunda Systems Oy:n sääntöihin perustuvaa tekniikkaa (RBMT) käyttävä iTranslate4-konekäännin teki vähemmän virheitä kuin statistiseen (SMT) konekäännökseen perustuva Google Translate, joka puolestaan suoriutui paremmin kuin vertailun viimeiseksi jäänyt statistinen Microsoft Bing Translator -konekäännin. Tekstityypeistä vaikeimmin käännettäviksi osoittautuivat uutisartikkelit, joiden käännökset sisälsivät prosentuaalisesti eniten käsitevirheitä. Pidempien tekstien todettiin yleensä vaikuttavan käännösten laatuun negatiivisesti, vaikkeivät vertailun pisimmät tekstit osoittautuneetkaan aina haastavimmiksi.
Avainsanat:
machine translation, machine translation quality evaluation, error analysis
© Tritonia 2014-2019