06 70 33 24 905
Hírek
Gépi fordítású szemét az internet nagy része
2024.01.23

 

[Forrás: Gróf József / Midjourney]
Kutatók arra figyelmeztetnek, hogy az interneten megtekintett szövegek nagy részét – általában az MI használatával – rosszul fordították le egy vagy több nyelvre. Az internet „sokkoló” része gépi fordítású szemét, különösen az Afrikában és a globális délen beszélt nyelveken, állapította meg egy új tanulmány.

Az Amazon Web Services (AWS) MI-laboratóriumának kutatói megállapították, hogy a világhálón található mondatok több mint felét két vagy több nyelvre fordították le, gyakran egyre rosszabb minőségben a rossz gépi fordítás (MT – machine translation) miatt, ami szerintük komoly aggodalmakat vet fel a nagy nyelvi modellek képzésével kapcsolatban.

Mint minden gépi tanulási erőfeszítésre, a gépi fordításra is hatással van az emberi elfogultság, ami a nyugati világban beszélt nyelvek felé tolódik. Emiatt a fordítások minősége nagyon eltérő, és az olyan „alacsony erőforrású” nyelvek, mint például az afrikai, nem rendelkeznek elegendő gyakorlóadattal a pontos szöveg előállításához.

„Valójában azért kezdtünk el érdeklődni a téma iránt, mert több, MT-vel foglalkozó kollégánk, akik alacsony erőforrású nyelvek anyanyelvi beszélői, észrevették, hogy az anyanyelvükön az internet nagy része MT-vel generáltnak tűnik. A felismerés tehát valóban az alacsony forrású nyelvek beszélőitől származott, és azért végeztük el a tanulmányt, hogy jobban megértsük a problémát, és lássuk, mennyire elterjedt. Ezzel együtt mindenkinek tisztában kell lennie azzal, hogy a weben megtekintett tartalmakat akár egy gép is generálhatta”,

mondta Mehak Dhaliwal, az AWS korábbi alkalmazott tudományos gyakornoka, aki jelenleg a Santa Barbara-i Kaliforniai Egyetem PhD-hallgatója.

A tanulmány, amelyet múlt csütörtökön nyújtottak be, 6,38 milliárd, a világhálóról lekapart mondatból álló korpuszt generált. A vizsgálat a többirányú párhuzamosság mintáit vizsgálta, amely olyan mondatok halmazát írja le, amelyek három vagy több nyelven egymás közvetlen fordításai. Megállapította, hogy az internet nagy részét lefordítják, mivel a korpuszban szereplő mondatok 57,1 százaléka legalább három nyelven többirányú párhuzamosságot mutat.

„Általánosságban azt figyeltük meg, hogy a legtöbb nyelv esetében a legmagasabb forrású nyelveknél általában párhuzamos adatokkal rendelkezünk. A mondatoknak nagyobb valószínűséggel van fordításuk franciául, mint egy alacsony erőforrású nyelven, egyszerűen azért, mert sokkal több adat van franciául, mint egy alacsony erőforrású nyelven.”

A magas erőforrású nyelvek, mint például az angol vagy a francia, átlagosan 4-es párhuzamossággal rendelkeztek, ami azt jelenti, hogy a mondatoknak három másik nyelven is volt fordítási megfelelőjük. Az alacsony forrású nyelvek, például az afrikai volof vagy xhosza nyelvek átlagos párhuzamossága 8,6 volt. Ezenkívül az alacsonyabb forrású nyelvek általában sokkal rosszabb fordításokkal rendelkeztek.

„Úgy találjuk, hogy a nagymértékben többirányú párhuzamos fordítások lényegesen rosszabb minőségűek, mint a kétirányú párhuzamos fordítások. Minél több nyelvre fordítottak le egy mondatot, annál rosszabb minőségűek a fordítások, ami a gépi fordítás nagyobb elterjedtségére utal.”,

állítják a kutatók a tanulmányban.

Az erősen többirányú párhuzamos nyelvek esetében a tanulmány a rövidebb, 5-10 szó közötti, „kiszámíthatóbb” mondatok felé való szelekciós torzítást is megállapította. Mivel a mondatok rövidek voltak, a kutatók nehezen tudták jellemezni a minőségüket. Ugyanakkor a mondatok keresése a világhálón tanulságos volt – áll a tanulmányban. A túlnyomó többség olyan cikkekből származott, amelyeket alacsony színvonalúnak minősítettünk, amelyek megalkotásához kevés szakértelmet vagy előzetes erőfeszítést igényeltek, olyan témákban, mint például, hogy komolyabban vegyenek a munkahelyen, hogy legyünk óvatosak a választásainkkal, hat tipp új hajótulajdonosoknak, döntés a boldogságról stb.

A kutatók azzal érveltek, hogy az alacsony minőségű cikkek rövid mondatai felé irányuló szelekciós torzítás annak köszönhető, hogy az alacsony minőségű (valószínűleg reklámbevételek generálása céljából előállított) tartalmakat MT-vel tömegesen fordítják le számos alacsonyabb erőforrású nyelvre (szintén valószínűleg reklámbevételek generálása céljából). Ez azt is sugallja, hogy az ilyen adatok angolból származnak, és más nyelvekre fordítják le őket.

Ez azt jelenti, hogy az internet nagy része az alacsonyabb erőforrású nyelveken rosszul gépi fordítású, ami kérdéseket vet fel a nagy nyelvi modellek fejlesztésével kapcsolatban ezeken a nyelveken, mondták a kutatók.

„A modern mesterséges intelligenciát hatalmas mennyiségű, jellemzően több száz milliárd token és néhány trillió token közötti képzési adat teszi lehetővé. Az ilyen léptékű képzés csak webről származó adatokkal lehetséges. Eredményeink számos aggályt vetnek fel a többnyelvű modellek készítői számára: a folyékonyság (különösen a mondatok között) és a pontosság alacsonyabb az MT-adatok esetében, ami kevésbé folyékony, több hallucinációt tartalmazó modelleket eredményezhet, és a szelekciós torzítás azt jelzi, hogy az adatok rosszabb minőségűek lehetnek, még az MT-hibák figyelembevétele előtt is.”,

áll a tanulmányban.

 Forrás: https://itbusiness.hu/

Nyelveink:

magyar, angol, német, orosz, francia, portugál, spanyol, svéd, olasz, cseh, holland, román, szerb, bolgár, horvát, szlovák, lengyel, szlovén, arab, hébertörök, albán, ukrán, görög, bosnyák, dán, finn, litván, lett, észt, örmény, flamand, belorusz, máltai, ír, japán, thai, kínai, koreai, vietnámi nyelvek fordítása

1x1 Fordítóiroda 
www.1x1forditoiroda.hu

1DayTranslation  
www.1DayTranslation.com

Telefon: 06 70 33 24 905

Email: info@1x1forditoiroda.hu

Skype: onebyonetranslation

Minden jog fenntartva © 1x1 Fordítóiroda
Weboldalt készítette: