Да ли је још неко приметио да Хрвати тролују Гугл преводилац убацивањем кроатизама у српске преводе?

1

Kористим Гугл транслејт скоро па свакодневно, још од 2006. када је био мало јачи хиперлинковани речник који је радио по принципу статистичког машинског превођења – преводио је сваку реч или фразу независно, а синтакса и смислена реченица су за њега биле као да ставиш нацрт хадронског колајдера пред рушљорибу.

Постао је озбиљна помоћ за преводе тек 2016. када је са статистичког машинског превођења прешао на архитектуру неуронских мрежа, што би поједностављено био алгоритам који учи тако што примећује шаблоне из података које му дајеш. Што више података, што више људи га користи за превод, то ће бити бољи. У теорији.

У пракси још увек не ради баш савршено.

На први поглед је онако, мало смешно, види га Гугл транслејт решио да пређе на јекавицу, као ортак који мисли да уме да глуми нагласке. Можда га Босанци превише користе за превод па је покупио босански, ево мени се то догађало када довољно времена проведем са Босанцима, или Црногорцима. Или… Хрватима?

Чек, чек, ајде „сриједа“, може то да прође као босаносрпски. Можда прође и „на вратима“ и „изиђе“ као симпатична локална не баш неписменост али дефинитивно нека говорна слобода. Али „убојица“? Тако не кажу у Приједору, а богоми ни у Подгорици.

Шта се ког врага дешава? Да ли је ово само изоловани случај, буба у програму, дух у машини? Да зовемо мајорку Kусанаги?

У српском нико није био „промакнут“ осим можда Бата Гашић кад је као дао оставку на министарско место па постао директор БИА; ниси баш макнут, а ниси ни промовисан, тј. унапређен, него си ето, „промакнут“. Али у хрватском то значи „Унапређен“, односно „Промотед“ у војно-индустријском жаргону.

Примера имам још, јер ово се догађа бар годину дана, колико сам ја приметио, а убеђен сам да се раније није догађало. Нисам много обраћао пажњу до скора – иако смара на чисто механичком нивоу што може да ти промакне нека хрватска реч, није да ме сад нешто бринуло, будући да бих потписао Декларацију о заједничком језику да ме је ико звао, јер ме нико не може убедити да српски и хрватски (и бошњачки, црногорски и врањански) нису један исти језик, само са донекле другачијим речником – структура, граматика, правила за обликовање речи и огроман број речи су скроз исти, само се понешто другачије изговара или каже.

Да ли је то онда можда и разлог што се ово дешава? Да ли Гуглов преводилац просто третира све као исти језик? Можда да питам експерте? Можда да гуглам?

Пошто ме је гуглање упутило на Гугл преводилац, схватио сам да морам да се обратим директно Гуглу, то јест њиховом тиму за односе са јавношћу, да ми разјасне како је дошло до овога. Да ли је машинска интелигенција толико паметна да стварно жели да нам поручи да не прдимо више о томе да су то различити језици? Или пак неки докони Хрвати тролују Google транслејт и Србе так што под “suggest an edit“ убацују хрватске појмове, ас ти госпе? А чекај, да ли важи и обрнут случај?

Док сам чекао да ми Гугл одговори, убацивао сам текстове на енглеском за превод на Croatian, да видим да ли ћу наћи трага машинском или троловском србовању.

Нула бодова. Нисам нигде успео да нађем неку поткрадену екавицу или историју уместо повијести. Дакле, ствар је искључиво на домаћем терену. Сада ми ова прича већ није дала мира, па сам, док се Гугл не јави, потражио још нечије мишљење о томе како је могло да дође до ове тихе епидемије ускочких упада на нашу језичку територију.

Зато сам контактирао Радомира Басту, стручњака за оптимизацију за претраживаче (SEO) и газду компаније Four Dots. Kапирао сам да то чиме се Радомир бави има неке везе са овиме што мене занима, и испоставило се да сам донекле у праву.

“Ми виђамо у SEO послу да Гугл не прави разлике између српског, хрватског, бошњачког. Нема проблем да пласира хрватске резултате претраге у Босни на пример”, каже ми Радомир. Kада га упитам шта мисли да је конкретан узрок за појављивање хрватских речи, каже ми да мисли да је проблем у малом тржишту и недовољно подстицаја да се алгоритам набуџи да боље ради. “Плус, увек имаш тролове који едитују Гугл Транслејт и упропаштавају преводе намерно”, додаје.

Али, све су то вјештице, то јест претпоставке – езотеријско знање о томе шта се заправо ту догађа је резервисано за велико око Гуглово, које нас гледа иза фајервола. Радомир ми каже да Гугл те ствари баш и не расправља у јавности, али ме упућује на Ђурађа Царановића, бихевијоралног економисту за гласовне технологије, што је можда најјача титула са којом сам се сусрео до сада. Оно чиме се Ђурађ бави има јаче везе са машинским учењем које користи Гуглов преводилац.

“У српском језику, честе су реченице/речи које имају више од једног значења као вишечлане лексичке јединице, сложене лексеме, вишечлани изрази”, објашњава ми Ђурађ преко чета. “Гугл Транслејт има користи од велике количине паралелних података прикупљених са интернета. Неуронски машински превод помаже Гугл Транслејт да узме целу реченицу у обзир и преводи је као једну”, пише ми даље, док ја размишљам како ћу да преведем на српски све што ми је написао.

“Да би се прелиминарно тестирао неуронски машински превод, потребно је саставити корпус вишеслојних израза, који се могу поново користити за процену и прац́ење превода”, објашњава ми даље. То значи да треба озбиљно пописати целокупну лексикографију језика, све могуће речи и њихова значења, посао за два века Вука. Kолико га схватам, ово што имамо улете хрватске навале у наш терен значи да Гуглова неурална мрежа просто нема довољно података који би омогућили да разлучи, овај, разликује нијансе између српског и хрватског. “То јест да су извори информација застарели или погрешни”, поентира Ђурађ.

На то се надовезује Радомир: “Све је то и даље класично машинско учење, које захтева гомилу уноса података како би глупа машина добила довољно ‘меса’ а онда семантички алгоритми треба да сконтају ‘срж’ језика. Можда и имају довољно података, али алгоритам још мора да учи, то је процес”.

Питање је шта Гугл може да уради. “(Гугл преводилац) сада користи дубоке неуронске мреже, које омогућавају компјутеру да разуме ситуације које раније није видео учећи из других извора информација”, каже ми Ђурађ. Ти извори информација могу бити блогови, википедија чланци, било какав текст на датом језику који је индексиран у гуглу, и наравно, преводи из Гугле преводитељске заједнице (Google Translate Community), где свакодневни корисници из целог света преводе реченице свог језика.

Гугл је сав у причи о сталном унапређењу својих услуга, тако да се и алгоритам превода језика константно побољшава, што могу да потврдим из личног искуства. Али, да ли је за то довољно само да га користимо или морамо да се цимамо и да пријављујемо побољшане преводе?

Моји саговорници се слажу да је ово друго важније. “Апсолутно се исплати да корисници пријављују погрешне преводе. Онда бисмо сами оправили алгоритам”, каже ми Радомир, а Ђурађ потврђује: “Гугл је омогућио опцију Фидбек, која сваког корисника ставља у улогу лектора који може да оцени или утиче на преведен текст. И пружање релевантних извора и придруживање у Гугл преводилачку заједницу би утицало на већу прецизност превода.”

Дакле, ако желимо да вратимо стопроцентно српство у Гугл преводиоца, најбоље је да сви који користимо овај алат узмемо да се бринемо о њему, што звучи као прилично социјалистички приступ за једну мултинационалну корпорацију, али таква је природа неуралних мрежа. Негујмо српски језик, на Гуглу.

Јер највероватније је да се Гуглов преводилац још увек не сналази у финесама и нарцизмима малих разлика између наших државотворних народа који, јебига, из његовог угла деле исти језик, иако нам је учинио па нас је раздвојио у падајућем менију. Али, да ли му је баш тешко да савлада све те наше локалне колорите, или га неко активно тролује, е то зна само Гугл.

Макар сам им скренуо пажњу на проблем – и у међувремену су ми одговорили! Од њиховог заступника за јавност сам добио следећу изјаву: „We appreciate such issues being brought to our attention, and are looking into the reason for these mistranslations.“

Ако нисте разумели, ево превода:

Додатак: Гугл ми је послао још један мејл у коме мало детаљније објашњава шта се дешава и потврђује да се ово сигурно није последица нечијег малициозног деловања или троловских измена у преводу. Ево шта је заступник за штампу написао, преведено помоћу Гугла:

Можемо потврдити да ова питања нису резултат злонамјерних уређивања. Преводилац ради по обрасцима учења из више милиона примјерака пријевода који се виде на вебу. Нажалост, неки од постојец́их образаца могу резултирати погрешним резултатима, посебно када су језици у корпусу обуке веома слични, као у овом случају. Непрестано радимо на побољшању квалитета наших превода, а ако људи наиђу на нетачне или неприкладне преводе, они могу пријавити проблем и ми ц́емо их поправити

Михаило Тешић, Вајс

1 КОМЕНТАР

ПОСТАВИ ОДГОВОР

*