June 23rd, 2017

manx

Google Translate

Один ученый как-то сказал, что современные люди, пользующиеся современной же техникой, похожи на корову: та тоже не разбирается в ботанике, хоть траву и жует.

Сейчас мало кто знает, как работает телевизор, или компьютер, или мобильный телефон. В общем, представление об этих вещах обычно не выходит за идею маленьких человечков, сидящих внутри.

Примерно такое же понимание вызывают и компьютерные программы. Оно бы и ничего - в конце концов, они и пишутся так, чтобы ими было удобно пользоваться несведующему человеку, но вот когда этими программами начинают злоупотреблять...

Например, не раз я читал полемику, желающую показать превосходство русского языка над языком Х: в Google Translate вводится нечто, потом смотрят перевод и осмеивают убогость языка Х, где Х - обычно или украинский, или английский. Именно они обычно зудят у российского патриота. Впрочем, не исключено, что патриоты других языков пробавляются тем же.

Как технарю мне больно смотреть на эту деградацию мышления. Поэтому я напишу небольшой ликбез.

Машинный перевод - занятие древнее, ему уже не меньше семидесяти лет. Он должен был стать одной из первых функций "электронных мозгов". Немало было обещаний на эту тему, угрохали туда миллионы, в процессе узнали много нового о языке, только никакого перевода так и не получилось.

То ли задача оказалась намного сложней, чем казалось, то ли подход к ней выбрали неправильный, хотя он казался естественным: сделать большой словарь, в котором сопоставить слова одного языка словам другого; разобрать предложение грамматически и получить в результате его "смысл", потом этот смысл оформить по правилам другого языка и подставить нужные слова.

Это не работает.

Как выяснилось, естественные языки:

а) не логичны
б) не имеют четкой однозначной грамматики
в) полны двусмысленностей
г) и пропусков в высказываниях

К тому же, каждое слово обладает многими смыслами сразу, причем эти смыслы между языками не совпадают.

И еще хуже: язык - вообще не является замкнутой формальной системой. Чтобы разрешать в нем неоднозначности и пропуски, нужно знать контекст высказывания, а этот контекст в общем случае включает в себя весь мир. Недостаточно словаря и грамматики, переводящая машина должна еще обладать примерно такими же знаниями о мире, что и человек. Понимать, какой предмет какого размера, что гравитация направлена сверху вниз, что существует время, что птицы не едят гвозди и т.п.

В общем, до создания такого компьютера еще явно годы.

Как же тогда работает Google Translate? Ведь каждый может его опробовать и убедиться, что тот переводит и переводит правильно.

А он работает совсем не так. Он вообще ничего не понимает.

В какой-то фантастической книжке был персонаж, который, якобы, вообще не знал языка. Вместо этого у него была хорошая память. Он просто помнил огромный список фраз, которые ему могут сказать, и ответы на них. И при этом не понимал ничего.

Как ни странно, Гугл Транслейт примерно так и работает. Программисты Гугла просто взяли огромный массив одинаковых текстов, изложенных на двух языках одновременно, - в основном, это были документы ООН, накопившиеся за время ее существования; документы Евросоюза, которые ведутся одновременно на 24 официальных языках; детективы, переведенные с английского на французский и т.п.

Дальше с помощью хитрых алгоритмов, имеющих чисто статистическую природу, Гугл подбирает похожие фразы из своей базы и выдает их перевод. Алгоритмы помогают также определиться, какая фраза лучше подойдет, если их несколько.

И это работает, потому что люди очень часто говорят  об одном и том же, и нередко одними и теми же словами.

Но работает не всегда и не везде. Гугл Транслейт хорошо переводит между теми языками и текстами того типа, на которых натренировался. Например, документы по международному праву между русским и английским. Есть какая-то ирония в том, что хорошее качество перевода на русский - это несомненная заслуга товарища Сталина.

А между теми языками, где не существовало переводческого материала, например, между исландским и вьетнамским, он вовсе не переводит. Просто перекидывает с исландского на английский, а с английского на вьетнамский.

Качество перевода сильно разнится. Иногда Транслейт выдает откровенную ерунду, поэтому пользоваться им можно, если только хорошо знаешь целевой язык, и способен отличить глупость от чего-то осмысленного.

И, разумеется, Гугл для перевода художественных текстов вообще не предназначен. Чем более текст художественен, тем более он уникален, тем меньше материала есть в нем для базы Гугла.

Ну и ждать, что Гугл идеально переведет любую фразу с сохранением смысла, как-то очень наивно. Переведет как умеет - вплоть до нечитаемой чуши. И судить по его переводам о целевом языке так же странно, как посмотрев на картинку на мониторе удивляться, что Альпы плоские и помещаются на столе.
manx

David Bellos. "Is that a fish in your ear?"

Ненавязчивые рассуждения опытного переводчика о своей профессии. В конце высказывается любопытная теория происхождения языка:

а) естественная речь всегда сопровождается мимикой и движением рук
б) речь всегда индивидуальна и по ней легко узнается конкретный человек. Кроме того, она четко идентифицирует сообщество, к которому человек принадлежит, то есть, служит своебразной меткой, как личной, так и групповой.

Отсюда автор делает вывод: исходно речь служила исключительно для сплочения группы и для идентификации ее членов. Фактически, она выполняла примерно ту же функцию, что и поиск паразитов у наших родственников - обезьян (груминг). Ее появление было вызвано,  очевидно, тем, что груминг каждого  с каждым невозможен в группах свыше 50 голов (число Данбара). Поэтому наши предки заменили физический контакт акустическим.

И лишь затем речь была приспособлена (или похакана) для передачи информации, хотя до сих пор несет и свои первичные функции.