Статьи
 

В переводе с небесного

Русский Newsweek - 44 (2008)()

В 1967 г. британские астрономы Джоселин Белл и Энтони Хьюиш зафиксировали радиосигнал, повторявшийся с удивительной периодичностью. Не зная, как это объяснить, они предположили, что поймали долгожданное послание от братьев по разуму, и назвали открытый ими феномен LGM-1, то есть Little Green Men (маленькие зеленые человечки). Очень скоро Хьюиш и Белл поняли, что такие сигналы издают не человечки, а звезды особого вида - пульсары. За открытие пульсаров Хьюиш получил Нобелевскую премию, но ученые с тех пор так и не придумали, как отличить попадающее на Землю излучение естественных объектов от осмысленного послания, если его вдруг отправят.

С тех пор поиск внеземной жизни и исследования дальнего космоса продвинули многие науки к самому краю их возможностей. Астрохимики определяют состав далеких звезд по их цвету, астрофизики с карандашом в руках изучают окрестности черных дыр, астробиологи строят гипотезы, какие формы жизни могут быть во Вселенной. Теперь ученые заговорили об астролингвистике и ставят перед собой вовсе фантастическую задачу: понять инопланетян. Недавно в Париже на конференции по поиску внеземной жизни Джон Эллиотт из британского Университета Лидс Метрополитен представил компьютерную программу, позволяющую проверять космические сигналы на осмысленность. С помощью математических методов программа анализирует сигнал и пытается установить, язык это (пусть даже совершенно неизвестный) или что-то еще.

«На таком уровне этими проблемами, наверное, занимаюсь только я, - отвечает Эллиотт на вопрос о единомышленниках. - А ведь это одна из самых сложных задач, стоящих перед человечеством». Искателю-одиночке приходится исследовать самые разные вещи: от коммуникационных способностей дельфинов до нерасшифрованных древних надписей. «А вам, кстати, большое спасибо за материалы по русскому языку», - благодарит он за ссылку на русские тексты (так называемый Национальный корпус русского языка), которой его снабдил корреспондент Newsweek.

Самый простой для анализа случай, говорит исследователь, если сигнал будет передан с помощью радиоволн (самый надежный и простой канал) и будет представлять собой последовательность единиц и нулей - двоичный код, используемый в компьютерах. Эллиотт предлагает первым делом проверить, насколько сильно эту последовательность можно сжать при помощи программы-архиватора: текст на человеческом языке, по мнению ученого, сжимается примерно вдвое. Смысл в том, что неупорядоченный шум будет архивироваться гораздо хуже, чем человеческий язык. Архивация возможна только благодаря повторяемости: длинные одинаковые последовательности при сжатии заменяются более короткими.

«Это не очень точный метод», - считает профессор Ольга Кукушкина из Лаборатории общей и компьютерной лексикологии и лексикографии МГУ. Повторяемость встречается и в природе. Например, шум прибоя. «Да и процент сжатия сообщений на человеческом языке может разниться», - говорит Кукушкина. По степени сжатия пытаются даже определять авторство: у разных авторов она разная, потому что одни больше склонны к повторам, а другие меньше.

Если сообщение прошло проверку архивацией - сжимается так, как должен сжиматься осмысленный текст, - необходимо будет решить еще одну задачу: определить минимальную единицу, с которой нужно работать. То есть выделить в этом сообщении буквы. Скорее всего каждая буква будет зашифрована последовательностью из нескольких бит. По крайней мере так устроено на Земле: символы (буквы) кодируются разными комбинациями нулей и единиц. Земляне за чрезвычайно короткое в масштабах Вселенной время успели сменить не так мало стандартов: например, в распространенной кодировке ANSI на один знак выделяется 8 бит, а в кодировке Unicode - 16 бит.

Если мы правильно разобьем текст на символы, то одни знаки будут повторяться часто, другие - реже. Например, если закодировать текст на русском языке, то последовательность бит, соответствующая букве «А», будет встречаться гораздо чаще, чем та, что соответствует букве «Ъ». Если же мы не угадаем с длиной одного символа, то все последовательности окажутся практически случайными, так как не будут соответствовать никаким буквам. Встречаться они тогда будут примерно одинаковое число раз.

В теории информации есть способ, который позволяет, рассчитав так называемую частотность знаков (как часто они встречаются), определить уровень энтропии. Энтропия - мера случайности: она максимальна, когда все знаки встречаются с одинаковой частотой. Если же частотность у знаков разная, то энтропия уменьшается. Таким образом, если длина символа выбрана правильно, то энтропия должна оказаться меньше, ведь символы в естественном языке встречаются с разной частотой. Минимум на графике энтропии может свидетельствовать о том, что мы наткнулись на осмысленное сообщение и правильно разделили его на символы.

Эти выводы подтвердились, когда Эллиотт попробовал применить свой метод к английскому тексту в 7-битной кодировке (то есть такой, где каждой букве соответствует 7 бит, например 101 1000 - буква X) и к китайскому - в 14-битной кодировке. Представьте, что английский язык - инопланетный и вам нужно сначала понять, язык это или нет. Вы попытаетесь определить длину символа - в битах. И раз речь идет о 7-битной кодировке, вы увидите: при длине символа кратной семи энтропия начинает падать. Это значит, что перед вами не бессмысленная мешанина из нулей и единиц, а некий текст, состоящий из символов.

Эллиотт увидел, что в английском языке минимумы энтропии встречаются при длине символа 7, 14 и 21. Это соответствует одно-, двух- и трехбуквенным сочетаниям. Они все, разумеется, не случайны и имеют разную частоту встречаемости (the заметно чаще, чем, скажем, thh). Важно, что та же методика, если ее применить, например, к графическому файлу, а не к тексту, дает гладкий график без минимумов.

Разделив сообщение, гипотетически полученное из космоса, на символы, Эллиотт предлагает считать, что самый часто встречающийся символ - это пробел. Тогда в тексте можно будет выделить слова. «Вот это странно. Никто не обещает нам, что в инопланетном тексте будет разделение на слова», - скептически замечает болгарский лингвист Иван Держанский.

Если считать, что все же удалось выделить в непонятном сообщении слова, то нужно посмотреть на их длину. В языке действует принцип экономии усилий: говорящий всегда ленив и старается потратить как можно меньше усилий (но хочет, чтобы собеседник его понимал). Поэтому короткие слова встречаются в тексте довольно часто, чуть более длинные слова - еще чаще, но дальше с увеличением длины слова частотность начинает падать. Если длина слов в сообщении, которое люди надеются получить из космоса, будет распределена так же, то можно заключить, что мы имеем дело с естественным языком.

Эллиотт предлагает также и методы для анализа звуковых сообщений. Чтобы разработать теоретическую базу для общения с инопланетянами, он сравнивает язык людей с системами коммуникации, которыми пользуются дельфины и птицы. «Мне нравится эта идея. Нужно получить представление о том, каким бывает языкообразное общение на основе не только человеческой речи, но и “речи” дельфинов и певчих птиц, - говорит Иван Держанский. - А потом сравнить это представление с другими неслучайными сообщениями, например с музыкой, отмечая на сей раз не общее, а различное». Вот только выборка человеческих языков, по мнению Держанского, у британского исследователя пока маловата, да и вообще при чтении его работ ощущается нехватка лингвистической подготовки.

Сам Эллиотт утверждает, что нередко общается с традиционными лингвистами и они обычно находят его работу интересной. «У нас часто возникают плодотворные дискуссии, - говорит он. - Я подхожу к языку как бы со стороны полного невежества. Делаю шаг назад - и смотрю на язык “наивным” взглядом, отказываюсь от всех знаний и предположений - и пытаюсь “с нуля” понять его структуру». Для этого он также изучает древнюю письменность и сейчас планирует заняться расшифровкой надписей с печатей из долины Инда.

В дешифровке древних письменностей уже достигнуты серьезные успехи, но оптимизма по поводу внеземных языков у коллег Эллиотта гораздо меньше - разве что сами инопланетяне захотят нам помочь. «Если мы получим сигнал из других миров случайно, например, что-то вроде инопланетного телевидения, которое неожиданно дойдет до нас, то у нас будет немного шансов его понять, - говорит Дэн Вертимер, астроном из Беркли. - Но если придет сигнал, адресованный именно нам, то такое сообщение, может быть, осилим». «Возможно, тогда нам и пригодятся исследования Эллиотта», - добавляет Сет Шостак, главный астроном Института SETI (Search for Extra-Terrestrial Intelligence - Поиск внеземного разума) в Калифорнии.

Какова вероятность того, что это произойдет? Шотландский астроном Дункан Форган в статье, которая скоро выйдет в журнале International Journal of Astrobiology, пытается оценить количество разумных цивилизаций в Галактике и приходит к выводу, что их может быть от 361,20 до 37964,97 (именно с сотыми долями, несмотря на большой разброс между минимальной и максимальной оценкой). Это продолжение и уточнение исследований известного астронома Фрэнка Дрейка, который полвека назад предложил формулу, позволяющую оценить количество разумных цивилизаций в нашей Галактике. Но даже если таких цивилизаций 1,00, то работа Эллиотта не бессмысленна.

Вернуться к списку статей

Избранные рубрики

Нет избранных рубрик
Удалить 
Регион не указан
Пожалуйста, выберите регион

Статистика проекта

Автоматически подобранных5394
Просмотрено страниц за 24 часа120152
Посетителей за 24 часа658
Посетителей на сайте9
Зарегистрированных пользователей32820