Сможет ли искусственный интеллект прочесть древние тексты

Метки

Искусственный интеллект

Рейтинг

( 1 Рейтинг )

Рубрика

Инновации

06 Февраля 2017

Рейтинг: 5 / 5

Люди придумали множество способов фиксировать окружающий мир — разработали символы и иероглифы, рисунки и буквы, затем появились разные языки, а сегодня мы знаем даже компьютерные программы, которые также зовутся языками и помогают в общении человека с техникой.

Настало время взглянуть в самое начало большого лингвистического пути человечества, попытаться разгадать древнейшие его загадки, пользуясь современными разработками — технологией машинного обучения и искусственного интеллекта. С их помощью ученые надеются прочесть одну из самых больших загадок — наследство цивилизации долины Инда, такой непохожей на другие известные находки Бронзовой эпохи.

История индийских находок

В 1872 году британский генерал, «отец индийской археологии» Александр Каннингем (Alexander Cunningham) во время очередной исследовательской экспедиции в подконтрольных Империи северных индийских территориях обнаружил фрагмент гладкого черного камня с вырезанными на нем символами. Рисунок содержал линии, овалы, символическое изображение рыбы и быка. Генерал пришел к выводу, что рисунок — не индийского происхождения (по его мнению, бык не походил на типично индийское животное), а был скорее фрагментом иностранного быта, случайно перемещенным в долину Инда. Впоследствии каменный фрагмент оказался в Британском Музее, вместе с другими похожими находками, обнаруженными в тех же годах Каннингемом и его исследователями. Позже, в 1920-х коллекция пополнилась большим количеством схожих артефактов и археологи пришли к выводу, что имеют дело с древним письмом цивилизации Хараппы (другое название — цивилизация долины Инда), возраст которого достигает 4 тысяч лет. Эта культура считается самой древней индийской цивилизацией из всех известных ученым.

С того времени коллекция хараппских находок разрослась фрагментами с символами сверху и вырезанными животными — в нижней части. Новые камни с письмом находили на территории современной Индии и Пакистана, а также вдоль древнего торгового пути. Наиболее удаленные от Инда фрагменты нашлись на территории современного Ирака. Геометрические фигуры, изображения животных и рыб размещались не только на камнях, но и на посуде, гончарных изделиях. Там были вырезаны быки, носороги, слоны и даже единороги.

За все время удалось собрать коллекцию из тысяч символов, но их значение до сих пор нераскрыто. Прошло более века со времени первых находок Каннингема, но специалисты до сих пор не определились даже с тем, имеют они дело с древним языком, или же рисунки — это религиозные, семейные или политические знаки. Эти вопросы горячо обсуждаются в научном мире, а распри между специалистами обостряют и культурное соперничество за право наследования колоссального наследия древних жителей долины Инда. Именно сейчас, когда технологический процесс приблизил нас к созданию полноценного искусственного интеллекта, алгоритмы машинного обучения и науки о процессе познания могут помочь расшифровать культурное наследие.

С чем работают ученые

Хараппская цивилизация (название происходит от г. Хараппа, одного из крупнейших найденных центров той культуры, сегодня — поселок на территории Пакистана) существовала в период между 2600 и 1900 гг до н.е., по размерам превосходила Египетскую и Месопотамскую цивилизации. По площади она охватывала свыше 1 млн кв км территории современного Пакистана и Индии, имела усовершенствованную систему распределения водных ресурсов, дренажную систему, хорошо спланированные города с уличной структурой и даже первые известные в этом регионе гардеробной. Торговые пути жителей долины реки Инда достигали Персидского залива. Первые реликвии Хараппской цивилизации были обнаружены еще до Каннингема: в середине XIX века на территории современного Пакистана строители нашли большое количество качественной брусчатки, пригодной для использования. Они построили более 150 км железной дороги из найденного материала, и лишь гораздо позже археологи выяснили, что кирпич принадлежит периоду старейшей индийской культуры.

Среди всех найденных свидетельств про прогрессивный строй Хараппской цивилизации нет никаких доказательств влиятельного религиозного культа: не найдено ни изображений божеств, ни статуй или дворцов в честь богов. Храмовая башня Месопотамии или египетские пирамиды Гизы не имеют родственных объектов в долине реки Инда. Более того, археологи нашли очень мало оружия и вовсе не обнаружили следов крупных войн — все это странно и нехарактерно для других цивилизаций Бронзового века, известных ученым.

Символы из долины Инда не единственные в списке и до сих пор не расшифрованных древних языков. Ученые продолжают искать ключ к пониманию многих шифров: находок времен Древней Греции, древнего Ирана, письмо месоамериканской суток и культурное наследие ронго-ронго с острова Пасхи. Некоторые иероглифы эпохи неолита, не имеющих лингвистических производных в позднейшей истории человечества, могут навсегда остаться непрочитанными. Другие образцы, например, линейное письмо Б (англ. Linear script B), существовавшее в период XV-XII вв. к н. е., расшифровали, когда удалось выделить знаки, которые используются на начале фразы и те, что означают ее окончание; обнаружить чередование слогов, изменение согласных и гласных в пределах одного предложения и тому подобное.

Поскольку от расшифровки древних знаков не зависит будущее всего человечества, нет и особой спешки в их расшифровке, а все процессы раньше преимущественно происходили вручную. Для линейного письма Б использовали фонетические диаграммы, пока они в конечном итоге не привели к расшифровке этого языка. Еще в 30-х годах прошлого века ученый Дж. Г. Хантер (G. R. Hunter) попытался использовать аналогичный подход к индийских символов: он разделил все знаки на кластеры, выявил определенную структуру в их написании, но расшифровать код и перевести смысл так и не смог.

Ниша Ядав (Nisha Yadav) из Института фундаментальных исследований Тата, в Мумбаи, Индия, выделяет несколько главных причин, почему с текстами Хараппской цивилизации возникли сложности. Во-первых, найденные фрагменты слишком короткие, в среднем, не более 5 символов, а самый длинный текст имеет всего 17 знаков. Через это, по убеждению Ядав, трудно выяснить, какой была структура построения древних сообщений. Ее коллега из Университета Вашингтона и американского Национального научного фонда Раджеш Рао (Rajesh Rao) добавляет, что ученые не знают, к какой языковой семье принадлежал говор жителей того региона 4 тыс лет назад. Историки не в состоянии помочь лингвистам: похоже, что с исчезновением самой цивилизации долины Инда закончилась и культурная традиция, и система письма того времени. «Мы не знаем наследников культуры и языка, которые бы продолжили обычаи Хараппской цивилизации», — объясняет исследовательница Ниша Ядав. Археологи надеются найти некий аналог Розетского камня, который помог бы расшифровать записи древних индусов, как это произошло с египетскими иероглифами. Однако пока им в этом не везет.

Не смотря на отсутствие положительного результата с расшифровкой, трудно обвинить ученых в лености. Сегодня существует более 100 вариантов расшифровки, но Брайан Уэлс уточняет, что специалисты не признают ни одну из них. Самый загадочный древний язык сегодня называют «самым расшифрованным» именно из-за количества попыток, а не из-за качества перевода записей. Большинство «шифровальщиков» заявляли, что им удалось доказать связь между найденными знаками и позднейшими языками, но ни одна теория не была подтверждена должным образом. Один тантрический гуру даже заявлял, что получил объяснение древнего языка от Великого Непознанного, с которым вошел в контакт во время медитации. При всей нашей лингвистической осведомленности древние тексты остаются непрочитанными до сегодня. Все надежды — на искусственный интеллект.

Как расшифровывают язык

Чтобы расшифровать символы прежде всего нужно определиться, с чем мы имеем дело: знаки являются лингвистическими конструкциями и формируют язык, или, по примеру тотемных столбов, несут на себе отметки божеств, семей или других сообществ. Ученые пытались выявить закономерности и, по словам Рао, результаты их деятельности свидетельствуют больше в пользу теории о языке на древних останках, чем против этой версии.

В 2009 году Рао опубликовал свои исследования структуры происхождения шифра из долины Инда. Он детально рассмотрел, как одни символы сочетаются с другими и насколько можно предсказать появление одинаковых цепей отметок. Для лингвистических систем характерно подражание знаков и целых словесных конструкций, хотя и с изрядной гибкостью форм. Исследователи называют такую неуверенную возможность предвидения «условная энтропия». Предметом изучения для Рао и его коллег стал поиск правил расположения символов и опровержения версии, что они случайно располагались по соседству друг возле друга.

Письмо Хараппской цивилизации проанализировали в сравнении с ведийским санскритом (пример лингвистической системы) и последовательностями в человеческой ДНК (пример нелингвистической системы), а полученный результат подтвердил, что манускрипты из северной Индии имеют больше схожих образцов и последовательностей с языком.

"Это не является гарантированным доказательством того, что мы имеем дело с языком, — уточняет Рао. — Однако мы получили подтверждение, что последовательность знаков и рисунков точно не является случайной, а большинство отдельных моделей коррелирует с конструкциями в определенной языковой системе».

Символы из найденных артефактов анализировали по модели Маркова, которая используется для моделирования систем, которые случайно изменяются. В математике использование этой модели предполагает, что будущие состояния зависят только от текущего состояния, а не от последовательности событий. В случае с лингвистическими знаками предположение позволяет выявить, какие из них вероятнее всего используются в начале фразы, а какие, скорее всего, заканчивают высказывание. Также математическая модель определяет группу символов, которые чаще всего употребляются вместе, а это уже позволяет заполнять пробелы в поврежденных фрагментах древнего письма.

«Исходя из общей статистики и анализа целых фрагментов текста, можно дописать потерянные символы», — объясняет Раджеш Рао. В то же время, Ядав с коллегами использовала другой тип модели Маркова для подтверждения лингвистического происхождения символов. Использование N-грамм, то есть последовательности нескольких элементов, хорошо известное пользователям поисковой системы Google: когда вы начинаете вводить текст, система предлагает на выбор несколько самых популярных запросов для поиска. Ученые задали системе известны последовательности символов и таким образом смогли подтвердить их лингвистическое происхождение — алгоритмы подставляли уже известные комбинации в случае ввода отдельных символов.

Неожиданно, использование двух технологий анализа символов позволило выявить диалекты: фрагменты текста, найденные на территории современного Ирака, отличались по структуре от рисунков с территории Пакистана или Индии. По внешнему виду это были символы одной системы, но их последовательность не похожа — так, словно жители экспериментировали со значением каждого изображения.

Еще один подход к пониманию древних посланий — анализ символов через призму всех данных, известных о соответствующую территорию в выбранный период времени. Габриэль Реччиа (Gabriel Recchia) из Кембриджа успешно использовал науку про процесс познания для анализа данных. Например, расстояние между городами можно выяснить, проанализировав, как часто они упоминаются вместе в письменных текстах. Этот принцип подтвердился на нескольких примерах: с современными газетами в США с ближневосточными и китайскими текстами и даже с упоминаниями городов с художественных книг про Властелина колец. Реччиа сравнивал фрагменты, чье происхождение было доподлинно известно, с неопознанными артефактами. Благодаря алгоритмам анализа можно было выяснить, данный фрагмент древнего изображение не был найден в том же месте, где его создали, этот обломок завезли из другой местности.

Чтобы оптимизировать процесс распознавания и анализа древних символов ученые из Ченнаи, Индия, разрабатывают программу, которая распознает знаки на фотографиях в мобильном устройстве. Разработка Роноджоя Адхикари (Ronojoy Adhikari) и Сатиша Паланиапана (Satish Palaniappan) позволит ускорить обработку данных с каждого нового найденного обломка.

А если это — не речь?

Не все археологи и историки соглашаются с тем, что символы из долины Инда представляют собой древний язык. В 2004 году группа ученых опубликовала опровержение всех методов исследования, которые применялись к символов Хараппской культуры. Нейробиолог и сравнительный историк Стив Фармер (Steve Farmer), вычислительный теоретик Ричард Спроут (Richard Sproat) и филолог Майкл Витзель (Michael Witzel) заявили, что найдены индусские символы и их комбинации не могут быть лингвистическими элементами. Они даже предложили награду в $10 тыс. тому, кто найдет достаточно длинную хараппскую надпись, которая бы могла считаться лингвистической структурой. Они раскритиковали исследования Рао и других специалистов, подвергнув сомнению ценность их выводов.

«Что дает нам их условная энтропия? Что эти символы появились на камнях неслучайно? Что они не вполне бессодержательны, что их наносили с определенной последовательностью? Но ведь это и так понятно. Эти исследования не дают новой информации для понимания предмета», — так писал о исследования Спроут.

Фармер высказывал схожую точку зрения:

«Только тот факт, что в расположении рисунков оказалась определенная структура еще не дает гарантии, что мы имеем дело именно с языком. В геральдике есть структура, в астрологических символах структура и даже в лентах бойскаутов есть своя определенная структура».

Критика вызвала горячую реакцию не только тех, кто непосредственно принимал участие в обсуждаемых исследованиях, но и у других специалистов отрасли. Дискуссия перешла в частную плоскость: кроме того, что Уэлс и коллеги вспоминали, что их критики не имеют квалификации ни в археологии, эпиграфии или другой дисциплине, связанной с древней историей, получила огласку история о споре вокруг диссертации Уэллса, которую якобы пытался заблокировать Витзель. По словам исследователей античных реликвий, их оппонентам не хватает факт-чекинга, как собственно и многим современным СМИ, которые публикуют материалы про научные исследования.

Несмотря на множество разногласий, есть одна точка зрения, которая объединяет оппонентов. Рао с Уэллсом и Спроут с Фармером уверены: если символы не отражают древний язык, значит все артефакты из долины Инда представляют собой значительно больший интерес для исследователей. Такая нелингвистическая система передачи информации станет крупнейшим достижением для изучения истории неписемних древних сообществ. А значит, математические и статистические алгоритмы для ее расшифровки будут единственным способом выявить, что же все-таки говорится на изображениях.

Политика и колыбель Индии

Несмотря на споры, ученые остаются верны главной цели — расшифровать послания на остатках древней цивилизации. Поэтому Раджеш Рао готов вести конструктивный диалог с оппонентами и работать вместе. Даже если будет доказано, что на обломках изображены не слова и предложения на древнем языке, а символические рисунки.

Совсем иной характер имеют споры политиков, которые также окружают археологические находки. Цивилизация долины Инда старшая по возрасту от всех других известных индийских культур, а потому северный, центральный и южный регионы уже спорят за право считаться единственными истинными наследниками индийских предков. Ситуацию ухудшает тот факт, что археологи не могут четко подтвердить или опровергнуть связь между рисунками на обломках и санскритом, дравидским языком или диалектом народов центральной части страны. Все они имеют одинаковое право заявлять о своей причастности к «колыбели культуры Индии». Более того, поскольку долина Инда сегодня разделена индийско-пакистанской границей, непростые взаимоотношения этих двух стран обостряются соревнованием за культурное наследие региона.

Еще один краеугольный камень — финансирование. Пока продолжается спор между странами за происхождения культурного наследия, ни одно правительство не решится на выделение значительных средств. На сегодняшний день раскопки и дешифровальная работа в лабораториях проводятся за счет специализированных фондов и отдельных университетов. Уэлс шутит, что самым лучшим способом улучшить финансовое положение исследователей будет выигрыш $10 тыс, которые его идейные оппоненты пообещали за значительный прогресс в поисках шифра древних символов.

Хотя нет единой теории, как разгадать значение рисунков (или, все же, полноценной языка?), ученые видят единственный сценарий — продолжать экспериментировать с алгоритмами анализа данных. Чем больше данных с новых обломков будет иметь система, тем вероятнее, что компьютер в конце концов научится читать послания людей, живших более 4 тыс лет назад. Уэлс с коллегами планирует обнародовать результаты своих наработок в апреле, после того, как представит их сообществу профессионалов на международной конференции по эпиграфии. Похоже, что люди наконец смогли разработать программу, чтобы понять своих давно умерших предков. Вряд ли информация из древних скрижалей сможет спасти Вселенную, и все же знания о появлении, про быт и гибель такой прогрессивной цивилизации могут кое-чему научить потомков.

Источник: The Verge

Сможет ли искусственный интеллект прочесть древние тексты

История индийских находок

С чем работают ученые

Как расшифровывают язык

А если это — не речь?

Политика и колыбель Индии

Похожие публикации

Популярное за неделю

Правила покупки

Интересные обзоры

О сайте

Самые популярные метки