Разблокировка памяти: проект искусственного интеллекта переводит османские архивы на современный турецкий язык

Многопрофильная команда компьютерщиков, историков и лингвистов работает над переводом османских рукописей на современный турецкий язык с помощью искусственного интеллекта. На данном этапе им удалось достичь 75% точности перевода алфавита, сообщает агентство TRT World.


Османским языком называют используемый в Турции в XIIIXX литературный язык на основе арабской графики, содержащий большое количество арабских и персидских слов. В 1928 году в стране перешел переход на латиницу, а также была проведена кампания по тюркизации лексики, что привело к катастрофическому разрыву памяти поколений.

«У нас есть обширный архив, включающий примерно сто миллионов страниц эпохи Османской империи. Однако проблема заключается в том, что люди не могут читать и понимать их, так как язык отличается от современного турецкого», – рассказывает Атакан Курт, доцент факультета компьютерной инженерии Стамбульского университета Серрахпаша. Он возглавляет группу исследователей, занятых проектом «Комплексный перевод с османского языка с помощью искусственного интеллекта», который был начат как диссертационная работа доктора компьютерной инженерии Исхака Дёлека.

По словам Атакана Курта, подобное уже делается в Европе, но там перед учеными изначально стояла более легкая задача, так как графика и язык изменились не так существенно. «Они просто преобразуют печатные и рукописные тексты – старые газеты, книги, письма, манускрипты – из графического формата в редактируемые тексты», – говорит он.

Как османский язык стал языком науки.

Ottoman Turkish was a language written using a Turkish form of the Arabic script between the 13th and 20th centuries, containing a great deal of Arabic and Persian expressions. / Photo: AA Archive

Османским языком называют используемый в Турции в XIII-XX литературный язык на основе арабской графики, содержащий большое количество арабских и персидских слов / Источник: AA Archive

С османским языком дело обстоит сложнее, так как отличаются и алфавит, и язык. Ученый объясняет: «Даже если мы заменим арабские буквы на латинские, язык останется непонятен для современных читателей».

Поэтому османские документы переводятся на современный турецкий язык в три этапа. Во-первых, производится OCR (оптическое распознавание символов), то есть преобразование изображения в редактируемый текст, во-вторых, транслитерация османского алфавита и в-третьих, перевод османского языка на современный турецкий.

Каждый из этих трех этапов представляет собой технически сложную задачу, требующую значительных ресурсов. Чтобы решить ее, Атакан Курт и его партнер Исхак Дёлек основали компанию под названием Mina Arge и разработали проект OCR. В настоящее время ученые заняты вторым этапом. Задействовав искусственный интеллект и сотрудничая с группой компьютерщиков, лингвистов и историков, компания уже достигла 75% точности перевода алфавита и продолжает свои исследования, чтобы довести этот показатель до 95%.

Исламская энциклопедия турецкого Диянета – уникальный источник знаний.

Османские документы переводятся на современный турецкий язык в три этапа / Источник: TRT World

«Для эффективного проведения этих исследований недостаточно одного аспиранта, нужны две взаимодействующие команды. В одну входят специалисты по информатике, а в другую – историки и филологи. Таким образом, проект представляет собой междисциплинарное исследование», – отмечает Атакан Курт.

Адиле Озгунай, одна из историков, задействованных в исследовании, отмечает, что помимо научной ценности проект также поможет людям, которые не владеют османским языком, но хотели бы прочитать какие-то дореволюционные материалы, такие как документы о собственности, письма своих предков или заметки на обратной стороне фотографий.

«Я верю, что по его завершению наше исследование станет самым значительным проектом века в сфере социальных наук Турции», – заявляет Атакан Курт.

Коллекция древних рукописей турецкого Диянета стала доступной для всех желающих в интернете.

Производится OCR (оптическое распознавание символов), то есть преобразование изображения в редактируемый текст / Источник: TRT World

Транслитерация османского алфавита / Источник: TRT World

Задействовав искусственный интеллект и сотрудничая с группой компьютерщиков, лингвистов и историков, компания уже достигла 75% точности перевода алфавита и продолжает свои исследования, чтобы довести этот показатель до 95% / Источник: TRT World

Исламосфера

Комментарии