Современные технологии сделают доступными исламские рукописи
Центр исследований истории, искусства и культуры ислама (IRCICA) при поддержке Агентства развития Стамбула представил проект по оцифровке рукописей с использованием технологий оптического распознавания символов (OCR).
По сообщению портала haberler.com, на презентации, прошедшей в здании центра в районе Чагалоглу, была представлена программа, которая может использоваться при оцифровке рукописей, написанных почерками насх, рика, талик и насталик, благодаря технологиям оптического распознавания текстов.
Генеральный директор Центра исследований истории, искусства и культуры ислама (IRCICA) доктор Халит Эрен рассказал о завершении важного этапа в процессе оцифровки рукописей на османском языке с помощью технологии OCR, который продолжается с 2011 года и является первым подобным проектом в мировом масштабе.
Эрен пояснил, что благодаря этой работе поиск по тексту произведений и трудов, напечатанных на османском языке, уже осуществляется в открытом доступе. «Теперь благодаря этому проекту мы применим ту же технологию к рукописям. Особое значение этой работе придает тот факт, что этот проект, который послужит исследовательским учреждениям и университетам во всем мире, осуществляется именно в Стамбуле, который сочетает в себе большое количество ценных коллекций, имеющих отношение к исламской истории и цивилизации, и реализуется усилиями IRCICA, который содержит уникальные коллекции, принадлежащие исламским странам».
Генеральный секретарь Агентства развития Стамбула (İSTKA) Озгюль Озкан Явуз пояснила, что в глобализированном мире культура рассматривается как четвертая опора устойчивого развития наряду с экономическим, социальным и экологическим измерением. Она упомянула о том, что они придают значение поддержке фундаментальных ценностей и культурного наследия, формирующих коллективную память стамбульцев:
«С этой целью мы поощряем применение инновационных методов и информационно-коммуникационных технологий в повышении доступности культурного наследия. Мы от всего сердца поддерживаем самое эффективное использование этого культурного наследия посредством оцифровки рукописей, проливающих свет на нашу историю, с помощью методов, получивших название OCR».
Руководитель технической группы проекта Синан Кушдоган в своем комментарии по поводу этой технологии, пояснил, что она представляет собой превращение изображений в различные компьютерные символы, и рассказал о том, что они планируют перевести имеющиеся в виде трудночитаемых изображений тексты в цифровое пространство.
Кушдоган сказал, что в Турции имеется 400 000 рукописей, «которые были посвящены истории и воспитанию, написаны на протяжении 600 лет истории Османов. В современном мире они не доступны никому, кроме исследователей и специалистов по османскому языку. Таким образом, когда вы просматриваете текст в цифровой библиотеке, у вас появляется возможность получить доступ к этой информации гораздо быстрее».
Рассказав о том, что при разработке системы оптического распознавания текста они использовали самые современные технологии, в том числе нейросети и искусственный интеллект:
«В нашем турецком алфавите есть 29 букв. То есть, если вы переводите в компьютерный формат какое-нибудь произведение на турецком языке, вы ищите 29 различных вариантов. Однако в произведениях на османском языке имеется свыше 300 буквенных форм. С помощью сетей искусственного интеллекта мы стремимся выстроить эти 300 форм в правильном порядке. Рукописные тексты – это не продукты упорядоченных символов, как в случае с печатными текстами, они написаны вручную. Строчки в них неровные, находят друг на друга. На этапе оцифровки мы в первую очередь отбираем произведения, просматриваем их и проводим процедуру отсеивания образцов. На втором этапе мы учимся тому, как их распознавать с помощью программного обеспечения, как находить буквы и отличать их друг от друга. Далее мы катологизируем и публикуем их. Все эти работы проводятся над цифровой версией рукописей».