Основные этапы процесса оцифровывания таковы:
Выпуски Летописи в печатном виде без переплета отосыляются фирме-подрядчику для перевода в электронный формат. Страницы Летописи сканируются и сохраняются с параметрами 600 точек на дюйм (dpi) в двухцветном режиме TIFF образов.
• По получении цифровых изображений страниц от подрядчика они подвергаются обработке системой Оптического Распознавания Символов (OCR) компании ABBYY(http://www.abbyy.com/). Программный продукт “Fine Reader” российской компании ABBYY, единственный из известных нам, способен распознавать русский (киррилический) текст. Тексты, распознанные при помощи процесса OCR, сохраняются как UTF-8 файлы Unicode.
• Файлы, содержащие выпуски Летописи, проходят через первоначальное ручное кодирование, включающее проставление символов элементов div1, div2 и div3 согласно подразделениям предметных заголовков. Необходмые атрибуты id каждого раздела на данном этапе игнорируются.
• Файлы, содержание выпуски Летописи, подвергаются заказчиком обработке программой Java, позволяюцей автоматизировать основной объем работы по кодированию текста. Программа Java, названная LMU от английского выражения “Letopis MarkUp” («Кодирование Летописи»), делает следующее:
1. Производит прекодировочную обработку по корректированию типичных ошибок OCR и форматирует текст с целью увеличения эффективности и надежности процесса кодирования.
2. Проставляет правильные значения id атрибутов (в соответствии с годом выпуска, номером выпуска и положением предметного заголовка в иерархии) во всех элементах div1, div2 и div3.
3. Заключает тысячи библиографических ссылок в символы элементов cit, проставляя автоматически правильные значения атрибутов cit/id.
4. Внутри каждого элемента cit проставляет символ года публикации “year”.
Программа кодирования Летописи, имеющая в своей основе Java, активно использует публичный источник gnu.regexp package (http://www.cacas.org/~wes/java/) для отражения регулярных выражений.
• Далее файлы, содержащие выпуски Летописи, подвергаются заключительному ручному редактированию и проверке. На данном этапе исправляются ошибки, выявленные в результате проверки на соответствие требованиям XML, и прочие неточности.