Тема: Оцифровка документов. Особенности оцифровки документов в современных архивах Оцифровка архивных материалов в судах

В офисе часто бывает нужно переслать электронной почтой копии - электронные версии печатных документов. Это могут быть различные акты, счета-фактуры, письма, договора, уставы, служебные записки и любые другие возможные документы.

Дома у нас есть старые фотографии, которые с годами дряхлеют, и мы хотели бы их сохранить.

Нам дали на время интересную книгу, а хочется иметь ее у себя. Как это все сделать? Наши недолговечные бумажные документы надо преобразовать в электронный вид, то есть оцифровать и сохранить.

Оцифровка – это перевод изображения, или аналогового аудио/видеосигнала в цифровой формат пригодный для записи в электронный носитель.

Для оцифровки изображений объекта существуют специальные устройства – сканеры. Есть сканеры штрих-кодов, сканеры кинопленки. Биометрические сканеры считывают рисунок сетчатки глаза или папиллярный рисунок кожи пальцев руки. Форму объемного объекта считывает трехмерный 3D-сканер.

В сканерах для обработки бумажных носителей – рисунков, фотографий, текстовых документов, изображение построчно освещается специальной лампой, и отраженный световой поток фокусируется на светочувствительной матрице. Полученные электрические сигналы аналогово-цифровой преобразователь превращает в систему двоичных данных, которая и образует цифровую копию изображения.

Выбор сканера зависит от задач и специфики его применения. Сканер в офисе почти всегда используется для оцифровки документов. Даже, если сканируются фотографии, в офисе к ним не предъявляются высокие требования качества. Разрешения в 300 dpi вполне достаточно для обеспечения точной работы программ распознавания и получения хорошо читаемого текста. Любой выпускаемый сегодня сканер обеспечивает приемлемое для офисных работ разрешение.

Это касается и глубины цвета. Практически каждый современный сканер воспроизводит необходимый для печатных документов уровень цвета серого.

Важно в офисе, где основной задачей является быстрая постраничная оцифровка текстовых документов, это - автоматизация процесса сканирования. Могут применяться листопротяжные сканеры. Здесь, лист документа вставляется в щель аппарата и протягивается, как и в факсе , по направляющим роликам. Такой сканер удобен со встроенным автоподатчиком листов. Загружаем в лоток несколько листов многостраничного документа, и пока сканер выполняет оцифровку, параллельно занимаемся другим делом. Здесь все просто. Если установлена соответствующая программа распознавания текста, для оцифровки и сохранения документа в нужном формате на таком сканере достаточно нажать одну кнопку.

Современным офисным решением для отдела проектной компании, например, может быть сканер формата А3 входящий в многофункциональное устройство вместе с принтером А3/А4. На таком МФУ удобно оцифровывать и делать копии чертежей.

Ясно, что сосканировать сброшюрованный журнал или разворот книги на листопротяжном сканере не получится.

Для сканирования двусторонних документов существуют дуплексные сканеры, где два сканирующих элемента обрабатывают обе стороны листа в один проход.

Хорошим решением для дома является цветной струйный МФУ. МФУ - это многофункциональное устройство включающее в себя сканер и принтер. Такое устройство одновременно является и копировальным аппаратом. То есть, МФУ может в автоматическом режиме сканировать документ и печатать его копию - создавать фотокопию документа.

Компактный аппарат с совмещенными функциями занимает меньше пространства на столе. Стоимость его будет существенно ниже суммарной стоимости входящих в него устройств, если покупать их по отдельности. На цветном струйном принтере мы делаем качественные цветные фотографии и визитки , а планшетным сканером оцифровываем документы, фотоальбомы или нужные книги.

В следующих уроках мы поучимся вручную постранично, на планшетном сканере оцифровывать, преобразовывать и сохранять текстовые документы.

В этих примерах для сканирования я использовал популярный настольный МФУ формата А4. Такое недорогое устройство является оптимальным решением для дома и может быть вторым, дополнительным МФУ в офисе.

Предположим, что мы имеем многостраничный логически связанный документ, который нужно оцифровать и отправить на мейл нашему контрагенту. Назовем его «Договор».

В любимой всеми нами Windows XP есть стандартный «Мастер работы со сканером или цифровой камерой». Чтобы мастер заработал, на компьютере должен быть установлен сканер, и он должен быть включен. Работать в мастере очень просто и в уроке оцифровка документов в Windows XP есть небольшое руководство.

В Windows 7 инструментом для создания электронных копий печатных документов и изображений служит стандартный компонент "Факсы и сканирование Windows" .

Итак, мы почитали уроки и с помощью одной из этих программ получили файлы сканов страниц нашего договора в одном из графических форматов, сохранили, и пожалуйста, прикрепляем их к электронному письму, отправляем по адресу.

Плохо здесь то, что при сканировании многостраничного документа этими програмками мы не сможем объединить сканы страниц в единый файл. Конечно, можно пронумеровать файлы страниц по порядку и заархивировать их, чтобы компактно переслать. Но адресат наш сможет только по очереди просматривать страницы в графическом редакторе, не имея возможности навигации по документу. Это некомфортно и убивает время. И, вообще, неприемлемо.

Фактически, используя эти инструменты, мы получаем отдельные цифровые фотографии страниц документа.

Чтобы преобразовать наши разрозненные сканы в единый документ с возможностью полнотекстового поиска, нужна программа распознавания текста. Лучшей на сегодня является FineReader.

FineReader – это программа российской компании ABBYY. Последний ABBYY FineReader двенадцатой версии выпущен в феврале 2014 года. Эта программа извлекает текстовые данные из цифровых изображений - распознает символы текста. Ознакомительную версию ABBYY FineReader 12 Professional можно скачать с официального ресурса: http://www.abbyy.ru/finereader и потренироваться в течение 30 дней.

Лучше, когда на компьютере установлена одна из последних pro-версий. Здесь и далее описывается работа в ABBYY FineReader 10 Professional Edition.

Итак, в предыдущих уроках мы насканировали страниц стандартными инструментами Windows, пронумеровали их, сохранили с расширением "jpg" и поместили в отдельную папку, которую назвали «Договор».

Вот так, используя замечательные возможности программы распознавания мы легко преобразуем различные изображения в редактируемые форматы.

Об этом, пожалуйста, в следующем уроке: Сканируем в ABBYY FineReader .

И вот, мы почитали эти уроки и видим какие преимущества дает нам программа распознавания. Вместо нудного и трудоемкого набора текста из книги, или брошюры, мы, просто, сканируем нужные страницы FineReader"ом, редактируем их, если надо, и сохраняем в выбранном формате. Так, можно быстро сверстать, например, статью или реферат.

А, как сканировать страницы книг и оцифровывать книги читаем в теме: Оцифровка книги .

В заключение темы подытожим: сканер в сочетании с программой распознавания - рациональная замена набора текста с клавиатуры. Имея бумажную версию - напечатанный на принтере или в типографии текст, мы вместо ввода с клавиатуры просто сканируем его. Другой популярной областью применения сканера является оцифровка разнообразных печатных продуктов - этикеток, открыток, фотографий, журналов, книг.

21.01.2016, Чт, 17:51, Мск, Текст: Павел Притула 3068

Перевод в электронный вид исторических документов и формирование баз данных на основе архивных описей – один из сложнейших видов оцифровки, требующий особого оборудования, технологий и внимательного отношения к оригиналам документов.

Как и во всех остальных отраслях государственной и коммерческой деятельности, оцифровка фондов в государственных и муниципальных архивах служит решению сразу нескольких задач: наведению порядка в фондовом учете, упрощению поиска документов, снижению нагрузки на сотрудников и времени при отработке запросов пользователей, сохранению ветхих оригиналов, переходу к предоставлению архивных услуг в электронном виде, в том числе платных услуг.

Работы по переводу архивных фондов в электронный вид начались еще на рубеже тысячелетий. За прошедшее с тех пор время российскими архивами оцифрованы сотни тысяч исторических документов и описей. Но все равно это лишь малая часть Архивного Фонда РФ.

Два подхода

1. Если условно представить фонды архивного учреждения в виде пирамиды, то основной ее объем будут составлять непосредственно документы, и лишь малую часть на вершине – научно-справочный аппарат (описи), обеспечивающий навигацию по фондам и поиск требуемых дел и документов.


Многие учреждения используют оцифровку для решения разовых, узких задач. По аналогии с внедрением множества программных продуктов под каждую мелкую задачу, такая оцифровка называется «лоскутной». Например, в связи с юбилеем значимой для субъекта РФ личности ожидается увеличение интереса исследователей к архивным документам. Архив получает финансирование, сканирует эти фонды и переводит в формат базы данных 2–3 соответствующие описи.

Например, в связи с юбилеем значимой для субъекта РФ личности ожидается увеличение интереса исследователей к архивным документам. Архив получает финансирование, сканирует эти фонды и переводит в формат базы данных 2–3 соответствующие описи.

Этот путь – несистемный подход, позволяющий отчитаться о выполненной работе в короткий промежуток времени, но никак не отражающийся на общей эффективности работы архива, так как суммарный объем переведенных в электронный вид документов составляет доли процента от фондов учреждений. Многие архивы идут этим путем исключительно из-за недостатка финансирования. Но большинство все-таки понимает, что необходимы долгосрочные, плановые работы.

2. Поэтому многие добиваются длительных программных бюджетов и следуют другой стратегии, гораздо более перспективной с точки зрения развития архивных услуг и онлайн-сервисов. Эту стратегию поддерживает и Федеральное архивное агентство (Росархив).


Приоритет в ней отдается переводу в электронный вид всего научно-справочного аппарата. Этот путь позволяет перейти к полноценному автоматизированному учету фондов, в том числе к созданию единых информационных систем для региональных архивов.

Кроме того, появляется возможность простого и удобного поиска по фондам, что облегчает внутреннюю деятельность и позволяет перейти к предоставлению архивных услуг в электронном виде.

Документы сканируются в текущем режиме при поступлении запросов от пользователей. Для этого архиву достаточно иметь хотя бы один профессиональный сканер. А вот для оцифровки больших по объему массивов, описей, а также особо ценных документов по прежнему привлекаются эксперты из организаций, специализирующихся на сканировании и ретроконверсии.

Специфика оцифровки архивных документов

Теперь рассмотрим чуть подробнее некоторые особенности сканирования и индексирования архивных документов и описей. В отличие, к примеру, от тиражируемых книг, в архивах почти каждый документ уникален. Огромная ответственность ложится на оператора сканирования, который должен увидеть особое состояние документа (ветхость, повреждения, уход текста в корешок, особую сшивку и т.д.) и оперативно настроить оборудование, либо передать документ на реставрацию.

Один из часто сканируемых видов архивных фондов – межевые дела. Это стандартный архивный документ с толстым корешком. Однако среди его листов встречаются вложения формата до А0. Расшивать дела нельзя, протяжную технику не применишь. Исполнитель должен обладать другим классом оборудования – широкоформатными сканерами планетарного типа (пример).

Очень высокое значение приобретает опыт , которого привлекают к работам в учреждении. Как показала многолетняя практика, частая перенастройка оборудования, необходимость в режиме реального времени отслеживать качество оригиналов и получаемых электронных образов не под силу новичкам в оцифровке. Если конкурс выиграла такая компания, велики риски значительно увеличить сроки проекта или получить некачественный ресурс (поэтому нужно обязательно досконально проверять подготовленные электронные образы при сдаче работ).

Оборудование

Особенности документов предъявляют симметрично высокие требования и к оборудованию. Для архивных документов можно использовать исключительно бесконтактную сканирующую технику – планетарные сканеры.

Причем сканер должен обладать высочайшими характеристиками разрешения, цветопередачи и контрастности, так как велико наличие неконтрастных, угасающих текстов и изображений. Какое оборудование пользуется популярностью на рынке планетарных сканеров, можно узнать из нашего обзора 2014 года.

Первый такой сканер был разработан ЭЛАР в рамках проекта оцифровки фонда 350 «Ревизские сказки и исповедальные ведомости» Российского государственного архива древних актов. Для того, чтобы сканировать ветхие оригиналы высотой до 50 см и весом до 50 кг, сканер оснащен моторизированной колыбелью. Безопасный уровень силы прижатия к стеклу контролируется несколькими сенсорами.

Особая структура, толщина, вес архивных документов иногда приводят к необходимости разработки специальной техники. Так, в большинстве государственных архивов среди востребованных фондов генеалогической направленности имеются дела толщиной более 30 см и весом до 60 кг: например, материалы переписей населения (переписные книги), документы церковных приходов о рождении и пр. Долгое время, несмотря на востребованность, эти фонды не сканировались по причине отсутствия оборудования. Подходящие сканеры появились на рынке только в конце 2013 г., но сегодня уже завоевали популярность.

Индексирование

Чтобы вести учет и иметь возможность искать документы, их надо проиндексировать – заполнить карточки в АИС. Большинство архивных документов и описей выполнены вручную или с помощью печатной машинки, то есть не поддаются качественному программному распознаванию. Требуется ручная ретроконверсия.

Снова появляются дополнительные требования к исполнителю. Во-первых, он должен обладать достаточным штатом, чтобы выполнить работу в срок. В наиболее масштабных на сегодня проектах по оцифровке архивных фондов участвовало до 700 операторов индексирования. Держать такой постоянный штат невыгодно, поэтому крупные и опытные компании именно для крупных региональных архивных проектов часто привлекают местное население. Впервые такая технология была применена при оцифровке метрических книг для проекта «Поколения Пермского края». Через Центр занятости были временно трудоустроены несколько сот человек. Причем работали они на дому, через специальное приложение.

Классический пример – в старинном документе указана дата 37 мая. Обученный и здравомыслящий оператор, естественно, не стал вносить неверные данные, а уточнил дату по соседним листам метрической книги.

Главный вопрос – как добиться 100% качества? Ведь в ФИО, датах, номерах ошибаться нельзя. На помощь приходят жесткая система и технологии. Например, метод двойного ввода, когда информация попадает в Базу данных только после одинакового внесения 2 операторами.

Но все равно остается проблема мертвых языков и написания. При ретроконверсии таких документов на первый план выходит опыт руководителей групп индексирования, которым часто приходится решать и сложные нестандартные задачи.

Описи

А теперь о главном. Как уже отмечалось в начале статьи, перспективной стратегией оцифровки архивных фондов является перевод в электронный вид полного НСА. Это – наиболее сложная работа. Методическими рекомендациями Росархива установлены правила ведения баз данных по архивным описям. Поэтому описи необходимо индексировать по широкому набору полей.

Сложность оцифровки архивных описей учтена, в том числе, в 44-ФЗ «О контрактной системе». Согласно ч. 2 ст. 56 закона, «оказание услуг, связанных с необходимостью допуска подрядчиков, исполнителей к учетным базам данных музеев, архивов, библиотек» является основанием для проведения конкурса с ограниченным участием (участие ограничено результатами предквалификационного отбора). То есть только после подтверждения претендентом своих компетенций и опыта выполнения аналогичных проектов.

Описи, как и документы, могут быть ветхими и написаны на одном из мертвых языков. Описи могут иметь очень сложную структуру и содержать . Отличается формат описей для обычной и научно-технической документации, а также объектов нефондового учета. Сформированную базу данных надо заносить в программный комплекс «Архивный фонд» и т.д.

Без глубокого понимания процессов архивной деятельности, знания нормативной и методологической базы осуществить качественный перевод НСА в электронный вид не получится. Поэтому необходимо доверять оцифровку только проверенным компаниям, доказавшим на деле свое умение обращаться с архивными фондами. А оценить бюджет можно, заказав .

SCAN: Технологии

Что такое оцифровка?

02.10.2015, Пт, 14:05, Мск 2707

Сканирование, ретроконверсия и сопутствующие услуги. Обзор технологий перевода документов в электронный вид.

Существует несколько вариантов организации процессов оцифровки. Они могут производиться самостоятельно или с аутсорсингом услуг, с вывозом документов или выполнением работ на своей территории. При оцифровке могут применяться офисные, профессиональные документные или планетарные сканеры. Данные могут извлекаться в ручном, полуавтоматическом или автоматическом режимах, с проведением предварительной архивной обработки бумажных документов или классификацией информации уже в электронном виде и т.д.

Какой путь выбрать?

Решение зависит от конкретной задачи, потому что каждое из вышеупомянутых «или» определяет качество получаемого результата и стоимость работ. Например, извечен вопрос сшитых документов: выгодней медленно отсканировать в сшитом состоянии или потратиться на расшивку, зато быстро оцифровать на документных сканерах?

Самый простой способ выбрать наиболее подходящий для вас путь – обратиться за экспертизой к специализирующейся на оцифровке организации. Заинтересованные в работах, крупные компании проведут обследование бесплатно, и за вас определят оптимальный подход. Не пренебрегайте этой возможностью и не ждите склонения к заказу услуг: большинство этих компаний также заинтересованы в поставке оборудования и ПО для самостоятельной оцифровки.

Сколько документов нужно сканировать?

Определяющий параметр – объем документов.

Определяющий параметр – объем документов. Для ежедневного сканирования небольших пачек расшитых документов (например, первичной бухгалтерии) подойдет обычный офисный сканер, выдерживающий нагрузку в несколько тысяч страниц в день. Нужно лишь дополнить его удобной программой для индексирования.

Для регулярного сканирования больших объемов необходимо профессиональное оборудование. Это – промышленные сканеры, которые стоят немалых денег (подобное оборудование используют ФНС, ФТС, крупные банки). Поэтому менее дорогой альтернативой может стать рамочное соглашение на оказание периодических услуг оцифровки.

Перевод в электронный вид больших ретроспективных массивов своими силами экономически не обоснован: помимо закупки оборудования и обучения сотрудников, потребуются значительные трудовые и временные затраты. Однозначно эффективнее заказывать услугу, так как крупная компания может выделить большой штат и решить задачу оперативно.

Где сканировать документы?

Определяющий параметр – востребованность сканируемых документов. Влияет ли на деятельность организации изъятие документов на время сканирования? Особенно это критично при оцифровке документов, к которым регулярно обращаются сотрудники, либо которые могут быть внезапно запрошены контролирующим органом, а также для устранения связанных с документами ЧП. Примеры: финансовые и кадровые документы, техническая и эксплуатационная документация, книги ЗАГС и другие отраслевые фонды.

Участок сканирования, организованный в помещениях компании-заказчика услуг.

Если необходимо оцифровать их достаточно быстро, то традиционным подходом является заказ услуг с выездом бригады сканирования на вашу территорию. Зачастую это оказывается дешевле, чем доставлять документы на производство исполнителя и обратно, но все определяет территориальная удаленность. Регламент выездных работ подразумевает сканирование выданного дела в течение одного-двух рабочих дней, без длительного изъятия из рабочего процесса.

Расшивать ли документы?

Определяющие параметры: состояние документов и возможность расшивки. Если есть такая возможность, и бумага пригодна для протяжки документным сканером, то следует расшивать. Дело в том, что сканирование сшитых документов на планетарном (книжном) сканере в несколько десятков раз медленнее потоковой оцифровки. Пропорционально увеличиваются время работ и стоимость труда. Сканирование на документных сканерах, даже с учетом расшивки, оперативнее и дешевле.

Расшивать можно самостоятельно, а можно доверить это исполнителю.

Расшивать можно самостоятельно, а можно доверить это исполнителю: если выбрана авторитетная компания, опасаться утраты документов не стоит. Наоборот, жесткая регламентация всех процессов и качественные материалы позволяют компаниям застраховаться от дополнительных финансовых потерь и ущерба имиджу. Этому подходу доверяют даже российские суды: при организации сканирования обычно внутренним приказом разрешается расшивка и последующая сшивка судебных дел.

К слову, крупные компании параллельно могут провести профессиональную архивную обработку: во-первых, часть работ итак выполняется при подготовке к сканированию, во-вторых, архивная обработка помогает выявить невостребованные документы и сократить объемы сканируемых массивов, что может снизить стоимость работ.

Какое качество выбрать?

Сегодня высококачественно можно отсканировать любой объект: от маленькой библиотечной карточки до карт формата 8А0 и театральных декораций.

Определяющие параметры: вид документа и объем получаемого ресурса в электронной форме. Сегодня сканирующее оборудование позволяет получать образы с разрешением от 200 до 1200 точек на дюйм (dpi). Для художественных произведений обычно применяется разрешение 400–600 dpi, позволяющее создавать высококачественные репродукции. Более высокое качество используется только при необходимости увеличения изображения и детализации мелких предметов, например, монет.

Детализированные и неконтрастные чертежи, часто выполненные на кальке и синьке, нуждаются в сканировании с разрешением 300-400 точек на дюйм и дополнительной обработке изображений в графических редакторах. Остальные документы обычно сканируются с разрешением 300 dpi, достаточным для распечатки копий без потери качества. Необходимая обрезка изображений, геометрическое исправление, цветокоррекция, конвертация в форматы pdf, tiff, jpegи др. может проводиться в полностью автоматическом режиме программами, встроенными в сканирующее оборудование или поставляемыми вместе с ним.

В большинстве случаев используется цветной режим съемки. Это нужно для всех документов, в которые вносились исправления или ставились печати поверх текста, для удостоверения того, что электронная копия снималась с оригинала документа с печатью и подписью, а также для читаемости угасающих текстов и передачи уникальных особенностей оригинала. Необходимость цветного сканирования художественных произведений не обсуждается. Режим «градации серого» применяется лишь в некоторых случаях: когда документы не содержат цветных атрибутов, либо когда необходимо сократить объем получаемого электронного ресурса.

Сканирование может осуществляться самостоятельно. Главной задачей становится обучение сотрудников правильной работе со сложной техникой, так как качество получаемых изображений важно для последующего индексирования: плохо отсканированный документ, тени, засветка и другие дефекты на электронном образе могут сделать нечитаемой важную информацию. Это не позволит применить технологии автоматического извлечения данных и может привести к ошибкам в индексировании. Загрузка ошибочных данных в некоторые системы (государственные реестры, бухгалтерские учетные системы) не позволительна.

Индексирование

Простое сканирование применяется редко, поскольку при последующей работе искать информацию в наборе графических файлов будет лишь немногим проще перелистывания бумаги. Для возможности поиска необходимо выделить в документе несколько атрибутов (индексных полей).

Сотрудники, задействованные в массовом индексировании документов методом ручного ввода.

Выделенные атрибуты можно внести в имя файла. Такая практика сложилась в российских судах: для того чтобы оператор сканирования не имел доступа к внутренним системам суда, при оцифровке все необходимые реквизиты вносятся в имя файла. В последующем эти реквизиты распознаются системой судопроизводства при загрузке каждого документа по отдельности.

Но обычно оцифрованные документы загружаются в информационную систему группой, что требует создания базы данных. Так, если необходимо прикрепить документ к уже существующей карточке в учетной системе, бывает достаточно извлечь пару однозначно определяющих его реквизитов – обычно номер и дату.

Если же нужно сформировать поисковую базу на основании самих документов, то объем извлекаемых данных определяется задачей: от пары реквизитов для поиска файла в электронном архиве до переноса всей значимой информации в аналитическую БД (ФИО, адресов, ИНН, КПП, дат, номеров документов-приложений и т.д.).

Свои правила индексирования применяются в музеях, библиотеках и архивах при оцифровке единиц хранения и учетных документов. Отдельным направлением услуг также является векторизация, которая применяется, в частности, при оцифровке каротажных лент (автоматическая) и чертежей (ручная отрисовка в CAD-системах).

Сколько данных извлекать?Ответ на этот вопрос также лучше получить, воспользовавшись экспертизой, так как количество извлекаемых реквизитов зависит от функциональной задачи и в значительной мере определяет стоимость оцифровки. В некоторых случаях можно ограничиться подборками документов, когда электронные образы объединяются под эгидой основного документа (например, договора или реестра счетов). В других необходимо извлечение всех содержащихся в документе данных для заполнения карточки информационной системы.

Примеры извлекаемых данных

Анализ размещенных на портале zakupki.gov.ru заказов компаний с государственным участием и госучреждений (44-ФЗ, 223-ФЗ), показывает, что:

– Для привязки электронных копий ОРД к системе электронного документооборота достаточно номера, даты и типа документа.

– Сканирование финансовой документации часто сопровождается извлечением номера, даты, наименований и реквизитов плательщиков, сумм.

– Оцифровка архивных документов муниципалитетов (постановления администраций, горисполкомов, сельсоветов и т.д.) в целях оказания услуг и инвентаризации объектов земельно-имущественных отношений требует извлечения номера и даты документа, всех встречаемых ФИО и адресов. Причем адреса необходимо сопоставлять с текущими справочниками КЛАДР/ФИАС.

– Оцифровка документов Архивного фонда РФ сопровождается строгим заполнением НСА и описанием фондов в соответствии с архивным законодательством.

– Индексирование описей и реестров подразумевает распознаванием всех порядковых записей.

– Для работы с чертежами в электронном виде необходимо извлечь практически все поля штампа.

– Сканирование составных дел требует не только извлечения реквизита каждого документа, но и установления взаимосвязей. Наиболее сложен случай конструкторской документации, где формируемая база данных обладает многоуровневой иерархией и связями документов.

И.Е. Хворова

Процесс оцифровки документов для создания электронного архива

Статья посвящена процессу оцифровки - наиболее удобному механизму сохранения и использования информации в современных условиях. Автор рассматривает основные моменты процесса оцифровки архивных материалов, включая анализ возможных способов переведения документов в электронный вид, категории документов для оцифровки, форматы хранения электронных документов и исследование современных стандартов оцифровки. Также в статье анализируются необходимые условия для создания виртуального архива исторической персоналии или события в современном контексте. Особое внимание автор уделяет особенностям организации электронного ресурса, исследует существующие современные проекты по данной тематике и анализирует возможные трудности, с которыми может столкнуться исследователь при создании электронного архива.

Ключевые слова: оцифровка, архивный документ, электронный фонд пользования, виртуальный архив.

Реалии современной жизни все чаще требуют от нас активного использования новых информационных технологий. Информационная эпоха вносит свои коррективы также и в мир диалога архивных источников и исследователя. Современные цифровые технологии позволяют осуществлять самые глобальные идеи по созданию альтернативного поля хранения - хранения документов в виртуальной плоскости.

Оцифровка архивных документов на сегодняшний день является наиболее удобным инструментом для сохранения и использования информации. Она дает возможность для безопасного и более экономичного хранения, удобного поиска и использования

© Хворова И.Е., 2017

информации, а также для оперативного доступа к материалам архива. Процесс оцифровки документов основывается на идее формирования единого электронного фонда пользования (далее -ЭФП). ЭФП представляет собой совокупность электронных копий архивных документов, которые записаны на цифровые носители и предназначены для использования вместо подлинников документов1. Важным моментом при создании ЭФП является необходимость регламентации процесса его создания.

По мнению заместителя руководителя Федерального архивного агентства О.В. Наумова, основные цели оцифровки документов заключаются в расширении и упрощении доступа к документам архивного фонда, обеспечении сохранности подлинников путем постепенного вывода их из оборота использования, предоставлении доступа к электронному фонду, а также в ускорении процесса предоставления государственных услуг2.

Рассмотрим основные моменты процесса оцифровки. Прежде всего, необходимо учитывать, что архивный фонд Российской Федерации хранит обширный документальный массив. Таким образом, прежде чем начать сканирование самих документов, целесообразно провести оцифровку научно-справочного аппарата архива, создать электронные описи для поиска данных. Первоначальная оцифровка описей архива дает возможность пользователю не выходя из дома познакомиться с перечнем хранящихся документов и заказать интересующие документы по Интернету. При этом необходимо также учитывать факт научно-технической редакции заголовков дел - только если опись усовершенствована, можно начинать оцифровку фонда.

Категории документов для оцифровки включают в себя не только документы, для которых существует угроза утраты информации, но также наиболее ценные, уникальные материалы и востребованные документы. Критерии документов об уникальности и ценности документов несколько размыты, а востребованность не является постоянной величиной, поэтому при выборе материалов оцифровки часто возникает вопрос: какие документы необходимо переводить в цифровой вид в первую очередь? Возможно, добиться более результативной выборки будет проще, если в процессе отбора примут участие не только члены экспертной комиссии архива, но также и привлеченные профессионалы - историки, политологи, социологи, общественные деятели и др. Процесс создания такой рабочей группы требует четкой регламентации. Следует отметить, что, несмотря на сформулированные критерии отбора3, они не являются обязательными и региональные архивы

вправе сами выбирать те документы, которые нужно оцифровать в первую очередь.

Выбор способа оцифровки важен, так как носитель и формат представления материала также несет полезную для работы исследователя информацию, поэтому очень важно передать ее в наиболее точной, сопоставимой с подлинником форме.

В непосредственной оцифровке документов важно соблюдать все меры безопасности при работе с подлинником, особенное внимание необходимо уделить при сканировании книг и древних актов (свет, принтер, поведение специалиста при оцифровке должны соответствовать принятым нормам). В данном этапе ключевую роль играют финансовые возможности проекта по оцифровке - выбор оборудования для сканирования определяет степень безопасности этого процесса для подлинника. Выбор более экономичного аппаратного устройства неизбежно влечет за собой риск нанести непоправимый вред документам, а также сокращает шансы на создание сопоставимой, полноцветно заменяющей подлинник копии4.

При оцифровке документа делается минимум две копии подлинника - рабочая копия и мастер-копия. Оба материала должны быть замаркированы и зарегистрированы в специальном реестре. Благодаря такой системе регистрации поиск отсканированного документа будет более быстрым и комфортным для пользователя, а учетные данные позволят легко отслеживать документ в общей информационной системе архива.

Среди форматов хранения изображений наибольшее распространение у архивистов получили форматы TIFF и JPEG. Формат TIFF своей популярностью обязан возможности сохранения качества изображения благодаря алгоритмам сжатия данных без потерь. Формат JPEG обладает возможностью высокой степени сжатия, но при этом происходит потеря качества изображения. Изменения могут быть незаметны невооруженным взглядом, но сжатое изображение будет отличаться резкими контрастами или пикселями. Поэтому JPEG нельзя использовать как промежуточный формат при обработке изображений. В JPEG допустимо сохранять лишь окончательный вариант. Что касается других разновидностей электронных документов и наиболее предпочтительных форматов их хранения, то существуют текстовые документы (ms-word, txt, pdf, html, xml, rtf), видео (mov, avi, mpeg, mp4) и аудио (wav, aiff, mp3), чертежи (autocad), графики и схемы (tiff, pcx), БД в виде электронных таблиц и реляционных баз данных (xls, xml, html, mdb). Для фотодокументов также приемлем формат pdf. Полученный массив данных может использоваться для передачи по цифровым каналам,

сохраняться на цифровом оптическом носителе (однократно записываемые CD-R, DVD-R, многократно записываемые CD-RW, DVD-RW, DVD-RAW диски), магнитном (жесткие диски, гибкие магнитные диски, магнитные ленты), Flash-накопителях и т. д.

Требования к качеству получаемых цифровых копий четко не сформулированы. Отсутствуют критерии оценки качества электронных копий бумажных документов: параметры изображения, тоновое воспроизведение (контрастность), яркость, шум, точность цветопередачи, резкость, разрешение, геометрические искажения и др. За рубежом уже используется ряд документов, опыт которых в области оценки качества оцифрованных документов был бы полезен для России. Национальный стандарт США ANSI/AIIM MS44 «Руководящие указания для контроля качества сканеров изображений» устанавливает и раскрывает базовую терминологию, основные параметры и критерии оценки качества сканирования, а также подходы к их практическому измерению. На его основе с учетом современных требований в 2000 г. были разработаны международные стандарты ISO для оценки качества сканирования черно-белых документов.

После оцифровки подлинник возвращается обратно на хранение в архив, а сделанные копии пополняют электронный фонд пользователя и становятся доступными для исследователей.

Поиск решения проблемы хранения и оперативного использования архивных документов начался еще в середине 1990-х гг., когда Библиотека Конгресса США приступила к тотальной оцифровке имеющегося собрания микрофильмов (как самостоятельной коллекции и как основного носителя страхового и пользовательского фондов). В процессе оцифровки американские специалисты столкнулись с необходимостью выработки единых подходов к реализации процессов перевода информации с материальных носителей в электронный вид, т. е. возникла необходимость в регламентации процессов оцифровки.

Современные стандарты оцифровки по уровню их регламентации можно разделить на 3 категории стандартов: международный, национальный и стандарт организации. Международный стандарт ISo5 разрабатывается группой ученых, его использование дает технологическое, экономическое и социальное преимущества, но не является обязательным ни для одной страны - участницы организации ISO. Национальный стандарт является обязательным для использования органами государственной власти различных уровней, он разрабатывается для улучшения процедуры оцифровки с учетом особенностей законодательства, стандартов документа-

ции в определенной стране. Стандарт организации подчеркивает специфику конкретной компании в процессе перевода документа в электронный вид и его последующее хранение и использование. Наиболее известным национальным стандартом, регламентирующим процессы оцифровки, является «Стандарт оцифровки S6» (S6: Digitisation Standard)6, введенный в действие национальным комитетом по стандартизации Австралии и Новой Зеландии в 2006 г.7 К сожалению, в России нет аналогичного документа, регламентирующего процессы оцифровки и создания ЭФП.

В 2012 г. сотрудниками Всероссийского научно-исследовательского института документоведения и архивного дела (ВНИИДАД) и Федерального архивного агентства (Росархив) были разработаны «Методические рекомендации по электронному копированию архивных документов и управлению полученным информационным массивом». Моделью для этих рекомендаций стали «Стандарт оцифровки S6» и «Технические рекомендации» FADGI. В целях продолжения работ в данном направлении представляется целесообразным выработать Стратегию разработки и обновления отраслевых нормативно-методических актов, регламентирующих различные направления деятельности в области информатизации архивного дела, а также создать регламент и перспективный план по ее реализации. Разработчиками были выделены ключевые моменты, которые необходимо учитывать при подготовке регламентирующего документа.

1. Структура и содержание разработанных и введенных в действие документов международных и национальных систем стандартизации обусловлены спецификой правовой базы той страны, где они возникли. Поэтому их прямой перевод и использование в Российской Федерации требуют взвешенного подхода.

2. Необходимо создание не одного нормативного документа, регламентирующего вопросы оцифровки, а комплекса нормативно-правовых актов, описывающих требования ко всем этапам и аспектам этого процесса.

3. Структура и общее содержание этой нормативно-методической документации могут быть построены на зарубежных аналогах, выбранных экспертами отрасли в качестве примеров, наиболее близких и адекватных российским условиям. При этом отечественные разработки должны в полном объеме отражать специфику всех процессов и аспектов оцифровки (включая требование к оборудованию, персоналу, процедурам и менеджменту качества), присущую России8.

Оцифровка документов - необходимая мера для организации оперативного доступа к документам архива. Наличие определенно-

го массива документов позволяет создать новый, комфортный для пользователя, научно полезный информационный ресурс - виртуальный архив. Примеры таких виртуальных хранилищ можно увидеть на сайте Российского государственного архива литературы и искусства.

Виртуальный архив И.А. Бунина представляет собой ресурс с удобной классификацией представляемых документов и комфортным для пользователя интерфейсом. Документы разделены на три группы: «Рукописи», «Вырезки из газет и журналов», «Изобразительные материалы» и представляют собой сканированные копии подлинников фондов Российского государственного архива литературы и искусства и Архива русского зарубежья в г. Лидсе9. Разработчики проекта обозначают ключевые моменты по реализации подобных проектов: финансовые вопросы, проблема разобщенности архивных документов и необходимость переговоров с хранилищами разных учреждений и даже стран для сбора необходимого материала и, наконец, решение вопросов юридического характера - так как на электронную публикацию материалов также распространяется авторское право. Ресурс представляет собой положительный пример реализации проекта по созданию виртуального архива. Сайт Российского государственного архива литературы и искусства также предлагает ознакомиться с такими прекрасными примерами электронных хранилищ, как ресурс, посвященный документам Отечественной войны 1812 г. и Первой мировой войны.

Создателями электронного хранилища под названием «Воссоединенный виртуальный архив Осипа Мандельштама» стали Оксфордский университет и Мандельштамовское общество. Разработчики проекта ставили целью выявить, описать и разместить в Интернете все или максимально большое количество сохранившихся творческих и биографических материалов Осипа Мандельштама независимо от места их физического расположения10. При этом в проекте объединяются рукописи, транскрипты текстов, а также комментарии к ним.

Поиски документов - важнейший этап при создании такого рода проектов. Этот процесс осложняется тем, что некоторых из ранее известных и введенных в научный оборот коллекций, возможно, более не существует. Попав в продажу в 1990-е гг., они поменяли владельцев, даже имена которых не всегда возможно установить. В иных случаях владельцы оказываются не в состоянии обнаружить те или иные автографы или документы. Это вполне объясняется тем, что комплектование архивно-рукописных фондов документами

деятелей русского зарубежья осуществлялось в основном путем дарения и не носило систематического характера11. Разработчики отмечают, что то же самое случается и с государственными архивами. Так, в Национальном архиве Франции на протяжении ряда лет не могли найти матрикуляционные документы О.Э. Мандельштама (они были заново обнаружены в апреле 2008 г.)12.

Важно отметить, что виртуальный архив О.Э. Мандельштама не только являет собой удачный пример реализации подобного проекта, но также, благодаря подробному описанию процесса создания такого архива на сайте, представляет своеобразное учебное пособие для продолжателей и исследователей процесса оцифровки.

Анализ реализованных российских проектов по созданию виртуальных хранилищ исторических материалов подчеркивает проблему разобщенности документов и сложность их поиска. Таким образом, при подготовке проекта важно акцентировать внимание на возможном сотрудничестве с зарубежными архивами.

Таким образом, возрастает роль совместных работ, совместных проектов по созданию единого виртуального поля хранения материалов одной тематики.

При оцифровке необходимо уделять внимание процессу выборки документов для перевода их в цифровой вид, а также подбору качественного сканирующего оборудования для обеспечения безопасного для подлинников процесса оцифровки. Однако на данный момент одним из самых серьезных вопросов в этой тематике остается необходимость регламентации процесса оцифровки (включая подробное описание процесса выборки материалов и закрепление терминологической базы). Без соответствующего, утвержденного законом стандарта процесс создания виртуального архива остается трудоемким и недостижимым для большинства исследователей.

Примечания

Методические рекомендации по электронному копированию архивных документов и управлению полученным информационным массивом. [Электронный ресурс] URL: http://archives.ru/documents/rekomend_el-copy-archival-documents/razdel-2.shtml (дата обращения: 13.05.2016). Особенности оцифровки документов в современных архивах. [Электронный ресурс] URL: https://www.pcweek.ru/ecm/article/detail.php7ID-154329 (дата обращения: 13.05.2016).

Юмашева Ю.Ю. Архивы и «цифровая гонка вооружений» // Историческая информатика. 2013. № 3. С. 93.

ИСО - Международная организация по стандартизации. Разработчик и издатель международных стандартов. [Электронный ресурс] URL: http://www.iso. org/iso/ru/ (дата обращения: 13.05.2016).

Отчет о научно-исследовательской работе по теме 2.2.4 «Разработка проекта отраслевого стандарта создания электронных копий архивных документов», Плана научно-исследовательской и опытно-конструкторской работы, выполняемой на основе государственного задания Федерального архивного агентства на 2014 г. № 89 от 26.12.2013 (первый этап) «Исследование и анализ зарубежной нормативно-методической документации, регулирующей вопросы оцифровки архивных документов» / Ю.Ю. Юмашева. М.: ВНИИДАД, 2012. С. 84-163. Там же. С. 20.

Объединенный электронный архив Ивана Бунина. [Электронный ресурс] URL: http://www.bunin-rgali.ru/ (дата обращения: 13.05.2016). Воссоединенный виртуальный архив Осипа Мандельштама. [Электронный ресурс] URL: http://mandelstam-world.info/intro.php (дата обращения: 13.05.2016).

Попов А.В. Русское зарубежье и архивы: Документы российской эмиграции в архивах Москвы: проблемы выявления, комплектования, описания и использования (Материалы к истории русской политической эмиграции. Вып. 4). М.: РГГУ, 1998. С. 150-151.

Воссоединенный виртуальный архив Осипа Мандельштама.

Чем о более крупной организации, компании идет речь, тем больше хранится документов в ее архиве, тем сложнее ее документооборот, тем более привлекательно выглядят услуги по оцифровке архивов. Итак, что такое оцифровка архивов - это процесс по сканированию и каталогизации документов.

Неудобства при работе с бумажными архивами

Так, в больших архивах на поиск нужного документа очень часто приходится тратить много времени сил. Кроме того, наиболее часто используемые документы со временем могут быть повреждены или вообще "потеряны", если их ошибочно расположили в архиве. Нередко в любом виде бизнеса случаются ситуации, когда требуется высокая оперативность в предоставлении информации: бывает нужно быстро подготовить документы для подписания, сделать бумажные или цифровые копии, аккуратно сброшюровать - при работе с бумажными архивами оперативность теряется. Это далеко не полный перечень неудобств, с которыми приходится сталкиваться при работе с бумажными архивами. Но при этом существует достаточно простой и элегантный способ решения проблемы - оцифровка документов.

Преимущества оцифровки архивов?

  • стоит отметить уменьшение нагрузки на бумажные архивы, а также на участок ксерокопирования. Так, теперь если одновременно нескольким сотрудникам организации понадобился один документ, его совершенно не обязательно ксерокопировать.
  • оцифровка документов позволяет существенно сократить расходы на содержание бумажного архива, а также высвободить некоторую площадь, ранее используемую под хранение бумажных архивов.

Как происходит процесс оцифровки документов?

  • Специально обученные специалисты занимаются сортировкой документов (на территории вашей компании или доставляют их на территорию организации, занимающейся оцифровкой архивов), затем с помощью современных сканеров производят оцифровку архивного фонда в полном объеме или отдельных документов.
  • Штрих-коды и печатные документы системой оптического распознавания символов автоматически переводятся в электронный вид. При этом сохраняются ключевые реквизиты документов: название, дата, тип, контрагент и так далее.
  • Для того, чтобы избежать возможного искажения при перепечатывании контактных данных, телефонов для оцифровки рукописной информации при оцифровке архивов применяется система двойного ввода. То есть, оцифровка документов в будущем даст вам возможность осуществлять полноценный оперативный поиск по ключевыми словам или поиск по определенным типам документов/контрагентам.

Управление файлами

Электронные архивы позволяют управлять файлами, полученными в результате сканирования. После оцифровки архивов бумажные документы подлежат систематизации и описанию. Они брошюруются, составляется систематизированный полный каталог документов с учетом потребностей и специфики компании-заказчика. Это позволяет в дальнейшем существенно экономить силы и время при работе с архивами.

Работы по оцифровке архивов