МИНИСТЕРСТВО КУЛЬТУРЫ И ТУРИЗМА УКРАИНЫ
ХАРЬКОВСКАЯ ГОСУДАРСТВЕННАЯ АКАДЕМИЯ КУЛЬТУРЫ
Кафедра информационных технологий
Курсовая работа по дисциплине «Электронный документооборот»
ВВОД СТАНДАРТНЫХ ФОРМ И ФОРМАТИРОВАННЫХ ДОКУМЕНТОВ
Харьков-2009
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
РАЗДЕЛ 1 СТАНДАРТНЫЕ ФОРМЫ И ИХ КЛАССИФИКАЦИЯ
1.1 Понятие и признаки классификации стандартных форм
1.2 Типы стандартных форм в зависимости от применения
Выводы к разделу 1
РАЗДЕЛ 2 ВВОД И ОБРАБОТКА СТАНДАРТНЫХ ФОРМ
2.1 Этапы ввода и обработки форматированных документов
2.2 Основные принципы потокового ввода форм
2.3Требования к системам массового ввода стандартных форм
2.4 Подходы к реализации систем обработки форм
Выводы к разделу 2
РАЗДЕЛ 3 СИСТЕМЫ МАССОВОГО ВВОДА СТАНДАРТНЫХ ФОРМ
3.1 Система ABBYY Fine Reader Form
3.2 Система Cognitive Forms
Выводы к разделу 3
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ВВЕДЕНИЕ
В последнее время проблема массового ввода данных стала особо актуальной. Число документов постоянно растёт, а вместе с ними увеличиваются проблемы по вводу и обработке больших объёмов данных в вычислительных системах. Необходимость обработки структурированных и неструктурированных форм документов, изначально выполненных на бумаге, возникает в деятельности большого количества государственных, акционерных и частных предприятий. Стало очевидно, что для организации управления и контроля необходимо, чтобы любая информационная единица, порожденная на уровне отдельного гражданина или отдельного предприятия, сразу оказалась в информационной системе и была доступна в любой момент для анализа и обобщения. По мировой статистике приблизительно 80% всех документов, используемых в бизнесе, составляют формы. Они возникают практически в любом бизнесе, связанном с обслуживанием клиентов, а также в деятельности государственных органов, занятых сбором данных о физических и юридических лицах. Таким образом, существует необходимость автоматизации и повсеместного внедрения систем массового ввода форм, что существенно облегчит их обработку. Как следствие, повысится производительность и эффективность работы предприятий и организаций вцелом.
Объектом исследования являются стандартные формы.
Предмет исследования ввод стандартных форм и форматированных документов.
Цель исследования рассмотрение принципов ввода и обработки стандартных форм.
Задачи исследования:
- Проанализировать основную литературу по теме курсовой работы.
- Определить понятие и классификацию стандартных форм.
- Рассмотреть основные этапы ввода и обработки форматированных документов.
- Установить основные требования к системам массового ввода форм.
- Рассмотреть системы массового ввода форм, разработанные различными фирмами.
Методика исследования системный анализ литературных источников и Интернет сайтов.
Основные работы, посвящённые данной теме это источники 1, 3, 4, 10, 11, 13. Сущность понятия «стандартная форма» изложено в источниках 10, 13. В источнике 1 описаны признаки стандартных форм, положенные в основу их классификации. Применение стандартных форм и их типология, в зависимости от применения в той или иной области управления, приведено в источниках 1, 7, 8, 11. Этапы ввода и обработки форматированных документов рассмотрены в источниках 1, 2, 10, 11, 13. Более подробно этап сканирования изложен в источнике 1, сегментация и технологии распознавания в источниках 1, 10, 11. Принципы потокового ввода стандартных форм освящены в источнике 3. Требования к системам массового ввода и обработки стандартных форм, а также подходы к их реализации рассмотрены в источниках 1, 2, 11. Компании, предлагающие решения по разработке систем массового ввода стандартных форм и спешность их разработок описаны в источниках 3-6, 10, 11, 13-15.
Тема достаточно полно освящена на сайтах Интернет, книг и статей по данной теме очень мало.
1 СТАНДАРТНЫЕ ФОРМЫ И ИХ КЛАССИФИКАЦИЯ
1.1 Понятие и признаки классификации стандартных форм
Стандартные формы однотипные документы, используемые главным образом в крупных организациях, связанных с массовым обслуживанием клиентов. Для удобства их обработки, информация, содержащая ответ на один и тот же вопрос, в разных документах заносится в фиксированное по отношению к границам документа поле.
Основные отличия стандартной формы это одинаковый размер документов и фиксированное положение линий разграфки [10].
На Западе вместо понятия «система обработки форм» используется термин «Document Capturing» (т.е. захват документа). В общем приближении рынок Document Capturing (только его программная часть) в мире оценивается примерно в 300 млн. долл., при этом довольно быстро развиваясь.
Сущность системы обработки форм сводится к распознаванию документа определенного формата в общем случае с печатным или рукопечатным заполнением. Задача распознавания состоит в нахождении неких известных полей, а результатом работы программы обычно является не просто текстовый документ, а определенная запись в некоторой базе данных [13].
Основой классификации стандартных форм могут служить следующие признаки:
1 признак способ нанесения информации (печатный текст, рукописный текст, метки).
Способ нанесения информации определяет выбор технологии распознавания.
Метки, печатный и рукописный тексты могут применяться в документах как единственный вид информации или в любом взаимном сочетании. Так, избирательные бюллетени используют меточный способ, в то время как прайс-листы печатный, а анкеты в основном рукописный и меточный.
2 признак геометрическая вариативность полей.
Расположение всех полей и записей в них должно быть строго фиксировано относительно опорных элементов: рамок, линий, постоянных напечатанных записей, специальных маркеров.
Все специально подготовленные для машинной обработки документы обладают этим качеством.
3 признак наличие явных разделителей полей.
Этот признак часто присутствует в таблицах и играет существенную роль в выделении значимых полей [1].
На Западе существуют определённые стандарты и правила по заполнению значимых полей форм, что в последующем облегчает их обработку. Так, например, немецкие компании CGK, AEG имеют свои правила заполнения стандартных форм, которых обязаны придерживаться их клиенты. В частности в этих системах линии разграфки документов наносятся иным цветом (например, красным или зеленым) по сравнению с цветом заполнителя. Это делается для того, чтобы удалить линии еще на этапе сканирования за счет установки цветового фильтра в сканирующее устройство [10].
1.2 Типы стандартных форм в зависимости от применения
Рынок применения систем обработки форм определяется спектром бизнес-приложений, в которых они используются. Как правило, эти бизнес-приложения занимаются обработкой циркулирующей между предприятием и его клиентами информации.
В качестве основных систем обработки форм можно выделить следующие:
1. Обработка факсов.
В мире ежегодно передаётся более 50 млрд факсимильных сообщений, и, хотя электронная почта вытесняет этот вид коммуникации, факс остаётся пока одним из ведущих средств обмена информацией. Главная проблема при работе с факсами обработка входящих факсимильных сообщений и автоматическое их распределение по получателям на базе информации, которая находится в заголовке сообщения. Для небольших предприятий это не является серьёзной проблемой. А для компаний с несколькими тысячами сотрудников, каждый из которых хотя бы раз в неделю получает одно сообщение это существенная проблема. Кроме обычных факсимильных сообщений компания также может принимать по факсу заказы и другую более важную бизнес-информацию.
2. Обработка государственных форм.
Государственными формами являются, например, налоговые декларации, платёжные поручения по оплате налогов и другие.
Правительства многих стран пытаются ускорить обработку поступающих отчётов от населения и компаний. В связи с увеличение численности населения и добавлением новых налогов государством, процесс обработки отчётов и контроля исполнения по платежам, которые должны соответствовать этим отчётам, превращается в кошмарную проблему. Решение этой проблемы реализуется набором дополнительного персонала, или грамотной автоматизацией процесса.
3. Обработка различных счетов и заказов на товары.
Так, например в США ежедневно обрабатывается 65 млн счетов при стоимости процесса в 125 млн долларов. Подсчитано, что применение технологий обработки форм сохраняет каждый день более 40 млн долларов.
В настоящее время заказы на товары всё больше становятся ориентированными на Internet, но всё же остаётся большой процент продаж по каталогам, по почте и т.д.
4. Маркетинговые исследования и опросы.
В качестве основного вида опроса можно привести систему, которая обрабатывает результаты голосования на выборах. В зависимости от избирательных законов, принятых в той или иной стране, размеры форм могут колебаться от одной до нескольких десятков страниц [1,8].
Существует большой класс задач, при решении которых необходимо вводить информацию из форм, полная станд