nnfn.ru

Оптическое Распознавание Символов

    Образование - Анализ Почерка - Оптическое Распознавание Символов

    UttA | Просмотров: 896



    Технологии оптического распознавания символов все еще является областью, где требуются обширные исследования. Вот немного информации о том, что это, проблемы, связанные, и технологию шаги к своему совершенству.
    Оптическое Распознавание символов (OCR) - это способ изготовления печатных, машинописных или рукописных данных понятный и читаемый с помощью компьютера. Намерение ОРЗ является хранение данных в цифровом формате, из которого его можно редактировать на компьютере и, самое главное, сделать доступным с ключевыми словами. Процесс обычно включает в себя расшифровку данных по машине, превращая его в машиночитаемый формат, и затем хранить его.

    Как это делается?

    Первый шаг для сканирования и обработки документов. Затем, слоем текста OCR (оптического распознавания символов) добавляется за каждый образ, который присутствует в отсканированный документ. Для того, чтобы убедиться в том, что символы не распознаются, другой фильтр может быть использован в сочетании с первым.

    С фильтрами на месте, отдельные символы определены из словаря, которая присутствует в программном обеспечении. Процесс поиска по шаблону с заранее-существующий в словарь, чтобы выяснить, что символ означает. Затем он преобразуется в читаемый текст. Текст-это то, что видно пользователю и это результат ОРЗ.

    Если документ слишком нечеткими, наукоемкие технологии, такие как мульти-легкий захват изображения технология может быть использована. Это также полезно, когда документ имеет тени на нем из-за складчатых областей страницы.

    Проблемы в ОРЗ

    Преимущества ОРЗ, очевидно, вполне понятно, но есть еще много улучшений, чтобы сделать в области. Это не точная наука, и каждый отсканированный документ изобилует несколько ошибок. Есть много причин, почему совершенство оказывается недостижимой:
    Люди имеют очень разные стили написания. Чтобы добавить к этому, большинство людей не писать с той же скоростью, лаконизм и плотность чернил. Как правило, нет похожие картины, которые можно различить между стилями написания двух разных людей. Что делает его очень трудно для любого программного обеспечения, чтобы распознавать общие закономерности. Сегодня, OCR работает намного лучше для дискретной записи, чем для скорописи. В stringier почерк, тем сложнее определить для программного обеспечения.
    OCR работает хорошо только если буквы четко различимы. Это связано с большим количеством вещей, с цветом и аккуратностью бумаги, на которой он напечатан на ветхой бумаге. Очень трудно определить символы на грязной и перепачканной бумаги.
    Другая проблема может быть в неровности бумаги, на которой этот вопрос должен быть признан присутствует. Бумага может быть мятые или если это страница из книги, он будет очень трудно определить буквы, которые присутствуют в центральной части книги, где тени могут быть созданы за счет внутреннего наклона.
    Майор, не все же, найти общий язык для всех форм OCR для распознавания моделей в тексте. Большинство методов предполагают использование нескольких кодированных символов для достижения распознавания символов. Любой успех достигнут, за счет создание этих символических моделей.
    Где ОРЗ направляетесь сегодня?

    Как упоминалось ранее, он еще не достиг совершенства. Пользователи должны быть готовы к несколько ошибок. Именно поэтому ОРЗ всегда следует за человеческий комментарий.

    Поскольку ОРЗ пытается заниматься абсолютно разными видами материала, успехи в различных областях слишком сильно отличается.
    В идентификации текста: среди написанных скриптов, понимание латинского алфавита было отточено практически до совершенства. Есть лишь 1% ошибка в Латинской признание, как латинский алфавиты проще (с меньшим количеством росчерков, кривых и прямых линий), чем другие, используемые во всем мире. Скрипты, такие как китайцы очень сложных для распознавания. Печатный текст лучше, чем рукописный текст.
    В идентификации музыки: музыкальная индустрия пыталась удалить строки с листа музыка, чтобы включить его для распознавания. Это дало достаточной степенью успеха. Однако, это очень трудно понять рукописных нот. Окончательный Photoscore 5 из Neuratron является единственным приложением в мире, что делает его. Но выход даже не близко к идеалу.
    В идентификационные магнитные чернила магнитные чернила идентификационный символ является очень важным в банках, где проверки должны быть обработаны. Есть специальные шрифты, такие как e-13b и ККМ-7, который вновь используется для этого процесса. Этот вид идентификации имеет высокую степень достоверности в реальным делом.
    Еще одна область, где OCR является очень важным, прям руки-входные данные, такие как, что написано пером наладонный. Сегодня, многие компании усовершенствовали эту технологию, но многое зависит от того, как равномерно человек может написать. Обучение может быть необходимо, прежде всего, для операционной системы, чтобы понять стиль письма лица, и потом, Автор, возможно, придется изменить некоторые вещи для ОС, чтобы понять. Эта техника известна как интеллектуальное Распознавание символов (ICR) и сегодня достаточно широко используется.


    Комментарии


    Ваше имя:

    Комментарий:

    ответьте цифрой: дeвять + пять =



    Оптическое Распознавание Символов
Оптическое Распознавание Символов Оптическое Распознавание Символов