Аналитический центр при Правительстве Российской Федерации

Распознавание рукописного текста упростит работу государства с гражданами

Цифровые технологии улучшают многие процессы как в государственном, так и в корпоративном секторах, однако остаются сферы, процессы в которых еще не автоматизированы. Например, распознавание рукописных текстов. О том, в каких сферах может применяться цифровой анализ текстовых данных, и какие технологии для этого уже существуют, говорили на круглом столе, организованном Аналитическим центром.

«Мы видим запросы на распознавание рукописных текстов и в регионах, и в федеральных органах исполнительной власти. Проводя этот круглый стол, мы хотим выделить те бизнес-цели и задачи, которые можно решить совместными усилиями заказчиков, в лице ФОИВов, и бизнеса», - пояснил руководитель Аналитического управления Департамента управления данными АЦ Андрей Чукарин.

Руководитель лаборатории данных Департамента управления данными АЦ Сюзана Тевдорадзе добавила, что иногда при обработке данных часть рукописной информации не попадает в анализ. «Перед нами стоит задача по работе с обращениями граждан, которые приходят в органы исполнительной власти. Это неструктурированные тексты, написанные разными почерками, с неизвестным количеством опечаток и ошибок. Это может быть и электронный документ, и бумажный. Нам надо понять, какие существуют технологии для анализа таких документов», - пояснила эксперт.

Рынок распознавания рукописных текстов начал развиваться около 30 лет назад, когда появилась потребность в расшифровке отсканированных документов, рассказал генеральный директор компании «Parascript» Александр Филатов. Затем, по его словам, стали востребованы технологии верификации подписей, распознавания рукописных адресов и банковских чеков. «Сейчас показатель распознавания рукописных адресов – 96%. Результат зависит от того, насколько компания в нем заинтересована, потому что им надо накопить базу референсных данных», - пояснил Филатов. Он добавил, что одним из самых сложных направлений работы является обработка естественного языка. «Когда вы обрабатываете структурированные документы, у вас есть определенные шаблоны, которые помогают понять смысл написанного, а когда текст написан в свободной форме, определить, о чем он, – более сложная настройка», - объяснил эксперт.

Распознавание рукописного текста, в том числе детского почерка, может быть востребовано в системе образования, добавил исполнительный директор по исследованию данных Sber AI Денис Димитров. «Это не только упростит жизнь учителям, но в перспективе сделает возможным автоматическую проверку домашних работ», - пояснил Димитров.

Именно в этом направлении сейчас работает компания «Dbrain», рассказал ее генеральный директор Алексей Хахунов. «В год в России генерируется около 1 млрд рукописных школьных работ. На их проверку уходит почти 40% рабочего времени учителя. Мы хотим сделать так, чтобы учителям вообще не пришлось проверять работы школьников. Мы сделали систему, которая умеет распознавать 91% текста. ИИ учился на тетрадях школьников 5-11 классов», - отметил Хахунов. Он добавил, что также сейчас развиваются технологии, позволяющие распознавать рукописную часть ЕГЭ, автоматизировать ввод данных из документов физических лиц и анализировать почерк исторических деятелей.

Участники круглого стола отметили, что распознавание рукописного текста также может быть востребовано для анализа юридических документов и судебных протоколов.

1 из 9

Эксперты
Темы статьи