Аналитический центр работает над методикой оценки и повышения качества данных

30 июля 2019

Аналитический центр представил на экспертное обсуждение проект методики оценки и повышения качества данных. Документ является частью методологии Национальной системы управления данными (НСУД) и разработан в рамках реализации федерального проекта «Государственное цифровое управление» национальной программы «Цифровая экономика».

Методика позволяет оценить качество данных, которые находятся в информационном ресурсе. При этом из нее исключен параметр безопасности, который скорее применим к информационной системе в целом, чем к собственно данным.

Авторы документа выделили 14 параметров, касающихся качества данных, 7 из которых имеют измеримые значения: покрытие, полнота, точность, своевременность, согласованность, целостность, уникальность.

«Эти параметры имеют различное значение для различных информационных ресурсов. Для одних важны точность и полнота, а есть ситуации, когда в приоритете скорость и своевременность – например, в случае чрезвычайной ситуации», – рассказал начальник Управления методологического сопровождения работы с данными Аналитического центра Александр Малахов.

Эксперт подчеркнул, что методика – это только один из серии разрабатываемых документов: «В ней вопросы критериев, оценки и повышения качества данных сосредоточены на оценке конкретного информационного ресурса. Соответственно, не рассматриваются вопросы, которые возникают к системе не согласованных между собой информационных ресурсов, существующих в сфере госуправления».

Сейчас в документе учтены 4 базовых шага по оценке качества: оценка информационного ресурса (делается на базе анализа нормативно-правовых актов), камеральное исследование, получение массива данных (проводится проверка параметров качества и проводится анализ инцидентов) и выгрузка ошибок (в рамках полной выгрузки отчета и его проверки на параметры).

В итоге такого анализа получается отчет по текущему состоянию ресурса. Однако вопрос оценки качества данных – это вопрос постоянной деятельности, подчеркнул Малахов, добавив, что к каждому информационному ресурсу выделенные параметры могут применяться по-разному, влияя на итоговую оценку.

В ходе обсуждения эксперты высказали различные предложения в части уточнения методики. Так, замдиректора Департамента статистики и управления данными – директор Центра управления данными Банка России Ирина Пантина предложила выделить 2 фазы оценки качества данных: на этапе подключения информационного ресурса к НСУД, предполагающем использование схожих метрик, методик и типов взаимодействия с источниками, а затем – по метрикам, критериям и показателям качества, которые будут оцениваться в регулярном режиме.

Начальник Управления статистики образования, науки и инноваций Росстата Ольга Дудорова предложила учесть в методике подходы, используемые в Системе многомерного анализа данных (СМАД).

Директор Департамента информационных технологий и обеспечения проектной деятельности Минтруда России Ярослав Омелай заметил, что представленной методике не хватает характеристики данных, которая бы свидетельствовала о том, что это данные первичные или производные. «Важно оценивать ресурс с точки зрения того, первичные ли это данные и участвуют ли данные в реальных процессах. Если данные не применяются, то они никогда не будут полными и качественными», – пояснил он. 

Также в ходе дискуссии высказались представители Росгидромета, ФСИН, ФСО, Минобороны России и других ведомств и организаций.

Доработанный вариант методики будет опубликован в августе.