НСУД решит проблемы работы с большими государственными данными

29 мая 2019

«Ценность больших данных – в возможности на их основе принимать решения, а значит особое значение имеют модели, особенно используемые в предиктивной аналитике», - сказал начальник Управления методологического сопровождения работы с данными Аналитического центра Александр Малахов, выступая на конференции ЦИПР-2019.

Эксперт принял участие в сессиях, где обсуждались технологии хранения и анализа больших данных для цифровой экономики и «дорожная карта» по большим данным.

Малахов считает, что сегодня технологии больших данных повторно переживают период завышенных ожиданий в соответствии с кривой «Ажиотажа» (кривой хайпа или кривой Гартнера), связанных с развитием технологий машинного обучения и искусственного интеллекта. А значит, необходимо не только переосмыслить сам термин «большие данные», но и решить ряд возникающих проблем.

По его мнению, наиболее релевантное определение больших данных, основанное на фактически решаемых с их помощью задачах, звучит следующим образом: «Большие данные – это способ обработки данных, основанный на поиске и построении верной корреляционной модели данных при условии, что данные, подвергаемые такой обработке, не являются полно-нормализованными и полно-связными. При этом достоверность связности находится в узком коридоре от 70 до 90%».

«Большие данные – это способ обработки данных, основанный на поиске и построении верной корреляционной модели данных при условии, что данные, подвергаемые такой обработке, не являются полно-нормализованными и полно-связными. При этом достоверность связности находится в узком коридоре от 70 до 90%»

Эксперт также перечислил проблемы, возникающие при работе с большими данными.

Смешение понятий и технологий. При отнесении деятельности или проекта к анализу «больших данных» не следует смешивать технологии БД (типа Hoodup, MapReduce или Hive), технологии машинного обучения и решаемые задачи.

Технико-экономическая эффективность или Ошибка выбора технологии. Информационные технологии решают задачи автоматизации технологических процессов, а значит, сначала должна быть поставлена задача, а затем выбраны способы ее решения.

Ложная корреляция. Эффект возникает, когда две независимых друг от друга величины меняются синхронно или почти синхронно. Попытка вычислить коэффициент корреляции дает очень высокое и часто достоверное значение, что может подтолкнуть к ложным выводам о наличии причинно-следственной связи между явлениями.

Проблемы качества данных. «В России отсутствуют практики накопления больших данных, при этом качество данных оставляет желать лучшего из-за наличия искажений (выбросов) и недостаточной глубины. Таким образом, требуется значительно расширить наборы данных для анализа, но такой возможности нет, т.к. в связи с защитой персональных данных в нашей стране практически отсутствует рынок купли-продажи информации в виде бирж данных (Data Exchange).

«На уровне государственных данных указанные проблемы планируется решать в рамках создания Национальной системы управления данными, - отметил Малахов. - В частности, создаются федеративная модель данных (объединение моделей данных органов власти, предметных областей и корреляционных моделей высокого уровня достоверности), каталог моделей данных, а также каталог источников данных (реестры видов данных / метаданных)».

Конференция «Цифровая индустрия промышленной России» прошла 22-24 мая с.г. в Иннополисе (Татарстан) при поддержке Аналитического центра при Правительстве Российской Федерации.

Читайте также:

16.04.2019 - Государство не собирается продавать данные