Eng

Аналитический центр при Правительстве Российской Федерации

НСУД решит проблемы работы с большими государственными данными

«Ценность больших данных – в возможности на их основе принимать решения, а значит особое значение имеют модели, особенно используемые в предиктивной аналитике», - сказал начальник Управления методологического сопровождения работы с данными Аналитического центра Александр Малахов, выступая на конференции ЦИПР-2019.

Эксперт принял участие в сессиях, где обсуждались технологии хранения и анализа больших данных для цифровой экономики и «дорожная карта» по большим данным.

Малахов считает, что сегодня технологии больших данных повторно переживают период завышенных ожиданий в соответствии с кривой «Ажиотажа» (кривой хайпа или кривой Гартнера), связанных с развитием технологий машинного обучения и искусственного интеллекта. А значит, необходимо не только переосмыслить сам термин «большие данные», но и решить ряд возникающих проблем.

По его мнению, наиболее релевантное определение больших данных, основанное на фактически решаемых с их помощью задачах, звучит следующим образом: «Большие данные – это способ обработки данных, основанный на поиске и построении верной корреляционной модели данных при условии, что данные, подвергаемые такой обработке, не являются полно-нормализованными и полно-связными. При этом достоверность связности находится в узком коридоре от 70 до 90%».

«Большие данные – это способ обработки данных, основанный на поиске и построении верной корреляционной модели данных при условии, что данные, подвергаемые такой обработке, не являются полно-нормализованными и полно-связными. При этом достоверность связности находится в узком коридоре от 70 до 90%»

Эксперт также перечислил проблемы, возникающие при работе с большими данными.

Смешение понятий и технологий. При отнесении деятельности или проекта к анализу «больших данных» не следует смешивать технологии БД (типа Hoodup, MapReduce или Hive), технологии машинного обучения и решаемые задачи.

Технико-экономическая эффективность или Ошибка выбора технологии. Информационные технологии решают задачи автоматизации технологических процессов, а значит, сначала должна быть поставлена задача, а затем выбраны способы ее решения.

Ложная корреляция. Эффект возникает, когда две независимых друг от друга величины меняются синхронно или почти синхронно. Попытка вычислить коэффициент корреляции дает очень высокое и часто достоверное значение, что может подтолкнуть к ложным выводам о наличии причинно-следственной связи между явлениями.

Проблемы качества данных. «В России отсутствуют практики накопления больших данных, при этом качество данных оставляет желать лучшего из-за наличия искажений (выбросов) и недостаточной глубины. Таким образом, требуется значительно расширить наборы данных для анализа, но такой возможности нет, т.к. в связи с защитой персональных данных в нашей стране практически отсутствует рынок купли-продажи информации в виде бирж данных (Data Exchange).

«На уровне государственных данных указанные проблемы планируется решать в рамках создания Национальной системы управления данными, - отметил Малахов. - В частности, создаются федеративная модель данных (объединение моделей данных органов власти, предметных областей и корреляционных моделей высокого уровня достоверности), каталог моделей данных, а также каталог источников данных (реестры видов данных / метаданных)».

Конференция «Цифровая индустрия промышленной России» прошла 22-24 мая с.г. в Иннополисе (Татарстан) при поддержке Аналитического центра при Правительстве Российской Федерации.

Темы статьи

Читайте также

Государство не собирается продавать данные

Государство не собирается продавать данные

«Государство не собирается продавать данные, его задача – обеспечить недискриминационный доступ к ним», - заявил руководитель Аналитического центра Владислав Онищенко, выступая на конференции «Телеком – 2019».