- Журнал | Как сделать использование открытых данных более эффективным?
- Порталы открытых данных не только помогают при поиске простых решений, но также дают возможность использовать данные ученым, разработчикам и другим специалистам в своей работе и проектах.
- После открытия этих данных стало ясно, что такие практики кредитования были полезны для штата.
- Почему открытые данные никому не нужны
- Невалидность данных
- Разрозненность данных и отсутствие стандартов
- Отсутствие единого механизма поиска
- Отсутствие API для доступа к данным
- Как можно исправить ситуацию
- О том, как устроены открытые данные в России
- Показатели качества публичных данных
- 1. Актуальность данных
- 2. Объективность данных
- 3. Целостность данных
- 4. Релевантность данных
- 5. Совместимость данных
- 6. Измеримость данных
- 7. Управляемость данных
- 8. Привязка к источнику данных
- 9. Доверие к поставщику данных
Журнал | Как сделать использование открытых данных более эффективным?
Использовать данные может каждый, независимо от навыков программирования или знания технологий. Все дело в доступности открытых данных. Что надо сделать, чтобы они стали доступны?
Сегодня все мы живем в век информации – нам не обязательно быть программистами или техническими специалистами, чтобы использовать открытые данные для поиска ответов на свои вопросы.
Порталы открытых данных не только помогают при поиске простых решений, но также дают возможность использовать данные ученым, разработчикам и другим специалистам в своей работе и проектах.
Эффективность использования открытых данных может быть достигнута только благодаря доступности данных для разных целевых аудиторий, будь то бизнес или образование, когда поиск станет простым даже для самого неподкованного пользователя.
Тайлер Кликэмп (Tyler Kleykamp) возглавил подразделение открытых данных в штате Коннектикут, работа которого началась с изучения вопроса о том, как организации получали государственные деньги за счет налоговых кредитов, займов и грантов.
После открытия этих данных стало ясно, что такие практики кредитования были полезны для штата.
Для продолжения развития более эффективной политики и измерения результатов программ Тайлер Кликэмп настаивает на использовании открытых данных как ключевого фактора успеха работы правительства.
Почему открытые данные никому не нужны
В процессе работы над проектом для открытых данных пришлось изучить множество государственных источников данных. Это и федеральные порталы и муниципальные ресурсы. Вот наиболее известные источники открытых данных:
У всех этих ресурсов одни и те же болезни. Вот они:
Этого достаточно чтобы отбить желание пользоваться ими и данными размещенными на них.
Теперь подробнее по каждому пункту и что с этим делать.
Невалидность данных
Из статистики по документам data.gov.ru видно что большая часть данных размещены в CSV-формате:
И это огромная проблема. Дело в том что большая часть CSV-файлов имеют невалидный формат. В CSV легко допустить ошибку, а если пользователь не разбирается в стандарте, то вероятность ошибки близка к 100%. И так, какие ошибки встречаются чаще всего:
1 место — лишние кавычки. Это бич всех CSV данных. Неправильная кавычка может сломать весь документ.
2 место — разное количество колонок в строках данных.
Сопоставляем заголовок и данные, получаем:
80% CSV-файлов приходится править перед использованием. Это не большая проблема для небольших и редко меняющихся наборов данных. Но если набор в сотню тысяч строк и обновляется раз в неделю, то это большая проблема.
Отсюда возникает вопрос, зачем использовать CSV?
Разрозненность данных и отсутствие стандартов
Каждая служба публикует данные в произвольном виде.
Например это заголовки колонки из CSV-файла перечня карантинных зон:
Геокоординаты могут быть представлены в виде 2 колонок, в одной колонке через запяую или в GeoJSON.
А вот несколько вариантов представления списков:
Ко всему прочему данные разбросаны по разным ресурсам:
Как узнать что это официальные сайты? И почему бы не публиковать данные в одном месте?
Отсутствие единого механизма поиска
Из-за разрозненности данных, нет возможности осуществить поиск по всем государственным источникам открытых данных. Видимо не хватает национального поисковика по открытым данным…
Отсутствие API для доступа к данным
Чтобы использовать данные в своем проекте их нужно скачать. И в дальнейшем самому отслеживать их изменение и актуализировать. Это сопряжено со значительными сложностями для больших наборов данных.
Избежать этих сложностей можно если не скачивать данные, а использовать их через API. Для этого API должен предоставлять такую функциональность, которой было бы достаточно для выполнения любой задачи по работе с данными.
Того API который есть у некоторых ресурсов (например data.mos.ru) не достаточно для полноценной работы с данными. Плюс они не достаточно надежы для использования в реальных проектах.
Все это приводит к тому что открытые данные есть, но судя по количеству скачиваний на data.gov.ru ими пользуются единицы.
Чтобы раскрыть весь потенциал открытых данных они должны быть доступны в максимально удобном для использования виде. Чтобы сразу начать ими пользоваться, а не тратить время на приведение их к корректному виду.
Как можно исправить ситуацию
ИМХО, ресурс аналогичный GitHub но для данных дал бы сильный толчок в развитии открытым данным.
Да, есть например data.world, но он пока не имеет всей той функциональности которая сделала бы его GitHub’ом для данных. Какими характеристиками должен обладать ресурс:
Уверен что в скором времени такой ресурс появится и открытые данные займут значимое место в жизни каждого человека.
О том, как устроены открытые данные в России
Не секрет, что в России за последние годы, с одной стороны, стало больше открытых данных, с другой — накопилось немало критики.
Так неслучайно получилось, что тематика открытых данных — это то, чем я занимаюсь давно и знаю о большей части инициатив в этой области не по наслышке, а по собственному опыту участия. Здесь я постараюсь обойтись без ссылок на свои проекты, чтобы не нарушать правил сайта, их легко будет найти по их названиям в любом случае. Но постараюсь дать все ссылки на официальные ресурсы.
Поэтому, вместо предисловия, я представлюсь.
Меня зовут Иван Бегтин, я вот уже несколько лет продвигаю идею открытых данных в России, возглавляю небольшую некоммерческую организацию (Инфокультура) от лица которой и вместе с сотоварищами мы организуем соревнования, пропагандируем открытость данных среди госорганов.
Кроме всего прочего я вхожу в Совет по открытым данным при Правительственной комиссии по координации Открытого Правительства и ряд общественных и экспертных советов при органах власти и в курсе многих успешных (и провальных) государственных инициатив в этой области.
Ну и поскольку я, в том числе, в комментариях на Хабре читаю много вопросов, заданных явно или неявно, то на самые частые я отвечу в этой заметке, а также на те, что будут в комментариях.
Что сейчас происходит в России с открытыми данными?
Чтобы ответить на этот вопрос надо с самого начала разделить два понятия. Открытые данные — как открытую форму представления любых баз данных. Собранных ли активистами, подготовленных ли коммерческими компаниями или же опубликованных государственных органами. Открытые данные — это всеобъемлющий термин охватывающий все возможные источники появления данных, главное чтобы данные были доступны для свободного повторного использования и были машиночитаемыми (плюс соблюдение 8 принципов открытых данных о которых тут уже писалось.
А вот открытые государственные данные — это такой подвид открытых данных который производится изнутри государственной машины. Это может быть информация, как о самом государстве, так и то что госорганы собирают при выполнении их функций.
Исходя из этих определений можно сказать что то что в России происходит с открытыми данными вцелом — это на 100% зависит от нас самих, как мы собираем, публикуем, убеждаем и так далее публиковать данные, так это и происходит. Есть множество проектов которые существуют автономно от государства — это сообщество GIsLab, это наши проекты OpenGovData и Hubofdata и практически все краудпроекты на MediaWiki можно отнести к инициативам по открытым данным поскольку они предоставляют API для получения данных любым желающим.
Этот закон содержит набор поправок в федеральный закон от 9 февраля 2009 года N 8-ФЗ „Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления“ и в федеральный закон от 27 июля 2006 года N 149-ФЗ „Об информации, информационных технологиях и о защите информации“ о том что данные должны публиковаться в форматах открытых данных.
Далее в распоряжении Правительства Российской Федерации от 10 июля 2013 г. N 1187-р г. был представлен перечень тех данных которые должны публиковаться в первую очередь.
Полный перечень законов, распоряжений и постановлений собран, например, на портале открытых данных г. Москвы в разделе „Документы“. Там множество документов, как федеральных, так и тех что приняты московской мэрией.
2. Кто в России отвечает за открытые государственные данные?
Можно было бы сказать что Правительство целиком, но это не совсем так. Утверждение планов открытости ведомств, в которые входят и работы по открытым данным, занимается Совет по открытым данным. Совет по открытым данным — это название рабочей группы при Правительственной комиссии по координации деятельности Открытого Правительства.
Я также вхожу в этот совет и могу сказать что несмотря на громкое название у Совета нет практически никаких полномочий. Да и не может быть в виду российской структуры государственного управления в которой все советы носят исключительно консультационную форму. Фактически единственный ресурс совета — это возможность донести до его председателя Министра Абызову ту или иную позицию.
С другой стороны, в виду того что закон об открытых данных, это были поправки в 8-ФЗ, то методическое сопровождение раскрытия данных и создание федерального портала открытых данных осуществляет Минэкономразвития России.
Здесь надо сделать небольшое отступление. В 2012-2013 годах, когда тема открытых данных в России только-только приобретала форму государственной инициативы, был ведомственный спор между Минкомсвязи и Минэкономразвития о том какое ведомство будет курировать эту тему. В итоге победило тогда Минэкономразвития и в дальнейшем именно оно было основным исполнителем усилий по открытости данных.
Результатом этого было множество последствий, главное из которых было в том что акцент на раскрытии данных сместился от государственных информационных систем как это хотело Минкомсвязи, на официальные сайты госорганов требования к которым всегда задавало Минэкономразвития.
3. На какие деньги существуют все эти инициативы?
Тема открытых данных практически начисто отсутствует во всех государственных программах включая программу „Информационное общество“. За последние несколько лет существенные инвестиции в то чтобы открытые данные были доступны проводило лишь Правительство Москвы которое создало московский портал открытых данных и вплоть до того что рекламировало его на улицах города.
На федеральном уровне ничего подобного не было. Все члены совета по открытым данным работают без какой-либо компенсации их усилий.
Да и расходы на создание федерального портала открытых данных невелики.
Фактически, все заседания совета которые проходили и на которых присутствовали представители госорганов за это время сводились к тому чтобы убедить госорганы потратить усилия на открытие данных. В каких то случаях это приносило результаты, а в каких-то все разговоры разбивались на встречные просьбы »… а вы помогите чтобы нам выделили бюджет на XXX миллионов рублей и мы всё-всё-всё откроем. «. Самый яркий пример такого поведения был Росстат, похожая ситуация была с ЦИК России и многими другими ведомствами.
Аналогично со всеми субъектами федерации и муниципалитетами. Ни один из них денег на внедрение практики публикации открытых данных не получил, все усилия сводились к тому чтобы убедить их тратить собственные деньги на эти инициативы. Какие-то субъекты в этом продвинулись, а какие-то откровенно забили и просто саботировали раскрывая не данные, а их симуляцию.
4. Использует ли хоть кто-то в России открытые данные?
Если коротко, то да.
Да, данные используют и более чем активно. Используют активисты и бизнес, используют к коммерческих проектах, общественных и личных, используют для того чтобы улучшить существующие продукты, так и для того чтобы создать новые.
Есть несколько областей и наборов данных которые более чем востребованы. В первую очередь это такие данные как:
— База государственных и муниципальных закупок;
— Оперативные данные ЦБ РФ по валютам и открытые данные по банкам;
— База ФИАС (федеральная адресная информационная система);
— Данные по спутниковой группировке ГЛОНАСС
и многое другое.
Существует несколько десятков проектов по отслеживанию новых госмунзаказов (Закупки360, Бикотендер), по анализу контрагентов (Спарк.Интерфакс, Контур.Фокус, Коммерсант.Картотека) которые используют данные напрямую. Агрегируя данные о компаниях, о контрактах, закупках, лицензиях и прочем. Смешивая открытые данные и те которые они получают из коммерческих источников — они создают коммерческие продукты. В результате, на базе открытых данных существуют и развиваются состоявшиеся коммерческие продукты.
На основе базы ФИАС и до неё на основе базы КЛАДР работает значительное число сервисов по всей стране. Эта база, обычно, используется не для создания новых продуктов, а для улучшения удобства проверки адресов в многочисленных коммерческих информационных системах.
Данные ЦБ используются практически всеми сайтами показывающими официальные курсы валют и всеми сайтами по анализу банков и банковской системы вцелом.
Кроме этих данных есть много других — гораздо более узкоспециализированных и которые также активно используются, но чаще всего их пользователи себя не афишируют и малоизвестны.
5. И всё таки почему так мало примеров тех кто данные используют?
Главная причина в том основные пользователи данных — это коммерческие компании которые совершенно не заинтересованы, ни в том чтобы раскрывать свои доходы, ни в том чтобы рассказывать про свою бизнес модель. Да и вообще тратить на это время большинство из них не желает. Ко всему этому примешивается их опасение что рассказав о том как и сколько они зарабатывают на тех или иных данных у них сразу же начнутся проблемы и за те данные что они получают бесплатно им придется платить. Опасение не то чтобы небезосновательное, но и не то чтобы неоправданное.
По этой причине все те примеры что я называю — это примеры о которых я знаю и те примеры что на виду.
6. И всё равно полезных данных очень мало. Всё остальное это, либо бессмысленые наборы данных, либо с отвратным описанием
Полезных данных действительно мало. И я скажу больше, наиболее полезные и востребованные данные публиковались ещё до того как сам термин «открытые данные» появился в виде государственной инициативы.
ЦБ РФ — публикует данные уже с десяток лет в виде API через SOAP сервисы. База ФИАС появилась в виде открытых данных гораздо раньше. И данные по госконтрактам публикуются в машиночитаемом виде с 2008 года.
Все очень просто. Есть те данные которые госорганы публикуют в ответ на общественный или корпоративный запрос и те данные которые они публикуют в обязаловку по разнорядке.
Требования которые были сформулированы в законе об открытых данных и распоряжении правительства для большинства госорганов — это очередная назойливая муха. Они не понимают зачем это делать, они не понимают кому это нужно, они не понимают в чем польза от открытия данных и они не понимают какая им с этого выгода. Как результат мы получаем массу примеров «плохих данных» когда в разделах на сайтах органов власти данные публикуются без описания, без схем, с пустыми файлами данных или иными особенностями. Чаще всего такие данные публикуются представителями пресс-службы органов и те делают это всё по принципу «формального закрытия», бессодержательной публикации позволяющей поставить галочку в результатах.
7. Почему всё плохо?
Нельзя сказать что всё совсем плохо. У России не последние места в рейтингах открытости данных вроде Open Data Index и Open Data Barometer. Но причин радоваться, действительно мало, и причин у того что всё идет так тяжело множество.
Одна из причин в том что у открытых данных в России очень мало явно заявляющих свой интерес потребителей.
Дело в том что в мире основными потребителями открытых данных являются:
— некоммерческие организации и активисты (гражданское общество);
— журналисты;
— коммерческие компании;
— университеты.
С каждым из потребителей у нас в России есть свои проблемы.
Независимых некоммерческих организаций теперь почти нет. Все что жили на зарубежные гранты теперь, либо закрываются, либо перестраиваются под госгранты, либо резко сворачивают свою активность. Наша некоммерческая организация существует исключительно по то причине что все учредители это люди занимающиеся бизнесом и у нас была и есть возможность тратить немножко средств на её поддержание и в том что самые большие проекты мы делали при поддержке Фонда Кудрина. Единственного, пожалуй, который из фондов в России поддерживает общественные проекты на открытых данных. Других возможностей фактически нет. Государственные грантооператоры не выделяют средств на подобные проекты, коммерческих спонсоров для проектов на открытых данных найти очень сложно ну а брать иностранные гранты теперь табу.
Журналистика почти вся в России весьма далека от нейтральной подачи информации. Но даже провластные издания не взаимодействуют с госорганами на предмет открытости их данных для того чтобы их использовать в работе. Увы, за все эти годы направление журналистики данных так и не обрело заметных очертаний в нашей стране и до сих пор журналисты оказывают очень малое влияние на открытости государства в тех или иных вопросах. Пронзительные экономические аналитики, исследователи демографии, словоохотливые социологи — все они на страницах СМИ не формируют запроса к органам власти на открытость.
Коммерческие компании здесь всё просто — их очень мало. Коммерческие компании использующие открытые данные можно разделить на две категории. Первая группа — это тех кто живет за счет государственных заказов и данные им нужны чтобы показать свои компетенции в том чтобы больше заказов получить. И вторая группа живущая на информационном рынке крайне малочисленная и не желающая взаимодействовать с госорганами без острой необходимости. В основном по причинам глубокого недоверия государственной машине.
И наконец высшие учебные заведения. Увы, запроса со стороны ВУЗов на то чтобы данные были доступны для исследований, для возможности студентов использовать актуальные данные в своей работе, этого запроса просто нет. Если в мире университеты формируют собственные базы данных по направлениям исследований и работы их факультетов, то в России это если и есть, то в весьма ограниченных формах.
До введения санкций, закона об иностранных агентах и прочего ухудшения внешней и внутренней политики я бы сказал что однозначно да. Когда всё начиналось Россия была в G8, подписывала G8 Open Data Chapter, претендовала на участие в Open Government Partnership. Сейчас развитие темы открытых данных происходит при высоком сопротивлении государственного аппарата. Наиболее востребованные данные раскрываются с большим трудом. Детальная образовательная, криминальная и иная муниципальная статистика крайне труднодоступна. Государственные геоданные по прежнему открываются тяжело. Но многое другое возможно. Это климатические, транспортные и иные данные востребованные на практике.
9. Почему лично я во всём этом участвую?
Причин много. Главная в том что я ввязался открытые данные еще в 2009 году со злости что во всем мире эта тема развивается, а в России ничего нет. Другая в том что устройство «государства», не только российского — это моё давнее хобби. При том что наибольшие усилий приходились и приходятся не только на то чтобы убеждать чиновников в открытости данных, а в том чтобы самостоятельно собирать данные из разных источников и превращать в открытые данные.
— К заметке прилагаю пару опросов и как и обещал, готов ответить на все вопросы по существу в комментариях.
Показатели качества публичных данных
Проблема качества данных представляет собой достаточно серьезную тему и не только в связи с их обработкой и анализом. На данных в современном цифровом мире построено множество процессов, в том числе и связанных с безопасностью. Поэтому от того, насколько качественные данные используются в государственных и коммерческих организациях зависит эффективность и результат их работы.
Рассмотрим несколько показателей, которые могли бы составить интегрированную оценку качества публичных (открытых) данных.
Прежде чем начать.
Настоящая публикация является продолжением в общей серии по теме публичных данных. Многие понятия, встречающиеся в тексте рассматривались в предыдущих статьях. Несмотря на то, что речь идет о публичных (открытых, разделяемых) данных, предлагаемый набор показателей качества может использоваться и для оценки других категорий данных с некоторыми поправками. Предлагаемый список является в некотором смысле гипотезой и не претендует на звание «исчерпывающего».
Данные имеют ограниченный срок годности
Первичные данные всегда актуальны на какой-то конкретный момент времени в прошлом и очень редко актуальны в течение какого-либо длительного периода.
Это одна из проблем качества: цифровые данные, как регистрация исторического состояния объекта или системы постоянно теряют свою актуальность со временем и их приходится обновлять.
Качество данных – характеристика наборов цифровых данных, показывающая степень их пригодности к обработке и анализу и соответствия обязательным и специальным требованиям, в связи с этим к ним предъявляемым.
А что может составлять такое понятие как «качество публичных данных»? Выделим девять показателей.
1. Актуальность данных
Обозначенный или косвенно определяемый момент времени, на который данные отражают реальное состояние целевого субъекта (объекта, системы, явления, модели, события и т.п.).
Актуальность данных также может быть обозначена через период времени в течение которого они сохраняют свою значимость. Учитывая постоянные изменения экономических систем, публичные экономические данные имеют достаточно короткие сроки актуальности.
Актуальность данных чаще всего устанавливается поставщиком, в дополнение к которой он также может «дать обещание» периодического их обновления для её поддержания.
Получатель данных может самостоятельно оценивать их актуальность на основании информации от поставщика или иными способами.
2. Объективность данных
Точность отражения данными реального состояния целевого субъекта (объекта, системы, явления, модели, события и т.п.).
Объективность напрямую зависит от применяемого метода и процедур сбора информации, а также от плотности регистрируемых данных. В процессе обработки наборов цифровых данных, они теряют свою объективность и обогащаются агрегированными, округленными, приведенными и расчетными показателями. Однако за счет этого данные «насыщаются» знаниями, тем самым позволяя в последующем сокращать последовательность операций по извлечению из них значимых для практики сведений.
Поставщик может указать объективность публичных данных охарактеризовав их первичность и описав процедуру их получения.
Получатель вправе критично отнестись к вторичным данным, особенно если их объективность не доказана применяемыми формулами и математическими расчетными моделями.
3. Целостность данных
Полнота отражения данными реального состояния целевого субъекта (объекта, системы, явления, модели, события и т.п.).
В отличии от объективности, целостность показывает насколько полными и безошибочными являются данные как в части смыслового непротиворечия, так и в части соответствия заданной структуре или выбранного формата. Целостность зависит от корректного разделения на элементарные неделимые единицы, сохранения их неделимости, правильной идентификации и взаимной связанности.
Данные публикуемые добросовестным поставщиком по умолчанию должны являться целостными.
Получатель определяет целостность специальными проверочными методами оценивая смысловое содержание, корректность определения структуры и технически проверяя формат.
4. Релевантность данных
Соответствие данных о реальном состоянии целевого субъекта (объекта, системы, явления, модели, события и т.п.) решаемой задачи (поставленной цели) и возможность их применения с учетом имеющегося содержания, структуры и формата.
Понимание релевантности напрямую увязывается с целью пользователя данных и конкретной исполняемой им задачи, а значит и с располагаемым исходным набором данных.
Поставщик не может повлиять на релевантность данных, но может существенно упростить понимание данного показателя качества с помощью расширенных метаданных, применения распространенных форматов и традиционных структур, а также указанием рекомендаций по их использованию.
Получатель в каждом конкретном случае оценивает релевантность наборов данных исходя из тематики и рабочего формата (т.е. используемых инструментов).
5. Совместимость данных
Совместная обработка данных о реальном состоянии целевого субъекта (объекта, системы, явления, модели, события и т.п.) с имеющимися в рамках решаемой задачи (поставленной цели).
В отличие от релевантности, совместимость — это процедурный показатель, который характеризует возможность включить данные в обрабатываемый массив для дальнейшего анализа и не связан напрямую с сутью и критериями текущей задачи. С другой стороны, совместимость на содержательном уровне с тематикой исполняемой задачи важна для эффективной обработки цифровых данных. Публичные данные должны особенно тщательно оцениваться на совместимость, в том числе с точки зрения их разновидности. Допустимо ли для конкретных целей совмещение – взаимное использование — открытых данных и разделяемых данных или разделяемы и делегируемых данных зависит от оценки аналитика. Чаще всего необходимо соблюдать условия раздельного хранения и контроля разных видов публичных данных.
Поставщик публичных данных задает совместимость через метаданные и ссылки на контекст.
Получатель определяет возможность совместного использования данных для каждого набора как по содержанию и структуре, так и по формату. Но в отличие от релевантности, несовместимые данные можно попытаться привести к совместимому с помощью различных операций трансформации, перекодирования, перевода и т.п.
6. Измеримость данных
Присутствие в данных обрабатываемых качественных или количественных характеристик реального состояния целевого субъекта (объекта, системы, явления, модели, события и т.п.), а также подсчитанный конечный объем набора цифровых данных.
Содержательная измеримость данных является основой для выполнения последующих процедур их обработки и анализа. Измерение же общего объема данных необходимо для выбора инструментария и контроля их целостности в процессе обработки и по итогам анализа.
Поставщик может явно указывать «измерения», включенные в данные, как количественные, так и качественные. Как минимум, сопровождение наборов публичных данных записью об итоговом или пофайловом их размере в байтах почти является общепринятым стандартом.
Получатель публичных данных восстанавливает измеримость в содержании данных анализируя их и исследуя структуру и всегда точно или бегло проверяет насколько их физический размер соответствует заявленному.
7. Управляемость данных
Возможность целевым и осмысленным образом обработать, передать и контролировать данные о реальном состоянии целевого субъекта (объекта, системы, явления, модели, события и т.п.).
Управляемость обусловлена необходимостью изменять, исправлять, структурировать, организовывать, фильтровать, сохранять, пересылать, оценивать, распределять данные. Она во многом основывается на правильно выбранной структуре и формате.
Поставщик может заявить об управляемости данных через сопровождение их специальными метаданными, но получатель, как правило, самостоятельно проводит её оценку исходя из имеющихся у него компетенций и инструментов.
8. Привязка к источнику данных
Связанная и достоверная идентификация цепочки поставки данных о реальном состоянии целевого субъекта (объекта, системы, явления, модели, события и т.п.).
При этом в описание «цепочки поставки публичных данных» лучше включить указания на все субъекты, которые исполняли основные роли трансфера данных: генератор (автор), владелец, поставщик. Привязка к источнику позволяет поставщику и получателю сослаться и восстановить авторство, правоотношения, достоверность источника, доверие к распространителям.
Публичные данные почти всегда распространяются с указанием владельца и поставщика. И более того, одним из ограничений использования данных является необходимость указать первоисточник при их последующей публикации или использовании. Следует учитывать, что хорошая привязка данных позволяет по необходимости получить её повторно с уточнениями, дополнительной актуализацией или с восстановленной целостностью, т.е. – с повышенным качеством.
9. Доверие к поставщику данных
Оценка получателем деловых качеств поставщика публичных данных о целевом состоянии субъекта (объекта, системы, явления, модели, события и т.п.), как ответственного, авторитетного, организованного и относительно независимого издателя цифровой информации высокого качества.
Данный показатель выступает некоторой интегрированной ретроспективной оценкой всех предыдущих трансферов данных поставщика – репутация издателя публичных данных.
Получатель всегда исходит из внутренней убежденности при определении такого показателя качества данных, но у поставщика есть несколько путей по формированию и поддержанию нужного ему уровня доверия. К ним можно, например, отнести: тщательную подготовку данных для публичного трансфера, высокий уровень организации процессов издания «цифры», поддержку обратной связи с получателями, своевременную актуализацию и извещение об обнаруженных в данных проблемах, специальные мероприятия, участие в независимой оценке и ассоциациях.
Любой из указанных показателей качества данных субъективен, как в части смыслового содержания данных, так и в части его восприятия разными поставщиками и получателями.
Тем не менее все показатели можно разделить на:
Общая проблема качества публичных данных зависит как от каждого из перечисленных показателей, так и от интегрированной субъективной оценки получателя. В любом случае, качество важно в первую очередь получателю, как лицу выполняющему операции обработки и анализа.
В случае завершения обратной связи стороннего результативного пользователя данных с поставщиком, «проблема» качества данных возвращается последнему «бумерангом». Если данные были предоставлены «плохие» или с ошибками, то ожидать от тех, кто их использовал, сколь-либо хороших и адекватных итогов не приходится. Тогда утрачивается весь смысл усилий по выбору, подготовке и публикации данных – поставщик не получает никаких новых полезных решений и знаний (продуктов или сервисов).
Важнейший показатель качества данных – это их целостность
Он оказывает сильное влияние на совместимость и управляемость данных. А неоднократная публикация данных с нарушением целостности обязательно скажется на доверии к их поставщику. Целостность данных не является чем-то обособленным от смысла, структуры или формата и должна соблюдать на всех уровнях цифровой информации.
Нарушение целостности данных возможно:
За качество публикуемых данных, конечно же, отвечает поставщик. Но получатель вынужден выполнять проверку и по необходимости корректировать сами данные.
Если публичные данные оказываются низкого качества, то имеет смысл отказаться от их использования и направить подробное уведомление поставщику. Добросовестный и заинтересованный поставщик обязательно предпримет усилия по исправлению ситуации. Он как минимум должен закрыть доступ к некачественным данным на время разбирательства и маркировать их соответствующим образом.
Адресованная поставщику претензия относительно качества данных, в условиях максимальной открытости сетевого общения, вынуждает в обязательном порядке помещать специальный заявительный отказ от принятия претензии с обоснованием такого отказа, либо повышать качество данных и повторно их издавать с соответствующими разъяснениями. А в случае, если поддерживается адресная связь с получателями – уведомлять их специальным образом.
Поставщик, который не готов отвечать за качество данных достаточно быстро переходит в разряд «безответственных» и теряет все преимущества, предоставляемые сообществом аналитиков и экспертов, занятых в соответствующей предметной области.
Из вышесказанного вытекает необходимость постоянного контроля качества данных как со стороны получателя, так и со стороны поставщика. Что в свою очередь вынуждает разрабатывать и применять специальные контрольно-измерительные инструменты.
Исследование проблемы качества цифровых данных, а особенно качества открытых, разделяемых и делегируемых данных должно осуществляться аналитиками и экспертами как на микро-уровне заинтересованных бизнесов, так и на макро-уровне сообществ и государственных структур. Во многом безопасность будущей цифровой экономики будет базироваться на активном мониторинге качества используемых данных.