сегодня в 17:49
Например, данные Рособоронзаказа о которых я писал ранее (http://habrahabr.ru/company/infoculture/blog/201260/) и где можно увидеть.
Точно также данные публикует и МВД России — это вот такой массив — mvd.ru/opendata/od1
А есть много других данных когда CSV файлы создаются на базе непригодных для анализа Excel файлов, или когда данные публикуют без описания схем, или когда публикуют невалидные XML файлы и многое другое.
Чтобы собрать все такие случаи коллеги из Open Knowledge Foundation начали собирать все примеры.
Вот тут сайт проекта — okfnlabs.org/bad-data/, а вот тут раздел в github'е — github.com/okfn/bad-data/issues?page=1&state=open где собраны примеры из которых 5 прорабатывается и 2 уже зарегистрировано.
Конечно, пока описанное кажется не очень сложным, неправильное форматирование или таблицы перемешанные с картинками в PDF. Но будет больше.
Давайте поможем коллегам и если Вы встретите где-либо опубликованные данные с которыми невозможно работать — предлагаю размещать их в комментариях к этому посту, а тем кто готов включиться — еще и у коллег из OKF.
Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.
This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at fivefilters.org/content-only/faq.php#publishers.

Комментариев нет:
Отправить комментарий