Почему все стали так помешаны на больших данных и что значат все эти слова?
Почему все молятся на биг дату
Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты. Тем не менее в науке о данных большие данные занимают важное место. Чем больше массив, тем интересней будут результаты, извлеченные из глубоких недр большой кучи данных.
Преимущества больших данных:
- С ними интересно работать.
- Чем больше массив данных, тем меньше вероятность того, что исследователь примет неверное решение.
- Точные исследования поведения интернет-пользователей без большого количества данных практически невозможны.
- Хранилища данных стали дешевле и доступнее, поэтому хранить и анализировать большие данные гораздо выгоднее, чем строить заведомо неверные прогнозы.
Наука о данных
Наука о данных это глубокие познания о выводимых данных. Чтобы заниматься наукой о данных необходимо знать математику на высоком уровне, алгоритмические техники, бизнес-аналитику и даже психологию. Все это нужно чтобы перелопатить огромную кучу инфы и обнаружить полезный инсайт или интересные закономерности.
Наука о данных базируется вокруг строгих аналитических доказательств и работает со структурированными и не структурированными данными. В принципе все, что связано с отбором, подготовкой и анализом, лежит в пределах науки о данных.
Примеры применения науки о данных:
- Тактическая оптимизация — улучшение маркетинговых кампаний, бизнес-процессов.
- Прогнозируемая аналитика — прогноз спросов и событий.
- Рекомендательные системы — Amazon, Netflix.
- Системы автоматического принятия решений — например распознавание лиц или даже беспилотники.
- Социальные исследования — обработка анкет или данных, полученных любым другим способом.
Если говорить простым языком, то наука о данных вмещает в себя все перечисленные в заголовке понятия.
Аналитика
Аналитика — это наука об анализе, применении анализа данных для принятия решений.
Аналитика данных предназначена для внедрения инсайтов в массив данных и предполагает использование информационных запросов и процедур объединения данных. Она представляет различные зависимости между входными параметрами. Например, автоматически выявленные, не очевидные связи между покупками.
В науке о данных для построения прогнозируемой модели используются сырые данные. В аналитике зачастую данные уже подготовлены, а отчеты может интерпретировать практически любой юзер. Аналитику не нужны глубокие знания высшей математики, достаточно хорошо оперировать данными и строить удачные прогнозы.
Анализ данных
Анализ данных — это деятельность специалиста, которая направлена на получение информации о массиве данных. Аналитик может использовать различные инструменты для анализа, а может строить умозаключения и прогнозы полагаясь на накопленный опыт. Например, трейдер Forex может открывать и закрывать трейдерские позиции, основываясь на простых наблюдениях и интуиции.
Машинное обучение
Машинное обучение тесно связано с наукой о данных. Это техника искусственного обучения, которую применяют для сбора больших данных. По-простому это возможность обучить систему или алгоритм получать различные представления из массива.
При машинном обучении для построения модели прогнозирования целевых переменных используется некий первичный набор знаний. Машинное обучение применимо к различным типам сложных систем: от регрессионных моделей и метода опорных векторов до нейронных сетей. Здесь центром является компьютер, который обучается распознавать и прогнозировать.
Примеры алгоритмов:
- Модели, которые могут прогнозировать поведение пользователя.
- Классификационные модели, которые могут узнать и отфильтровать спам.
- Рекомендательные системы — изучают предпочтения пользователя и пытаются угадать, что ему может понадобиться.
- Нейронные сети — не только распознают образы, но и сами могут их создавать.
Исследователи применяют техники машинного обучения, чтобы автоматизировать решение некоторых задач. Эти системы очень нужны для работы с некоторыми очень сложными проектами. Например, чтобы узнать в какой стране живут самые счастливые люди, ученые определяли улыбки на фотографиях, загруженных в Instagram.
Отбор данных
Сырые данные изначально беспорядочны и запутаны, собраны из различных источников и непроверенных записей. Не очищенные данные могут скрыть правду, зарытую глубоко в биг дате, и ввести в заблуждение аналитика.
Дата майнинг — это процесс очистки больших данных и подготовки их последующему анализу или использованию в алгоритмах машинного обучения. Дата майнеру нужно обладать исключительными распознавательными качествами, чудесной интуицией и техническими умениями для объединения и трансформирования огромного количества данных.
Конспект
- Чем больше данных, тем сложнее их анализ.
- Наука о данных — это знания о выводимых данных, отбор, подготовка и анализ.
- Машинное обучение применяется для сбора и анализа массивов данных.
- Дата майнинг — это процесс очистки больших данных и подготовки их к последующему анализу.
This entry passed through the Full-Text RSS service - if this is your content and you're reading it on someone else's site, please read the FAQ at http://ift.tt/jcXqJW.
Комментариев нет:
Отправить комментарий