...

среда, 15 января 2014 г.

Как живется Data Mining компании: задачи и исследования

Привет, Хабр!

Наконец дошли руки Пришло время рассказать, чем занимается наша компания DM Labs в области анализа данных, помимо образовательной деятельности (о ней мы уже писали 1).

За прошлый год мы начали плотно сотрудничать с институтом роботехники fortiss при Техническом университете Мюнхена (TUM) (совместно учим роботов не убивать людей), выпустили прототип антифрод системы, участвовали в международных конфах по машинному обучению, и самое главное смогли сформировать сильную команду аналитиков.

Теперь DM Labs объединяет в себе уже три направления: исследовательскую лабораторию, разработку готовых коммерческих решений и обучение.

В сегодняшнем посте мы расскажем о них подробнее, подведем итоги прошедшего года и поделимся целями на будущее.


Обучение




Запуская образовательное направление, мы хотели создать программу для обмена знаниями между молодыми специалистами и экспертами и, как уже упоминалось, помочь формированию сообщества Data Science в России.

За этот год мы успели выпустить первый поток студентов и сейчас ведем программу для второго набора.

































20132013/ 2014
Студенты1825
Эксперты1930+
Программа Data Mining in Industry Data Mining in Industry + отдельные курсы по R, Machine Learning, Big Data
Лекции60 часовData Mining in Industry: 70+ часов, Курсы: 80 + часов
КомпанииIBM, EMC, Siemens, fortiss, и др. все те же + Delloite, Accenture, Одноклассники и др.



Учебный план очень сильно изменился, но мы поняли, что три элемента, которые лежат в основе философии нашего обучения, мы не будем менять:

  • Общение с экспертами.

  • Практика. Студенты принимают участие в соревнованиях на kaggle, решают задачи, которые для них ставят эксперты из разных областей (1, 2 и 3).

  • Проактивность. Мы пытаемся заинтересовать студентов в том, чтобы они делились знаниями друг с другом и сами организовывали внутренние семинары на разные темы, в том числе связанные не только с анализом данных.


Помимо продолжения учебной программы, в 2014 мы будем проводить еще больше различных образовательных инициатив:



  • Data Mining Sauna — на рождественские каникулы мы пригласили студентов и экспертов в частный контактный зоопарк под Петербургом, чтобы в неформальной обстановке поделиться идеями друг с другом и обсудить исследования (об этом мероприятии мы скоро напишем подробнее).

  • Сейчас мы готовим хакатон по анализу социальных сетей в Санкт-Петербурге.

  • В наступившем году нам также очень хотелось бы организовать конференцию по Data Mining.




Проекты




После запуска учебного направления логичным продолжением стала проектная деятельность и новое направление data mining Projects, потому что с помощью машинного обучения можно решать множество интересных задач в самых разных областях:




Сейчас наша команда работает над различными коммерческими проектами, среди которых задачи анализа трафика финансовых транзакций, обнаружение аномалий на основе log-файлов веб-сервисов, предсказание возврата пользователей и пр.

На конференции TechCrunch Moscow мы в общих чертах рассказывали как можем помочь компании стать data-driven.

Про конкретные кейсы проектов и наш продукт антифрод систему напишем в следующих статьях.

Исследования




Проектная работа — это хорошо, но душа data scientist’а всегда просит большего: хочется, чтобы и модели были точнее, и алгоритмы работали быстрее, а область их применения росла. Так было создано третье направление — Data Mining R&D.

Сейчас мы ведем работу над различными задачами, связанными с Gradient Boosting Machines [1,2,3]. Эти алгоритмы активно применяют такие компании как Yahoo!, Yandex в своем Matrixnet, Amazon и другие. Если объяснять “на пальцах”, то основная идея алгоритма в том, чтобы построить множество деревьев решений таким образом, чтобы с каждым новым деревом суммарный выход алгоритма становился все более точным. Например, как на этой картинке:



Вроде все просто, но есть большой простор для творчества: как сделать так, чтобы для достижения той же точности требовалось меньшее число деревьев (как сократить их число)? Что будет, если сделать “глубокий” ансамбль? Или ансамбль полу-”глубоких” штуковин?"


Второе важное направление работ — методы Data Fusion. Идея в том, чтобы в рамках решения одной задачи использовать данные из разных областей: текста, видео, аудио, графов, сенсоров, а также различные их комбинации. Если запустить тот же самый алгоритм GBM «в лоб» на всех данных, распределения будут слишком разными, а число признаков неоправданно большим. В общем, описание причин, почему это не будет работать, — тема, достойная отдельной статьи. Примером, с которым мы столкнулись в этой области оказалась задача определения финансовых рисков. Для этой задачи обычно используют количественную информацию о котировках с биржи — посмотрев на волатильность цен акций компании, можно достаточно точно спрогнозировать риски на следующий год. Однако, если учесть еще и информацию из годовых бухгалтерских отчетов компаний, эту точность можно повысить.


Главный вопрос — как сделать это эффективно, чтобы, увеличив точность модели, уменьшить ее сложность? Как сшивать модели? «Сшивать только модели или некие промежуточные слои с representation, подобного тому как это предлагают делать в D-Wave:



На этом наши исследования не заканчиваются. Нас, например, очень волнуют вопросы:



  • Как отобрать значимые признаки, когда их очень много: десятки и сотни тысяч?

  • Как искать аномалии в больших размерностях?

  • Как запустить алгоритм GBM на миллиарде точек? А на триллионе? Это скорее общий вопрос градиентных методов, для которых SGD и minibatch не применить (аналогичная история с ICA)


В заключение




Это был год, богатый на события, новых хороших людей и интересные задачи. Надеемся, что и 2014 принесет много отличных идей и еще больше сил, чтобы их воплотить в жизнь и написать о каждой статью на Хабр. Да нам уже сейчас так много хочется рассказать, что мы решили провести небольшой опрос

This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at http://ift.tt/jcXqJW.


Комментариев нет:

Отправить комментарий