Парсер Хабра: Иерархическая классификация сайтов на Python

четверг, 2 июля 2015 г.

Иерархическая классификация сайтов на Python

[unable to retrieve full-text content]

Привет, Хабр! Как упоминалось в прошлой статье, немаловажной частью нашей работы является сегментация пользователей. Как же мы это делаем? Наша система видит пользователей как уникальные идентификаторы cookies, которые им присваиваем мы или наши поставщики данных. Выглядит этот id, например, так:

42bcfae8-2ecc-438f-9e0b-841575de7479

Эти номера выступают ключами в различных таблицах, но первоначальным value является, в первую очередь, URL страниц, на которых данная кука была загружена, поисковые запросы, а также иногда некоторая дополнительная информация, которую даёт поставщик – IP-адрес, timestamp, информация о клиенте и прочее. Эти данные довольно неоднородные, поэтому наибольшую ценность для сегментации представляет именно URL. Создавая новый сегмент, аналитик указывает некоторый список адресов, и если какая-то кука засветится на одной из этих страничек, то она попадает в соответствующий сегмент. Получается, что чуть ли не 90% рабочего времени таких аналитиков уходит на то, чтобы подобрать подходящий набор урлов – в результате кропотливой работы с поисковиками, Yandex.Wordstat и другими инструментами.

Читать дальше →

Парсер Хабра

...

четверг, 2 июля 2015 г.

Иерархическая классификация сайтов на Python

Комментариев нет:

Отправить комментарий

...

четверг, 2 июля 2015 г.

Иерархическая классификация сайтов на Python

Комментариев нет:

Отправить комментарий

четверг, 2 июля 2015 г.