Конструктор класса Online Big Data «Всемирная трибуна» собрался по принципу Лего, из нескольких отлично дополняющих друг друга деталей, имеющихся в наличии:
1. Контент:
Каждый день человечество (мы же мыслим всем миром!) генерит в соцмедиа свыше 1 млрд публичных сообщений (твитов, постов, комментариев, фоток, роликов). В каждой соцсети, блог-платформе и пр. интернет-сервисах свои правила, поэтому нам понадобится сервис-агрегатор публичных сообщений (американские TopSy и Gnip, английский DataSift или российский Brand Analytics).
2. Агрегатор нужного контента:
Нам нужен не весь миллиард сообщений, а только про футбол. Но на разных языках. И с морфологией, синтаксисом, определением языка, лемматизацией, посткоррекцией. И не забываем про реал-тайм! Поорать «Гоооол!» с половиной земного шара нужно пока еще мяч в воротах колышет сетку, а не в утренних новостях.
3. Автопереводчик:
Для постов соцсетей. Начинаем смеяться :) Выбор классический: переводчик Google или Translate.ru
4. Команда:
Программер для обвязки API и хороший верстальщик — куда же без творцов!
А вот и результат нескольких дней работы – виджеты, доступные как для просмотра, так и для вставки на сайт/в блог:
— Для русскоязычного сектора http://ift.tt/1q3hLNv
— Для космополитов и тех кто болеет за бразильцев/испанцев/англичан и других фаворитов http://ift.tt/1q3hLNx
Ниже приводим более подробную технологическую информацию для любителей не только футбола.
Агрегация контента
На российском рынке позицию основного поставщика данных из соцмедиа занимает система Brand Analytics (BA), которая позволяет легко настраивать и получать фильтрованный поток тематических данных с учетом русской морфологии и синтаксиса в режиме реального времени. В отличие от DataSift в BA аккумулируются не только данные из соцсетей, но и сообщения блогов и форумов, новостных порталов. У BA есть публичный API для получения фильтрованных данных.
Самое кропотливое и мозго-затратное дело в подобных системах — это настройка фильтрации: ключевые фразы, минус слова, и авторитетные источники. В данной работе участвовали настоящие эксперты — сотрудники популярного спортивного портала Championat.com.
В системе предусмотрен фильтр ботов, потому в виджет поступают сообщения только от реальных пользователей, а ненормативная лексика зашкаливающих эмоций отсекается специальными фильтрами.
Трудности перевода
В качестве переводчика был выбран Translate.ru, у которого вдобавок к простому API к ЧМ появился набор специальных лингвистических модулей и словарей, что позволило существенно улучшить качество перевода. Для автоперевода были выбраны 4 языка, наиболее распространенных в контексте ЧМ по футболу: португальский (он же бразильский), испанский, английский и русский.
Реал-тайм обработка
В связи с ежедневно растущим потоком новой информации актуальной проблемой сегодня становится скорость обработки данных. На только что завершившейся международной конференции по компьютерной лингвистике «Диалог» были представлены некоторые современные лингвистические системы известных компаний. Как показывают расчеты, скорость их препроцессинга пока невысока и не позволяет работать с реальным потоком данных: лучшие системы показывают десятки кБ/с на одном процессоре, в то время как практика показывает, что для полноценной работы с потоком скорость должна измеряться сотнями кБ/с.
Скорость нашей системы также не достигает идеала, но, тем не менее, на сегодняшний день мы можем обрабатывать до 15 ГБ в сутки на одном потоке (~200 кБ/с). Такая скорость обработки обеспечивается интеллектуальной системой параллельных вычислений. Балансировщик лингвистических модулей позволяет сохранить высокий процент корректности обработки потока. Например, тонкая, умная обработка такого явления, как омонимия позволяет использовать высоконагруженные алгоритмы только тогда, когда это действительно необходимо.
Осталось только как следует поболеть за наших, присоединяйтесь ;)
PS: Мы планируем цикл публикаций о компьютерной лингвистике и text mining, с рассказом о применении таких технологий как автоопределение тональности сообщений, классификация сущностей, лемматизация и разрешение омонимии, и др. Если вам интересна одна из вышеназванных тем, или другие лингвистические тематики — пишите нам, и мы постараемся подробно раскрыть все секреты компьютеризации великого и могучего :)
This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at http://ift.tt/jcXqJW.
Комментариев нет:
Отправить комментарий