...

вторник, 14 октября 2014 г.

Новый рекорд по скорости сортировки: 100 терабайт за 23 минуты

Американский стартап Databricks объявил об установке нового рекорда по скорости сортировки данных. Программа Apache Spark обработала массив из 100 терабайт всего за 23 минуты, что значительно превышает показатели Hadoop.































































Мировой рекорд Hadoop Spark

100 ТБ
Spark

1 ПБ
Объём данных102,5 ТБ100 ТБ1000 ТБ
Время72 мин23 мин234 мин
№ узлов2100206190
№ ядер5040065926080
№ reducer'ов10,00029,000250,000
Скорость1,42 ТБ/мин4,27 ТБ/мин4,27 ТБ/мин
Скорость/узел0,67 ГБ/мин20,7 ГБ/мин22,5 ГБ/мин
Правила теста DaytonaДаДаНет
ОкружениеДата-центрEC2 (i2.8xlarge)EC2 (i2.8xlarge)



Прежний рекорд был установлен в компании Yahoo с использованием популярного приложения Hadoop MapReduce.

Новое достижение ценно само по себе, но оно также демонстрирует быстрый технологический прогресс в области Big Data. Долгое время Hadoop считался передовым приложением в своей сфере, но теперь ситуация меняется.


Даже сама компания Google, которая одной из первых начала использовать Hadoop больше 10 лет назад, уже перешла на новые инструменты, такие как Dremel. Миграция началась в районе 2009 года.


По мнению специалистов, основная проблема Hadoop заключается в том, что он спроектирован для обработки информации пачками (batch’ами). Так что если вы добавляете ему новые данные, то нужно создавать новый batch.


Хотя Hadoop до сих пор используют многие крупные веб-сервисы, в том числе Facebook, Twitter и eBay, но новые инструменты показывают лучшую производительность. Некоторые из них созданы на основе того же Hadoop.


Spark — лишь один из нескольких проектов, которые нацелены на замену Hadoop. Среди прочих можно назвать Impala от компании Cloudera, Drill от компании MapR, а также Yarn в составе того же Hadoop.



Возвращаясь к рекорду Databricks, нужно заметить, что в 2011 году компания Google осуществила сортировку 1 петабайта данных всего за 33 минуты, но использовала при этом 8000 серверов, тогда как у Databricks было всего 206 виртуальных машин в облаке EC2.


This entry passed through the Full-Text RSS service - if this is your content and you're reading it on someone else's site, please read the FAQ at http://ift.tt/jcXqJW.


Комментариев нет:

Отправить комментарий