Мировой рекорд Hadoop | Spark 100 ТБ | Spark 1 ПБ | |
Объём данных | 102,5 ТБ | 100 ТБ | 1000 ТБ |
Время | 72 мин | 23 мин | 234 мин |
№ узлов | 2100 | 206 | 190 |
№ ядер | 50400 | 6592 | 6080 |
№ reducer'ов | 10,000 | 29,000 | 250,000 |
Скорость | 1,42 ТБ/мин | 4,27 ТБ/мин | 4,27 ТБ/мин |
Скорость/узел | 0,67 ГБ/мин | 20,7 ГБ/мин | 22,5 ГБ/мин |
Правила теста Daytona | Да | Да | Нет |
Окружение | Дата-центр | EC2 (i2.8xlarge) | EC2 (i2.8xlarge) |
Прежний рекорд был установлен в компании Yahoo с использованием популярного приложения Hadoop MapReduce.
Новое достижение ценно само по себе, но оно также демонстрирует быстрый технологический прогресс в области Big Data. Долгое время Hadoop считался передовым приложением в своей сфере, но теперь ситуация меняется.
Даже сама компания Google, которая одной из первых начала использовать Hadoop больше 10 лет назад, уже перешла на новые инструменты, такие как Dremel. Миграция началась в районе 2009 года.
По мнению специалистов, основная проблема Hadoop заключается в том, что он спроектирован для обработки информации пачками (batch’ами). Так что если вы добавляете ему новые данные, то нужно создавать новый batch.
Хотя Hadoop до сих пор используют многие крупные веб-сервисы, в том числе Facebook, Twitter и eBay, но новые инструменты показывают лучшую производительность. Некоторые из них созданы на основе того же Hadoop.
Spark — лишь один из нескольких проектов, которые нацелены на замену Hadoop. Среди прочих можно назвать Impala от компании Cloudera, Drill от компании MapR, а также Yarn в составе того же Hadoop.
Возвращаясь к рекорду Databricks, нужно заметить, что в 2011 году компания Google осуществила сортировку 1 петабайта данных всего за 33 минуты, но использовала при этом 8000 серверов, тогда как у Databricks было всего 206 виртуальных машин в облаке EC2.
This entry passed through the Full-Text RSS service - if this is your content and you're reading it on someone else's site, please read the FAQ at http://ift.tt/jcXqJW.
Комментариев нет:
Отправить комментарий