Парсер Хабра: Большой Адронный Коллайдер: круги LHC и путь данных

вторник, 15 октября 2013 г.

Большой Адронный Коллайдер: круги LHC и путь данных

LHC (Large Hadron Collider) не только огромный научный эксперимент, но и сложнейшая вычислительная сеть.

В этом посте (а если будет хорошо получаться и людям будет интересно, то и в серии) я попробую рассказать что же происходит со «стопкой CD дисков высотой в 20км», которые коллайдер генерирует каждый год (сейчас, кстати, он остановлен и новых данных в ближайшие год-два не будет).

Что же происходит данными?

Детекторы четырех экспериментов (ATLAS, Alice, LHCb, CMS) регистрируют прохождение через них элементарных частиц (события). То, что зафиксировали детекторы — сырые данные (RAW data). Их поток огромен и очень неравномерно распределен по времени: в день набегает около 40Tb сырых данных (~15Pb в год), но все это происходит за несколько часов эксперимента. Единственное что можно сделать с этим потоком на нулевом уровне (Tier-0) — просто сохранить данные для последующей обработки. После того как данные сохранены начинается их обработка. Вычислительные мощности Tier-0 не велики, «всего» ~50000 ядер, что, примерно, 10% от общей вычислительной мощности всего ГРИД, обслуживающего LHC. В Tier-0 производится предварительная обработка данных: убираются естественные шумы итд (в этих вопросах я, к сожалению, не силен). Таким образом в Tier-0 имеется полная копия данных, когда либо полученных на LHC. Объем хранилища Tier-0 составляет 83Pb лент и 33Pb дисков.

Дальше эти данные распределяются между 11 вычислительными центрами по всему миру(в Канаде, Германии, Испании, Франции, Италии, Голландии, Тайване, Англии, США х2, коллаборации стран северной Европы. В России делают 12ый) — Tier-1. Tier-0 связан с каждым Tier-1 высокоскоростным линком (обычно, от 2Gb/s).

В каждом Tier-1 сырые данные так же складируются на ленты. Кроме этого, там начинается основная обработка данных.

Каждый эксперимент по разному использует вычислительные мощности Tier'ов, но суть одна: на основе данных с детекторов и законов физики восстанавливаются траекторий миллионов частиц и картина столкновения пучков. Кроме восстановления событий проверяется на сколько хорошо та или иная математическая модель соответствует полученным в ходе экспериментов результатам.

Вычислительные мощности Tier-1 и объемы хранилищ относительно велики. Например, английский Tier-1 имеет примерно по 10Pb лент и дисков и около 14000 ядер.

Не каждый желающий поучаствовать в экспериментах может себе это позволить. По этому данными из Tier-1 «кормятся» вычислительные центры поменьше (Tier-2, которых насчитывается около 140, и Tier-3).

Tier-2 уже не имеют собственных ленточных хранилищ, и обрабатывают только с данные, полученные с Tier-1 своего региона.

Центров уровня Tier-2 в России 9. Для сравнения: на все российские Tier-2 вычислительные комплексы приходится «всего» 4Pb дисков и 7500 ядер, которые распределены между вычислительными центрами крайне неравномерно.

This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at fivefilters.org/content-only/faq.php#publishers. Five Filters recommends: