Парсер Хабра: Сколько чисел в массиве

вторник, 28 июля 2015 г.

Сколько чисел в массиве

Небольшая предыстория. Этот пост я написал для двух целей. Во-первых, обкатать конвертор разметки Markdown + в хабрачитаемый вид. Во-вторых, рассказать об интересной задаче из data streaming. К концу написания, я обнаружил пост про LogLog четырехлетней давности. На мою удачу автор предыдущего поста делал упор на реализацию. Я же, полагаясь на , расскажу больше о математике.

Давайте представим, что у нас есть роутер. Через роутер проходит много пакетов по разным адресам. Нам интересно получить статистику, как много адресов задействовано в коммуникации. Есть пара проблем.

Пакетов так много, что запомнить их все нельзя. Сказать ушедшему пакету «Вернись! Я все прощу,» — тоже.
Всех возможных адресов . Столько памяти на роутере нет.

Задача. Есть последовательность целых чисел , все числа принимают значения от до . Требуется в один проход посчитать количество различных чисел, используя памяти.

Я расскажу вероятностный приближенный алгоритм Флажолета-Мартина. ТТХ алгоритма:

использует памяти!
работает на любом входе;
находит ответ, который отличается от точного не более чем в 3 раза с вероятностью :

вероятность берется по случайным битам алгоритма.

В конце поста я расскажу, почему точные детерминированные алгоритмы требуют inline_formula

памяти.

Алгоритм Флажолета-Мартина

Представим, что у нас есть отрезок действительных чисел inline_formula

. На отрезок мы независимо случайно кидаем inline_formula

точек согласно равномерному распределению. Какое будет расстояние между крайней левой точкой и нулем?

Можно предположить, что точки разделят отрезок на inline_formula меньших подотрезков примерно одинаковой длины. Если аккуратно записать матожидание расстояния и взять интеграл, мы получим

Пусть кто-то кинул случайно несколько точек на отрезок, и inline_formula

— расстояние от нуля до крайней левой точки. Можно прикинуть, что всего точек порядка inline_formula

Идея алгоритма Флажолета-Мартина — случайно бросить все числа последовательности inline_formula на отрезок , а затем найти расстояние от нуля до крайней левой точки. Если одинаковые числа будут всегда отображаться в одну точку, а разные независимо распределяться по отрезку, мы сможем прикинуть ответ.

2-независимые хэш-функции

Бросать числа на отрезок мы будем с помощью случайной хэш-функции.

Определение. Семейство хэш-функций называется 2-независимым, если для любых и

Смысл определения в следующем. Зафиксируем два каких угодно ключа inline_formula

.
Ключи — различные. Посмотрим на случайные величины inline_formula

. Случайность задается выбором функции inline_formula

. Тогда, по определению, величины inline_formula

будут вести себя как независимые.

Как следствие, если взять всего один ключ inline_formula , то величина будет равномерна распределена по .

Для примера возьмем простое число inline_formula . Пусть . — это семейство всех линейных отображений по модулю :

для

. Тогда

Поскольку

, система имеет ровно одно решение среди inline_formula

возможных:

Поймем два важных момента. Во-первых, хранение такой функции обходится в inline_formula

памяти, что очень немного. Во-вторых, если внимательно приглядеться, то можно понять, что вычисления проходят в поле inline_formula

, и могут быть обобщены для любого конечного поля.

В тестовом коде я буду использовать поле Галуа inline_formula . В описании далее можно считать, что у нас есть семейство хэш-функций , где — степень двойки. Хранение одной функции занимает памяти.

Алгоритм

Пусть

— степень двойки.
Перед стартом, алгоритм случайно выбирает хэш-функцию inline_formula

из 2-независимого семейства.

Будем бросать элементы последовательности на отрезок inline_formula . Берем очередное значение и записываем: ноль, точка, в двоичном виде. Например, если , то получится число .

Обозначим через inline_formula число лидирующих нулей в двоичной записи . Пусть . Мы знаем, что минимальное значение лежит между и .

Ответ алгоритма: inline_formula .

def init():
        h = H.sample()
        z = 0
        
def process(a):
        z = max(z, zero(h(a))
        
def answer():
        return 2**(z + 0.5)

Анализ

вероятностью
Я планирую показать, что ответ алгоритма будет в 3 раза больше верного с вероятностью меньшей inline_formula

. Аналогично, алгоритм вернет ответ в 3 раза меньше верного вероятностью меньшей inline_formula

. Если вы не планируете углубляться в математику, смело переходите к следующей части.

Обозначим через inline_formula множество всех различных чисел последовательности , а — их количество.

Для анализа алгоритма, нам потребуются два набора случайных величин.

Заметим, что вероятность inline_formula

: величина inline_formula

равномерно распределена по отрезку inline_formula

;

— степень двойки; есть всего inline_formula

чисел с

лидирующими нулями.

Значит, матожидание inline_formula . Ограничим сверху дисперсию

Заметим, что дисперсия по величинам inline_formula

линейна. Для любых двух inline_formula

Поскольку

независимы, то inline_formula

. Значит,

Более того, inline_formula

, поскольку величины inline_formula

— 2-независимы.

Теперь рассмотрим величину inline_formula .

по линейности матожидания.
по линейности дисперсии для 2-независимых величин.

Пусть

— минимальное число такое, что inline_formula

. Событие «алгоритм выдал ответ в 3 раза больше нужного» равносильно событию inline_formula

и равносильно событию inline_formula

. Применяя неравенство Маркова, ограничим вероятность

Пусть

— максимальное число такое, что inline_formula

. Аналогично, событие «алгоритм выдал ответ в 3 раза меньше нужного» равносильно событию inline_formula

и равносильно событию inline_formula

. Применяя неравенство Чебышёва, получим

Финальный аккорд: медиана

Осталось понять как понизить ошибку. Возьмем случай, когда алгоритм выдает слишком большой ответ. Запустим алгоритм параллельно inline_formula

раз и вернем медиану среди ответов. Я утверждаю, что если inline_formula

, то алгоритм ошибется с вероятностью не больше inline_formula

. Аналогично, ограничив ошибку в другую сторону, получим

Почему медиана так работает? По неравенству Чернова. Заведем случайную величину inline_formula

. Величина inline_formula

равна единице, если ответ алгоритма на inline_formula

запуске меньше inline_formula

. Вероятность этого события не меньше 0.52.

Если медиана inline_formula запусков алгоритма больше , то это значит, что алгоритм хотя бы половину раз выдал ответ больший и . Тогда по неравенству Хефдинга-Чернова

где

— некоторая константа. Другой случай показывается аналогично.

Нижняя оценка для точного алгоритма

Давайте представим, что кто-то действительно придумал детерминированный алгоритм, который в один проход находит точное число различных элементов в один проход. Мы покажем, что такой алгоритм должен использовать inline_formula

памяти.

Возьмем множество inline_formula размера и положим его в качестве начала последовательности. Скормим эту часть алгоритму и посмотрим на его память.

Из одной только памяти алгоритма можно извлечь все множество inline_formula . Если скормить в текущем состоянии число , ответ алгоритма не изменится; если , то увеличится на 1. Значит, каждому множеству должно соответствовать свое уникальное состояние памяти.

Различных подмножеств из inline_formula размера примерно . Если мы хотим каждому множеству сопоставить битовую строку, нам потребуется

Что почитать

«Probabilistic Counting Algorithms for Data Base Applications», Flajolet, Martin, 1983, link.
«The space complexity of approximating the frequency moments», Alon, Matias, Szegedy, 1999, link.

This entry passed through the Full-Text RSS service - if this is your content and you're reading it on someone else's site, please read the FAQ at http://ift.tt/jcXqJW.

Парсер Хабра

...

вторник, 28 июля 2015 г.

Сколько чисел в массиве

Алгоритм Флажолета-Мартина

2-независимые хэш-функции

Алгоритм

Анализ

Финальный аккорд: медиана

Нижняя оценка для точного алгоритма

Что почитать

Комментариев нет:

Отправить комментарий

...

вторник, 28 июля 2015 г.

Сколько чисел в массиве

Алгоритм Флажолета-Мартина

2-независимые хэш-функции

Алгоритм

Анализ

Финальный аккорд: медиана

Нижняя оценка для точного алгоритма

Что почитать

Комментариев нет:

Отправить комментарий

вторник, 28 июля 2015 г.