Парсер Хабра: Библиотека Trove. Коллекции примитивных типов в Java

суббота, 20 июля 2013 г.

Библиотека Trove. Коллекции примитивных типов в Java

В стандартной библиотеке Java отсутствует возможность оперировать коллекциями примитивных типов, таких как int, long и т.д. Стандартный выход — использовать объекты классов Integer, Long и т.д.

Такой подход хорошо работает на небольшом количестве элементов, поскольку, во-первых, при любой операции происходит autoboxing/autounboxing и во-вторых, в коллекции хранятся ссылки на объекты в heap. Объекты в heap не только вносят дополнительный overhead по памяти, но и создают нагрузку на GC.

Есть еще один неочевидный минус объектов в heap — кэширование в современных процессорах. Процессор загружает данные в кэш блоками. В случае последовательной обработки массива, в кэш загружается сразу несколько элементов. В случае же объектов разбросанных по heap, попаданий в кэш будет меньше. Подробнее про кэширование и иерархию памяти здесь.

Библиотека Trove представляет стандартный интерфейс коллекций для работы с примитивными типами. Для большинства применений, коллекции Trove работают быстрее и потребляют меньше памяти.

В набор коллекций входят:

В отличии от jdk, в Hash'ах Trove используется Open addressing метод разрешения коллизий.

Принцип именования — T<Type><CollectionType>.

Например:

Интерфейс TIntList — List of int, реализация TIntArrayList:


TIntList l = new TIntArrayList();

Интерфейс TLongLongMap — Map c ключами long и значениями long, реализация TLongLongHashMap:


TLongLongMap m = new TLongLongHashMap();

В jdk коллекциях, в случае если элемент не найден — возвращается null. В Trove возвращается «NoEntryValue», по умолчанию — 0. Узнать NoEntryValue, задать NoEntryValue можно при создании коллекции.

Плюсом коллекций Trove являются методы обработки — forEach,


    public static long troveEach() {
        final long [] rvalue = {0};
// troveMap - TLongLongHashMap
// TLongProcedure будет вызываться для каждого элемента коллекции, 
// пока не вернет false
// или не кончатся элементы
        troveMap.forEachValue(new TLongProcedure() {
            @Override
            public boolean execute(long value) {
                rvalue[0] += value;
                return true;
            }
        });
        return rvalue[0];
    }

grep, inverseGrep — формирование списка по условию (для TList...) и transformValues — inplace операции изменения над элементами коллекции.

Полезная возможность — в случае HashMap/HashSet c объектом (наследником Object) в качестве ключа, можно использовать свою hash функцию Interface HashingStrategy<T>.

Для бенчмаркинга использовался отличный benchmark tool jmh.

Было бы замечательно, если бы разработчики опубликовали его в maven repository.

Вывод пришлось слегка подредактировать, что бы сохранить форматирование, одна операция — 1млн элементов (полный отчет здесь):


$ java -version
java version "1.7.0_21"
Java(TM) SE Runtime Environment (build 1.7.0_21-b11)
Java HotSpot(TM) 64-Bit Server VM (build 23.21-b01, mixed mode)

$ java -server -XX:+AggressiveOpts -Xms2048m \
  -Xmx2048m -jar microbenchmarks.jar ".*Trove.*" -prof gc -i 3 -r 5s


Benchmark                    Mode Thr    Cnt  Sec         Mean   Mean error    Units
// Вставка в List<Integer>
IntListJdkInsert            thrpt   1      3    5      104.950        6.756  ops/sec
// Полный перебор List<Integer>
IntListJdkTraverse          thrpt   1      3    5      774.100       71.809  ops/sec

// Вставка в TIntArrayList
IntListTroveInsert          thrpt   1      3    5      424.556       28.239  ops/sec
// Полный перебор TIntArrayList
IntListTroveTraverse        thrpt   1      3    5     3548.806        7.712  ops/sec

// Вставка в HashMap<Long, Long>
LongHashMapJdkInsert        thrpt   1      3    5       24.683        1.994  ops/sec
// поиск всех элементов в HashMap<Long, Long> по очереди
LongHashMapJdkSearch        thrpt   1      3    5       67.789        1.119  ops/sec
// полный перебор значений HashMap<Long, Long>
LongHashMapJdkTraverse      thrpt   1      3    5       99.761        0.882  ops/sec

// Вставка в TLongLongMap
LongHashMapTroveInsert      thrpt   1      3    5       28.750        0.165  ops/sec
// поиск всех элементов в TLongLongMap по очереди
LongHashMapTroveSearch      thrpt   1      3    5      145.933        0.416  ops/sec
// полный перебор значений TLongLongMap, с использованием forEach
LongHashMapTroveTraverse    thrpt   1      3    5      318.528        0.980  ops/sec

Количество занятой памяти подсчитать не так просто, но косвенный вывод можно сделать по активности GC:


Вставка jdк в List<Integer>:
Iteration   1 (5s in 1 thread): 103,950 ops/sec
 GC | wall time = 5,002 secs,  GC time = 0,331 secs, GC% = 6,62%, GC count = +24

Вставка Trove в TIntArrayList:
Iteration   1 (5s in 1 thread): 428,400 ops/sec
  GC | wall time = 5,002 secs,  GC time = 0,019 secs, GC% = 0,38%, GC count = +32

Если посмотреть в исходники TIntArrayList, то станет понятно откуда прирост производительности — данные хранятся в виде массива:


public class TIntArrayList implements TIntList, Externalizable {
        static final long serialVersionUID = 1L;

    /** the data of the list */
    protected int[] _data;

Скорость перебора TLongLongMap объясняется иcпользованием forEach — не создается временных объектов и исключен unboxing.

Тот же benchmark, но одна операция — 1тыс элементов:


Benchmark                    Mode Thr    Cnt  Sec         Mean   Mean error    Units
IntListJdkInsert            thrpt   1      3    5   239478.011      871.469  ops/sec
IntListJdkTraverse          thrpt   1      3    5  1326701.717     1649.389  ops/sec

IntListTroveInsert          thrpt   1      3    5   315562.594     2483.415  ops/sec
IntListTroveTraverse        thrpt   1      3    5  3630599.806    10822.903  ops/sec

LongHashMapJdkInsert        thrpt   1      3    5    45315.689       47.630  ops/sec
LongHashMapJdkSearch        thrpt   1      3    5   114759.789      424.996  ops/sec
LongHashMapJdkTraverse      thrpt   1      3    5   210012.550      139.001  ops/sec

LongHashMapTroveInsert      thrpt   1      3    5    33078.583      119.127  ops/sec
LongHashMapTroveSearch      thrpt   1      3    5   148311.567      267.613  ops/sec
LongHashMapTroveTraverse    thrpt   1      3    5   351955.550      901.902  ops/sec

Видно, что при сокращении количества элементов в коллекции, разрыв в производительности падает.

Можно сделать вывод о том, что если коллекции небольшие и используются нечасто, то включать в проект дополнительную зависимость особого смысла нет.

Но если в проекте массово используются большие коллекции примитивных типов, то применение Trove может быть оправдано.

Код проекта доступен на GitHub.

PS. Значения количества элементов при создании коллекций не были заданы намеренно.

This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at fivefilters.org/content-only/faq.php#publishers. Five Filters recommends: 'You Say What You Like, Because They Like What You Say' - http://www.medialens.org/index.php/alerts/alert-archive/alerts-2013/731-you-say-what-you-like-because-they-like-what-you-say.html

Парсер Хабра

...

суббота, 20 июля 2013 г.

Библиотека Trove. Коллекции примитивных типов в Java

Комментариев нет:

Отправить комментарий

...

суббота, 20 июля 2013 г.

Библиотека Trove. Коллекции примитивных типов в Java

Комментариев нет:

Отправить комментарий

суббота, 20 июля 2013 г.