В отличие от нынешней практики компьютерного зрительного восприятия, пояснительный контекст, необходимый для решения визуальных деталей, может быть не только целиком и полностью местным. Мигающий быстрый красный прыгающий сигнал вдоль земли может быть детской игрушкой в контексте игровой площадки или петухом в контексте скотного двора. Было бы полезно иметь большое количество детекторов предметов, способных сигнализировать наличие таких предметов, включая детекторы для песочниц, качелей, горок, коров, кур, овец и сельскохозяйственных машин, необходимые для распознавания контекста с целью проведения разграничения между этими двумя возможными вариантами.
Лауреаты премии CVPR Best Paper Award (за лучший доклад по компьютерному зрению и распознаванию образов) этого года, в соавторстве с командой Googlers, куда входят Том Дин, Марк Рузон, Марк Сегал, Джонатан Шленс, Субхиндра Виджьянарасимхан и Джей Йягник, описывают технологию, которая позволит системе компьютерного зрения извлечь нужный тип семантически богатой контекстной информации, необходимой для распознавания визуальных категорий, даже если тщательного просмотра пикселей, покрывающих рассматриваемый объект, может быть недостаточно для их идентификации при отсутствии такой контекстной подсказки. В частности, рассмотрим основную операцию в машинном зрении, которая включает в себя определение уровня каждого конкретного местоположения объектов в изображении, где может присутствовать какой-либо конкретный объект.
Это так называемый оператор свертки, который является одним из ключевых элементов, используемых в машинном зрении и, более широко, в обработке всех сигналов. К сожалению, в вычислительном отношении, он дорог и, поэтому исследователи используют его экономно или пользуются экзотическим оборудованием SIMD, таким как графические процессоры и ПЛИС для уменьшения вычислительных затрат. Поставим всё с ног на голову, чтобы показать, как можно использовать быстрый табличный поиск – метод, называемый хешированием – для обмена времени на пространство, заменив вычислительно дорогой внутренний контур оператора свертки — последовательность операций умножения и сложения, необходимую для выполнения миллионов сверток, на один табличный поиск.
Мы демонстрируем преимущества нашего подхода путем масштабированного обнаружения объектов, доведя его из текущего состояния с привлечением нескольких сотен или, по большей мере, несколько тысяч категорий объектов до 100 000 категорий, что было бы эквивалентом более миллиона сверток. Кроме того, наша демонстрация была проведена на одном обычном компьютере, которому требуется всего лишь несколько секунд для каждого изображения. Основная технология используется в нескольких частях инфраструктуры Google и может быть применена к решению проблем вне компьютерного зрения, таких как обработка слуховых сигналов.
В среду, 26 июня, инженеры Google, ответственные за эти исследования, были награждены за лучший доклад на конференции IEEE по компьютерному зрению и распознаванию образов, которая состоялась в Портленде, штат Орегон.
Полный текст доклада можно найти здесь.
Цель публикации на Хабре: прочитать комментарии о перспективах технологий на базе данного исследования и их применения в рамках интернета.
P.S.
Это моя первая публикация на Хабре. Буду рад вашим замечаниям. И не судите строго.
Из-за нехватки кармы, нет возможности публиковать в хабах «Искусственный интеллект» и «Google».
Буду благодарен, если подскажите как перенести в указанные хабы.
This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at fivefilters.org/content-only/faq.php#publishers. Five Filters recommends: 'You Say What You Like, Because They Like What You Say' - http://www.medialens.org/index.php/alerts/alert-archive/alerts-2013/731-you-say-what-you-like-because-they-like-what-you-say.html
Комментариев нет:
Отправить комментарий