...

четверг, 27 февраля 2020 г.

Как DLP-система и модуль OCR помешали сотрудникам подделывать сканы паспортов

Помните историю с утечкой паспортных данных у 500 млн клиентов сети отелей Marriott? Данные могли оказаться у злоумышленников, и гостиничная группа даже обещала оплатить пострадавшим постояльцам расходы на смену паспортов. Подобных случаев происходит немало. Понятно, почему: на сегодняшний день более 50% компаний хранит больше половины своих документов в виде сканов, скриншотов, PDF. Еще три года назад таких документов в организациях было не более трети. По данным нового исследования «СёрчИнформ», 51% компаний отметили, что количество документов в формате изображений увеличилось.

В последнее время чаще всего утечкам в виде изображений подвергаются юридически значимые документы, например, договоры. На втором месте в «группе риска» — финансовые документы: бухгалтерские балансы, отчеты о прибылях и убытках и так далее. Потеря таких данных не только грозит репутационными рисками для компании, но и может привести к срыву сделок. Чтобы уберечь важные данные от посторонних и злоумышленников, в информационные системы компаний устанавливают DLP – системы предотвращения утечек информации.

Мы уже рассказывали на Хабре о том, как работает «СёрчИнформ Контур информационной безопасности» (КИБ) и модуль OCR на базе технологического продукта ABBYY FineReader Engine. Теперь вместе с сотрудниками отдела внедрения продуктов «СёрчИнформ» мы собрали четыре истории об утечках разных видов данных через корпоративные и личные почтовые ящики. И разобрались в том, как их выявить с помощью DLP-системы с модулем OCR.



В одной туристической компании сотрудник пересылал на личную почту файлы в графическом формате. С помощью технологий ABBYY удалось установить, что вложения были сканами паспортов, а это грубое нарушение работы с документами, удостоверяющими личность. К тому же это было серьезным нарушением политики безопасности данной туркомпании.

Как именно выяснилось, что графические файлы были сканами паспортов? С помощью встроенных OCR-технологий DLP-система распознала текст на скане, проанализировала его и определила, что в документе есть номер паспорта. Есть и другие характеристики, которые свойственны только паспортам, например, наличие в документе фразы типа «Паспорт выдан», «Код подразделения» и др. Более того, для распознавания ряда документов, в том числе паспорта, DLP-система использует классификатор ABBYY. Он уточняет работу OCR-технологий, и это в итоге повышает точность результата.

Специалисты ИБ-службы начали расследовать инцидент и узнали, что конфиденциальные файлы передавались из-под учетной записи дизайнера компании, с его компьютера. У всех документов были похожие названия – «Сканы», «Сканы_new», «Сканы_1»:

Запись с монитора рабочей станции дизайнера в режиме отдельных снимков экрана, которые делает модуль DLP-системы MonitorController, показала, что дизайнер работал в Photoshop со сканами паспортов. Он вырезал из них фотографии и потом вставлял вместо них новые:

Проанализировав все действия дизайнера, служба безопасности установила, что сотрудник подделывал сканы документов. Фальшивки высокого качества могли использоваться для регистрации в интернет-сервисах, когда злоумышленник не хочет «светить» свою настоящую личность. Автоматическим системам проверки было бы сложно определить подлинность информации на таких изображениях.

Таким образом, технологии помогли отследить ситуацию с утечкой данных и подделкой сканов паспортов. Благодаря этому компания исключила риск навредить своей репутации.



В компании по производству нефтехимии хранились заполненные от руки анкеты с данными сотрудников. DLP-система зафиксировала факт отправки этих анкет за пределы организации: сработала политика безопасности по пересылке персональных данных.

DLP-система подала сигнал, благодаря тому что встроенный в нее модуль OCR умеет работать с рукопечатным текстом и распознавать его с точностью свыше 88%. Это делается с помощью структурного классификатора. Подробнее о технологиях интеллектуального распознавания символов ABBYY – intelligent character recognition (ICR) – мы уже рассказывали на Хабре.

Наличие персональных данных в анкетах стало сигналом для проверки инцидента. Обнаружилось, что анкеты содержали еще и телефоны, а также подробную информацию о состоянии здоровья сотрудников. Если данные утекают, то это кому-нибудь нужно. Например, они могут быть интересны тем, кто рекламирует медицинские услуги и занимается социальной инженерией.

Сканы анкет легко могли оказаться в публичном доступе и это привело бы к непоправимым последствиям. Эти данные могли извлечь злоумышленники и тем самым нанести вред не только сотрудникам, но и репутации всей компании. В этом случае сотрудник, чья анкета оказалась в чужих руках, мог пожаловаться в трудовую инспекцию, Роскомнадзор или рассказать об истории в социальных сетях.

Сложность этого кейса в том, что далеко не все технологии могут распознать рукопечатный текст, но модуль OCR ABBYY такое умеет. Приведем пример. Ниже анкета, заполненная от руки:


И результат распознавания такой анкеты:


Модуль распознавания текста ABBYY помог раскрыть схему промышленного шпионажа. Один из наемных топ-менеджеров компании, который переехал в Россию из-за рубежа, со своей личной почты пересылал бывшим коллегам графические файлы. DLP-система обнаружила этот факт.

Благодаря модулю OCR, DLP-система извлекла текст с фотографий и выяснила, что сотрудник отправлял вовне фото технической документации к актуальным разработкам компании. Затем DLP проанализировала тексты по алгоритму «поиск похожих». Он способен определять тексты, близкие по содержанию или даже смыслу к эталону.

Сложность была в том, что конфиденциальные документы были на языке одной из стран СНГ. Но и DLP-система, и OCR-модуль могут работать с этим языком. Модуль OCR распознает документы на 210 языках (в формате печатного текста) и 126 языках (в формате рукопечатного) — например, языки с алфавитами на основе латиницы, кириллицы, греческих и армянских символов и многие другие. Можно работать даже с документами на смешанных языках, если, например, там используются слова на языке СНГ и названия на английском.

Причем вся техническая документация содержит много таблиц, чертежей, графиков и диаграмм. Зачастую надо понять, что в них написано, так как эта информация может играть существенную роль. Модуль OCR хорошо распознает таблицы и другие сложные структуры в документах. Благодаря этому он может извлечь всю информацию из графиков, например, чтобы понять, актуальные ли данные или уже устаревшие.

DLP-система просигнализировала об утечке технической документации сотрудникам ИБ-службы, они проанализировали инцидент и подтвердили, что сигнал не ложный и фото действительно было сделано с конфиденциальных документов. В результате началась проверка рабочей переписки этого руководителя. Специалисты ИБ обнаружили, что он сливал своим приятелям за границей ценные данные, которыми могли воспользоваться (спойлер: и воспользовались) конкуренты из другого государства. Например, в его письмах был неформальный разговор с хвастовством о том, как «его друзья освоят рынок первыми и обойдут всех», в том числе и компанию, в которой топ-менеджер работал на тот момент.

Но на этом история не заканчивается. Служба безопасности продолжила расследовать этот случай, используя возможности DLP-системы. Программа помогла обнаружить переписку с заказчиками. Выяснилось, что топ-менеджер открыл свое юрлицо и выдавал его за авторизованный сервисный центр «родной» компании. Он забирал у работодателя часть заказов на ремонт, но при этом использовал не новые, а списанные запчасти. Это привело к жалобам клиентов на основную компанию и потере репутации. Во-первых, компания утратила конкурентное преимущество, а во-вторых, недополучила прибыль, так как заказы уходили налево.



Руководитель инженерного отдела крупной компании оформил больничный. Этот факт не привлек бы внимания, если бы ранее в DLP-системе не сработала политика безопасности, которая фиксирует пересылку авиабилетов.

Дело в том, что ранее на почту сотруднику пришло письмо с графическим вложением в формате PDF. Благодаря модулю OCR текст на PDF был распознан,



и аналитический модуль DLP по фразовому поиску уточнил, что вложенный файл – авиабилет. Это было сделано по набору фраз, который характерен только для электронных билетов, например, «время вылета», «код бронирования», «рейс», «электронный билет» и т.п. В итоге оказалось, что даты перелета совпадали по времени с больничным.

А дальнейшее расследование показало, что руководитель инженерного отдела направлялся в другой город на собеседование, что подтвердила и его дальнейшая переписка с HR конкурентов, которую служба безопасности нашла и проанализировала. Таким образом DLP-система помогла руководству компании поставить ситуацию на особый контроль и подготовиться к увольнению сотрудника. Удалось пресечь потенциальную утечку важных данных конкурентам и сохранить непрерывность рабочего процесса на предприятии.



Как вы видите, кейсы разные, но во всех случаях документы поддаются распознаванию и анализу. Если у вас есть примеры необычных утечек документов в виде изображений или фотографией, делитесь ими в комментариях. Мы поможем разобрать эти ситуации.

Let's block ads! (Why?)

1 комментарий:

  1. As reported by Stanford Medical, It is in fact the ONLY reason women in this country get to live 10 years more and weigh on average 42 lbs less than us.

    (And by the way, it has absolutely NOTHING to do with genetics or some secret diet and really, EVERYTHING about "how" they eat.)

    P.S, What I said is "HOW", not "WHAT"...

    Click this link to reveal if this short test can help you release your true weight loss possibilities

    ОтветитьУдалить