Парсер Хабра: Фейки — это ерунда или серьезно?

пятница, 24 апреля 2020 г.

Фейки — это ерунда или серьезно?

Джуд Лоу в образе недобросоветного блогера в фильме "Заражение" раскладывает фейковые объявления о том, что препарат Форсития излечивает вирус MEV-1

Без долгих прелюдий: я считаю, что фейки — зло, они приносят огромный ущерб и с ними надо бороться, особенно в условиях кризисов или жесткой неопределенности (например, во время истерики вокруг COVID-19). Также я считаю, что бороться надо не так, как привыкло наше государство, и еще думаю, что профилактика важнее лечения. Я уверен, что для борьбы с фейками можно применять более современные методы, чем палочная система карательного правосудия, и что фейк фейку — рознь, и надо осознавать природу этих различий.

Эту статью я написал для обеих сторон социального конфликта: и для людей, полагающих, что нельзя ограничивать свободу движения любой информации, и для пары знакомых чиновников, которым хочу дать повод подумать за пределами догмата "запрещать, не пущать и наказывать". В ней есть немного недофилософии, немного юридических аспектов и еще чуток про машинное обучение и искусственный интеллект.

Откуда берутся фейки — кто их придумывает и почему распространяет?

Источники публикаций, вводящих в заблуждение (фейков), разные: кто-то, вероятно, делает это ради шутки, кто-то запускает своеобразный информационный вирус: на фоне тревожной для всех темы люди тиражируют такую информацию массово. Негативные образы наиболее привлекательны: наш ум скорее цепляется за недостатки, чем сосредотачивается на достоинствах. Хотя кто-то наверняка делает это из вредности или, как принято говорить, "в стремлении раскачать конституционный строй".

Но чаще фейки появляются не из злого умысла, а в силу спешки, невнимательности или глупости — из-за механизма "сломанного телефона", когда одни неверно цитируют других, каждый раз добавляя свои детали и интерпретации к оригиналу. Через серию таких цитирований первоначальная информация искажается до неузнаваемости. Пример: Кудрин недавно сказал в интервью РБК, что для борьбы с последствиями кризиса правительство может воспользоваться 30 трлн рублей, который висят на депозитах физлиц — через механизм заимствования, когда банки вместо того, чтобы переиспользовать полученные от вкладчиков средства для выдачи кредитов, купят на них облигации федерального займа — то есть дадут деньги в долг правительству под гарантии. Всем, по идее, должно стать только лучше: деньги пойдут на благо экономики, банки получат гарантии возврата вложенных ими средств (на фоне возросших рисков невозвратов кредитов), а для тех, кто владеет депозитом ничего не изменится. Но некоторые журналисты, пытаясь не столько помочь читателю разобраться, сколько пошуметь и привлечь внимание, первым предложением ввернули фразу "Кудрин предложил использовать деньги со счетов физических лиц", оставив про механизм заимствования где-то в конце и мелким шрифтом. Ну а в соцсетях и чатах это превратилось в "Кудрин предложил отобрать депозиты у людей" — и начались вздохи, возмущения и обсуждения, с кого начнут первым.

Бывают и другие фейки: кто-то хочет на волне паники продать какой-то продукт или препарат. Начинаются публикации про невероятную пользу этого препарата на фоне недоказанного эффекта. Люди в растерянности, хотят во что-то верить и на что-то надеяться, поэтому они хватаются за любую возможность добавить себе уверенности в сегодняшнем и завтрашнем дне. И скупают непроверенный препарат пачками. Иногда кто-то от этого умирает.

Есть и те, кто получает от фейков коммерческую выгоду. Лучше всего это иллюстрируют эпизоды заезженного в последнее время фильма "Заражение" 2011 года про пандемию респираторного вируса: блогер (его играет Джуд Лоу) за деньги опубликовал серию видео, где он сначала якобы болел, а потом излечился от вируса с помощью гомеопатического препарата Форсития. Люди побежали громить аптеки, чтобы добыть хотя бы один пузырек препарата — коммерческую выгоду получил и производитель этого недолекарства, и сам блогер. Все остальные получили только убытки.

Как распознать фейк?

Лучше всего об этом написано в блоге у Максима Ильяхова в заметках по тегу "Пропаганда". Хоть в блоге Максим больше пишет о том, как не попасться на пропагандистские приемы, там много метких наблюдений, которые пригодятся и для распознания фейков (их часто используют именно в пропагандистских целях):

необоснованные обобщения;
отсутствие ссылок и проверяемых источников;
приемы телепатии, когда кому-то приписываются априори непроверяемые мнения и мысли;
и т.д.

Для меня главный признак фейка — непроверяемость источника, когда нельзя проследить, откуда это пошло, кто это сказал и где первичное исследование, публикация, интервью и т.д. Если источник есть или он хотя бы гуглится по ключевым словам, то можно самому докопаться до правильной интерпретации и фактов.

Многие фейки можно распознать достаточно просто: текст статьи совершенно не соотносится с ее заголовком (кликбейты), в статье присутствуют определенные ключевые слова или фразы (например «Отправьте эту новость своим родным и друзьям» или «Правительство скрывает, но мы знаем правду»), сама новость опубликована на ресурсе, который известен как источник фейков.

Велик ли ущерб от фейков и нужно ли с ними бороться?

Ущерб от фейков, по моему мнению, огромен. Иногда он может выражаться в очень серьезных суммах — например, в 2016 году котировки акций французской компании Vinci упали на 20% (с потерей порядка 7 млрд евро капитализации) из-за фальшивой новости в финансовых СМИ об увольнении финансового директора фирмы. Об этом писали Ведомости.

Фейки смущают умы людей, ввергают их в панику и побуждают принимать неверные, а иногда и опасные решения (снова вспомним жителя Аризоны, отравившегося хлорохином для очистки аквариумов). И это касается не только ложных новостей в СМИ — это относится и к другим видам злонамеренного контента, гуляющего по соцсетям: слухам, дезинформации и пропаганде (а она бывает не только правительственная).

У каждого, наверное, есть пара чатов в мессенджерах, где люди делятся новостями, мнениями и ссылками. У меня в одном таком чате собралось несколько ярых оппозиционеров и они постоянно подкидывают какие-то статьи про то, что коронавирус придумали власти предержащие, изолироваться смысла нет, маски носить и руки мыть не надо — будто бы всех нас хотят таким образом приучить к покорности, чипировать и вообще загнать в лагеря. Даже если опасность коронавируса преувеличена и это лишь серьезное ОРВИ вроде гриппа, а не чума 21 века, все меры по борьбе с ним являются разумными — они снижают заболеваемость и негативные исходы не только от коронавируса, но и от других инфекций, которые с приходом коронавируса никуда не исчезли. Если люди будут прислушиваться к подобным безосновательным и вредным призывам, то это обесценит все усилия властей по нормализации ситуации.

Игнорировать фейки нельзя — люди склонны верить не тому, что истинно, а тому, о чем больше говорят. И люди склонны верить плохому больше, чем хорошему — поэтому современная информационная повестка настолько негативна, она вызывает больше эмоций.

Нужны ли законодательные меры против фейков?

С ограничением свободы публикации информации — как и с любым ограничением вообще — следует быть аккуратным. Очень легко перейти грань и начать бомбить неугодных вместо борьбы со злом. И в том, и в другом случае это (объективно — вездесущая) цензура, только цели ее применения разные.

Фейки — зло и бороться с ними определенно нужно. В текущих тревожных обстоятельствах — особенно. И без законодательных мер это делать трудно, т.к. люди, не ощущающие ответственности за свои поступки, способны на худшее. Однако, во-первых, правоохранителям не надо замахиваться сразу на уголовную ответственность по 207.1 УК РФ (административная ответственность тоже может быть весьма чувствительной и у нас на этот счет есть пп. 9 и 10 ст. 13.15 КоАП), а во-вторых, расследовать правонарушения по этим статьям надо не так, как у нас в России иногда бывает — собирая доказательную базу на коленке и принимая потом решения по неким странным "понятиям" (если дело на тебя возбудили, значит, ты неправ) вместо того, чтобы делать все по букве и духу закона.

Увы, когда я так говорю, я не фантазирую и не иду на поводу "оппозиционной повестки". В свое время я 8 лет проработал на госслужбе, а потом, через какое-то время после увольнения, защищал интересы бизнеса по административным правонарушениям в сфере экономики, поэтому насмотрелся на работу отдельных наших правоохранителей и с той, и с другой стороны. И это по экономическим статьям — где и подготовка людей лучше, и рассмотреться можно в довольно компетентных арбитражных судах. А в судах общей юрисдикции, где рассматриваются дела по тем же репостам в отношении граждан, с правосудием бывает туго: что до суда дойдет в материалах дела, то и попадёт в решение (приговор) по принципу copy-paste. Даже президент РФ в июне 2018 года на прямой линии высказывался против происходящего местами "маразма и абсурда", а потом на этот счет выразил мнение и Пленум Верховного суда, объяснив в своем постановлении, что надо как минимум доказать умысел и определить мотивацию, а также исследовать сведения о деятельности человека до и после размещения информации.

Насчет разграничения административной и уголовной ответственности за распространение фейков Верховный суд не далее как 21 апреля тоже высказался в своем обзоре. Правда, очень обтекаемо: попробуйте сами догадаться, в чем разница (см. вопрос №13 внизу страницы 15 обзора).

Я вовсе не хочу принизить значение работы правоохранителей по расследованию преступлений, тех же убийств или краж. Несмотря на то что бывают отдельные случаи, когда никто ничего не находит (или не хочет найти), нам однозначно лучше с текущей системой правоохранения, чем без нее. В ней работают такие же люди, как мы: в целом хорошие и добросовестные. В конце концов, в случае проблем мы всегда обращаемся к ним (правда, иногда получаем ответ в духе "когда убьют, тогда и приходите"). Проблема у правоохранителей возникает, как правило, именно там, где не все до конца понятно, кто и что на самом деле сказал или написал и почему, был ли у него умысел или нет, когда присутствуют сложные логические цепочки и технологические нюансы. Поэтому иногда берут не того, кто виноват, а того, до кого легче добраться, вне зависимости от вины последнего. Скажем, просто заблокируют 2 подсети DigitalOcean по 65 тыс. IP (чьих-то сайтов или сервисов) ради одного неугодного мессенджера.

При всей насущности законодательных мер борьбы с фейками, надо не забывать, что существует целый пласт псевдоновостного юмора (и да, это бывает весьма смешно), когда описание некоего происшествия намеренно доводится до абсурда или какому-то лицу приписывается заведомо ложное и абсурдное высказывание — такого полно и в телеге (заблокирована на территории России), и в соцсетях, и на сайте той же Панорамы.

Иногда такой юмор тоже может нанести вред. После серии репостов (и дописок к ним) такие заметки превращаются в те самые обычные вредоносные фейки, поскольку оговорки о том, что это шутка, обычно в ходе пересылок утрачиваются.

Но если говорить о законодательном регулировании, то я бы лучше добавил норму об условиях таких публикаций (и репостов) в духе требований к упаковкам сигарет — чтобы на любой картинке или заметке стояло большое уведомление, что информация является заведомо ложной и носит шуточный характер. Тогда сколько ни репости такие картинки или статьи, это уведомление не потеряется. А если потерялось, то первый осознанно удаливший уведомление пусть и несет за это установленную ответственность. В этом случае псевдоновостные сайты нанесут меньше ущерба, зато позволят выпустить пар борцам с режимом и сторонникам теории заговоров. Пусть они лучше делают это там, чем на улицах с оружием и коктейлями Молотова.

Если не бить за фейки по рукам, то что делать?

Напомню, что согласно ст. 1.2 КоАП одной из задач административного законодательства является "предупреждение административных правонарушений", а согласно ч. 1 ст. 2 УК РФ одной из задач уголовного законодательства является "предупреждение преступлений". То есть глобальная цель правоохранительной деятельности, уже прописанная в нашем законодательстве, заключается не в том, чтобы посадить всю страну в лагеря, а наоборот, сделать так, чтобы преступления не совершались. Остается только руководствоваться именно этой целью, а не страхом нагоняя сверху за невыполненный план или за прекращенное по объективным причинам дело.

Как и с болезнями, лучше заниматься профилактикой, а не лечить. Вместо создания бодишопов по анализу неугодного контента в сети лучше заняться созданием автоматических систем анализа контента и направления адресных предупреждений его распространителям. Может быть, помочь участникам сферы массовой информации создать такие системы у себя. В конечном счете, лучше заблокировать фейк, чем наказать за его распространение.

Как выявлять фейки автоматически?

Задачу распознавания фейков решают классификаторы, обученные с помощью алгоритмов машинного или глубокого обучения. В общем случае они получают на вход текст статьи со всеми метаданными (заголовок, автор, рубрика, ссылки на источники, дата публикации) и выводят оценку, насколько данная статья похожа на фейк или реальную новость.

В разработке подобных моделей нет ничего необычного: необходимо собрать данные для обучения (с разметкой их истинности или ложности), определиться с набором атрибутов, выбрать алгоритм обучения, настроить параметры. Как правило, фейковые новости распространяются по сети иначе, чем правдивые, и этот факт можно использовать для обучения модели — добавить в перечень атрибутов сведения о последующей "жизни" новости: репосты, лайки, данные пользователей, которые продвигают новость и т.д.

Поскольку данные представляют собой текст на естественном языке, для превращения его в "фичи" необходимо использовать алгоритмы обработки естественного языка (Natural Language Processing, NLP). Например, можно разбивать текст на n-граммы (последовательности слов или символов длины n) или представлять его как “мешок слов” и искать не последовательности, а просто набор определенных терминов, которые вместе чаще встречаются в фейках, чем в реальных новостях. Интересный подход извлечения признаков основывается на идее связности текста в теории риторических структур: в качестве признаков используются метки фрагментов текста типа «обоснование», «уступка», «детализация», «контраст».

Существуют и более сложные алгоритмы обработки естественного языка, когда смысл текста кодируется точкой в многомерном пространстве – превращается в вектор с 300-500 параметрами. С помощью такого подхода можно сравнивать, например, насколько текст новости соотносится с заголовком или насколько одна новость похожа на другую.

Более «прозрачный» подход основан на факт-чекинге. При автоматическом факт-чекинге применяется сравнение с доверенными источниками (скажем, с Википедией — понимая при этом, что она тоже не лишена недостатков), при краудсорсинговом факт-чекинге валидацию на истинность осуществляет большое количество людей, а ПО помогает свести в одно месте результаты этих проверок и автоматизировать публикацию. Например, Марк Цукерберг не так давно писал в своей ленте, что сотрудничает с 60 организациями для проверки новостей на 50 языках. Правда, этого бывает недостаточно — на Хабре была заметка про то, что Facebook пропускает дезинформацию из-за нехватки людей.

Меры по борьбе могут быть и организационными (правиловыми). Например, на Хабре уже писали, что WhatsApp позволяет теперь пересылать популярные сообщения только одному человеку за один раз. При этом "популярным" WhatsApp считает сообщение, которое отправляется через цепочку 5 и более людей.

Автоматические инструменты в теории могут быть весьма результативными: например, Fakebox проводит классификацию на валидационных выборках с точностью выше 95% (в реальном мире на проде цифры могут быть не такими красивыми). Есть и более сложные случаи, и более сложные системы для их классификации. Они решают, насколько можно доверять отдельно тексту статьи, отдельно заголовку и отдельно автору. Точность работы таких систем существенно ниже: для текстов не превышает 65%, для заголовков – 85%, для авторов – 61% (источник). Это означает, что часть фейковых новостей не будет распознана вообще, а часть правдивых новостей будет помечена как фейки.

Аналитические инструменты для выявления фейков в последнее время широко разрабатываются. Есть разные модели с разными архитектурами: Fakebox, FakeDetector, TriFn и другие. Существуют организации, в том числе международные, которые уже давно занимаются ручным поиском и разоблачением фейков: Международная сеть проверки фактов (International Fact-Checking Network), сайт Snopes и др.

Однако надо понимать, что у таких технологий есть и побочные эффекты в виде ложноположительных результатов: иногда заблокированным оказывается и настоящий, не фейковый контент. Увы, это неотъемлемая особенность вероятностных моделей на основе неполной информации, которые не могут дать 100% точности. Чтобы повысить эффективность борьбы — больше блокировать фейки и меньше удалять настоящий контент — нужно прежде всего хорошо поработать над входными данными и затем обеспечить их корректный учет в моделях. Машинное обучение — не волшебный ящик, который сам разберется, где правда. Это мощный инструмент, который требует бережного обращения и внимательной настройки.

А есть что получше?

Есть.

Если понимать борьбу с фейками не только как работу конкретного алгоритма или конкретные действия по отношению к конкретному кусочку текста (или конкретному человеку), то серьезную роль в победе над фейками может сыграть просвещение — распространение правдивой информации: о коронавирусе, о ситуации в стране, о мерах, принимаемых компаниями и правительствами, а также о том, почему именно такие решения были приняты, а не другие.

Лучший инструмент борьбы с фейками — правда. Нужно не бояться публиковать честную статистику и освещать на всех доступных площадках честную информацию, не утаивая и не преувеличивая свои успехи.

Честность — это очень важно. Люди видят, что происходит вокруг, они не идиоты. Если говорить про то, что мы добились невероятных успехов и на каждом углу продают маски по 10 рублей, а ВВП, несмотря на остановку производственных цепочек, вырос на 10%, то люди элементарно перестанут верить государству и начнут верить фейкам. И вот так — своими фейками против других фейков — лучше не бороться. А если обильно и честно делиться информацией, составлять инструкции на человеческом языке, объяснять, как и что работает — как делает, например, тот же Алексей Водовозов, тогда и пространства для домыслов останется куда меньше.

Можно ли разговаривать с людьми правильно, чтобы они мотивированно (а не из-под палки) делали то, что хочет государство и у них не сводило скулы от кислоты канцелярита? Можно и нужно — об этом рассказывает c примерами Ильяхов на проекте Говорит государство и еще в начале 20 века писала гениальная Нора Галь в книге "Слово живое и мертвое".

Вообще, я уверен, что открытость корпораций и представителей власти, масштабная работа с населением не в позиции сверху вниз, а на равных, и ответы на волнующие людей вопросы понятным человеческим языком могут помочь в борьбе с недостоверной информацией больше, чем совершенствование алгоритмов или любые карательные меры.

Спасибо krinistopen и wordvictor за массу ценных дополнений и замечаний.

Let's block ads! (Why?)

Парсер Хабра

...

пятница, 24 апреля 2020 г.

Фейки — это ерунда или серьезно?

Откуда берутся фейки — кто их придумывает и почему распространяет?

Как распознать фейк?

Велик ли ущерб от фейков и нужно ли с ними бороться?

Нужны ли законодательные меры против фейков?

Если не бить за фейки по рукам, то что делать?

Как выявлять фейки автоматически?

А есть что получше?

Комментариев нет:

Отправить комментарий

...

пятница, 24 апреля 2020 г.

Фейки — это ерунда или серьезно?

Откуда берутся фейки — кто их придумывает и почему распространяет?

Как распознать фейк?

Велик ли ущерб от фейков и нужно ли с ними бороться?

Нужны ли законодательные меры против фейков?

Если не бить за фейки по рукам, то что делать?

Как выявлять фейки автоматически?

А есть что получше?

Комментариев нет:

Отправить комментарий

пятница, 24 апреля 2020 г.