Отравление данных может сделать чат-ботов с искусственным интеллектом менее эффективными, говорят исследователи

Группа исследователей искусственного интеллекта недавно обнаружила, что всего за 60 долларов злоумышленник может подделать наборы данных. генеративный ИИ инструменты, похожие на ЧатGPT рассчитывайте на точные ответы.

Чат-боты или генераторы изображений может выдавать сложные ответы и изображения, обучаясь на терабайтах данных, полученных из огромного цифрового мира, которым является Интернет.

Это эффективный способ сделать чат-ботов мощными, рассказал Business Insider Флориан Трамер, доцент кафедры информатики в ETH Zurich. Но этот метод также означает, что инструменты ИИ можно обучать на данных, которые не всегда точны.

«Когда вы хотите обучить модель изображения, — сказал Трамер, — вы как бы должны верить, что все эти места, откуда вы собираетесь пойти и загрузить эти изображения, дадут вам хорошие данные».

Это одна из причин, по которой чат-боты могут быть изобилует предубеждениями или категорически предоставьте неправильные ответы. В Интернете полно дезинформация.

Затем Трамер и группа исследователей искусственного интеллекта задали этот вопрос в статье, опубликованной в феврале. arXivплатформа для исследовательских работ, организованная Корнельским университетом: может ли кто-то намеренно «отравить» данные, на которых обучается модель ИИ?

Они обнаружили, что, имея немного свободных денег и достаточные технические ноу-хау, даже «злоумышленник с ограниченными ресурсами» может подделать относительно небольшой объем данных, что достаточно агрессивно, чтобы заставить большую языковую модель выдавать неправильные ответы.

Мертвые домены и Википедия

Трамер и его коллеги рассмотрели два типа атак.

Один из способов, которым хакеры могут отравить данные, — это покупка доменов с истекшим сроком действия, которые могут стоить всего 10 долларов в год за каждый URL-адрес, а затем размещение любой информации, которую они хотят, на веб-сайтах.

В статье Трамера говорится, что за 60 долларов злоумышленник может приобрести домены и эффективно контролировать и отравлять как минимум 0,01% набора данных. Это десятки тысяч изображений.

«С точки зрения злоумышленника, это здорово, потому что оно дает ему больший контроль», — сказал Трамер.

По словам Трамера, команда протестировала эту атаку, просматривая наборы данных, на которые другие исследователи полагаются при обучении реальных пользователей. большие языковые модели и покупка доменов с истекшим сроком действия в этих наборах данных. Затем команда проследила, как часто исследователи загружали данные из наборов данных, содержащих домены, принадлежащие Трамеру и его коллегам.

Имея под своим контролем домены, Трамер мог сообщить исследователям, пытающимся загрузить данные, что конкретное изображение «больше недоступно». Тем не менее, он мог дать им все, что хотел.

«Один злоумышленник может контролировать достаточно большую часть данных, которые используются для обучения моделей машинного обучения следующего поколения», — сказал Треймер, — и «влиять на то, как эта модель ведет себя определенным образом».

Другая атака, которую расследовали Трамер и его коллеги, включала данные об отравлении Википедия. поскольку этот сайт является «важнейшим компонентом обучающих наборов» для языковых моделей, сказал Трамер.

«По стандартам Интернета это очень качественный источник текста и источников фактов о мире», — сказал он, добавив, что именно по этой причине исследователи придают «дополнительный вес» данным из Википедии при обучении языковых моделей, хотя веб-сайт составляет небольшую часть Интернета.

Команда Трамера описала довольно простую атаку, включающую тщательно рассчитанные по времени изменения страниц Википедии.

По словам Трамера, Википедия не позволяет исследователям выполнять сбор данных со своего веб-сайта, а вместо этого предоставляет «моментальные снимки» своих страниц, которые они могут загрузить.

По словам Трамера, эти снимки делаются через регулярные и предсказуемые промежутки времени и рекламируются на веб-сайте Википедии.

Это означает, что злоумышленник может запланировать внесение изменений в Википедию непосредственно перед тем, как модератор сможет отменить изменения и до того, как веб-сайт сделает снимки.

«Это означает, что если я хочу пойти и разместить какой-нибудь мусор на странице Википедии, скажем, Business Insider, я просто собираюсь провести небольшие математические расчеты, прикинуть, что эта конкретная страница будет сохранена завтра в 15:15. “, – сказал он, и “завтра в 15:14 я собираюсь добавить туда барахла”.

Трамер рассказал BI, что его команда не вносила изменения в режиме реального времени, а вместо этого рассчитывала, насколько эффективным может быть злоумышленник. По их «очень консервативной» оценке, по крайней мере 5% изменений, внесенных злоумышленником, пройдут.

«На практике это, скорее всего, будет намного больше, чем 5%», — сказал он. «Но в каком-то смысле для этих отравляющих атак это не имеет большого значения. Обычно вам не нужно так много плохих данных, чтобы одна из этих моделей внезапно приобрела какое-то новое, несвязанное поведение».

Трамер сказал, что его команда представила результаты Википедии и предложила меры безопасности, включая рандомизацию времени, когда веб-сайт делает снимки своих веб-страниц.

Представитель Википедии не сразу ответил на запрос о комментариях, отправленный в выходные.

Будущее отравления данных

Трамер сообщил BI, что если атаки будут ограничиваться чат-ботами, то отравление данных не будет непосредственной проблемой.

Его больше беспокоит будущее, в котором инструменты искусственного интеллекта начнут больше взаимодействовать с «внешними системами», что позволит пользователям, скажем, давать указания модели, похожей на ChatGPT, просматривать веб-страницы, читать электронную почту, получать доступ к календарю или бронировать столик на ужин. «, — сказал он, добавив, что многие стартапы уже работают над инструментами такого типа.

«С точки зрения безопасности, эти вещи — полный кошмар», — сказал Трамер, потому что, если какая-либо часть системы будет взломана, злоумышленник теоретически может дать команду модели искусственного интеллекта выполнить поиск чьей-то электронной почты или найти номер кредитной карты.

Трамер также добавляет, что в настоящее время в искажении данных даже нет необходимости из-за существующих недостатков моделей ИИ. Часто выявить подводные камни этих инструментов почти так же просто, как попросить модели «неправильно себя вести».

«На данный момент модели, которые у нас есть, в каком-то смысле достаточно хрупкие, поэтому их даже не нужно травить», — сказал он.

2024-03-24 02:52:13

1711260523
#Отравление #данных #может #сделать #чатботов #искусственным #интеллектом #менее #эффективными #говорят #исследователи

Отравление данных может сделать чат-ботов с искусственным интеллектом менее эффективными, говорят исследователи

Мертвые домены и Википедия

Будущее отравления данных

Related

Leave a Comment Cancel reply

Мертвые домены и Википедия

Будущее отравления данных

Share this:

Related

Leave a Comment Cancel reply