Home » Amazon расследует недоумение по поводу заявлений о злоупотреблениях со скрапингом

Amazon расследует недоумение по поводу заявлений о злоупотреблениях со скрапингом

Подразделение Amazon Cloud начало расследование в отношении Perplexity AI. Вопрос в том, нарушает ли стартап AI-поиска Веб-сервисы Amazon правила путем очистки веб-сайтов, которые пытались помешать этому, как стало известно WIRED.

Представитель AWS Патрик Нейхорн подтвердил расследование компании в отношении Perplexity после запроса WIRED о очевидных методах парсинга стартапа. Ранее WIRED обнаружил что недоумение, которое имеет поддержка из семейного фонда Джеффа Безоса и Nvidia, и недавно был ценится стоимостью 3 миллиарда долларов — по всей видимости, опирается на контент с скопированных веб-сайтов, доступ к которым запрещен посредством протокола исключения роботов, общего веб-стандарта. Хотя Протокол исключения роботов не имеет юридической силы, условия обслуживания, как правило, имеют обязательную юридическую силу.

Протокол исключения роботов — это существующий десятилетиями веб-стандарт, который подразумевает размещение файла с открытым текстом (например, wired.com/robots.txt) на домене для указания страниц, к которым не должны получать доступ автоматизированные боты и сканеры. Хотя компании, использующие скраперы, могут игнорировать этот протокол, большинство традиционно его уважают. Нейхорн сообщил WIRED, что клиенты AWS должны придерживаться стандарта robots.txt при сканировании веб-сайтов.

«Условия обслуживания AWS запрещают оскорбительные и незаконные действия, и наши клиенты несут ответственность за соблюдение этих условий», — заявил Нейхорн. «Мы регулярно получаем сообщения о предполагаемых злоупотреблениях из различных источников и привлекаем наших клиентов к разбору этих сообщений».

Далее следует проверка практики Perplexity. репортаж Forbes от 11 июня который обвинил стартап в краже как минимум одной из его статей. Расследование WIRED подтвердило эту практику и обнаружило дополнительные доказательства выскабливание злоупотреблений и плагиат системами, связанными с поисковым чат-ботом Perplexity на базе искусственного интеллекта. Инженеры Condé Nast, материнской компании WIRED, блокируют сканер Perplexity на всех своих веб-сайтах с помощью файла robots.txt. Но WIRED обнаружил, что у компании был доступ к серверу с использованием неопубликованного IP-адреса — 44.221.181.252 — который посещал объекты Condé Nast по меньшей мере сотни раз за последние три месяца, по-видимому, для очистки веб-сайтов Condé Nast.

Похоже, что машина, связанная с Perplexity, занимается широкомасштабным сканированием новостных веб-сайтов, которые запрещают ботам доступ к их контенту. Представители The Guardian, Forbes и The New York Times также заявили, что обнаружили IP-адрес, неоднократно посещавший их серверы.

Read more:  Все рейсы Flybe отменены после прекращения полетов британской авиакомпанией

WIRED отследил IP-адрес до виртуальной машины, известной как экземпляр Elastic Compute Cloud (EC2), размещенной на AWS, которая начала расследование после того, как мы спросили, нарушает ли использование инфраструктуры AWS для парсинга веб-сайтов, запрещающих это, условия обслуживания компании.

На прошлой неделе генеральный директор Perplexity Аравинд Шринивас первым отреагировал на расследование WIRED, заявив, что вопросы, которые мы задали компании, «отражают глубокое и фундаментальное непонимание того, как работают Perplexity и Интернет». Шринивас затем рассказал Fast Company что секретный IP-адрес, обнаруженный WIRED при парсинге веб-сайтов Condé Nast, а созданный нами тестовый сайт управлялся сторонней компанией, которая предоставляет услуги веб-сканирования и индексирования. Он отказался назвать название компании, сославшись на соглашение о неразглашении. Когда его спросили, попросит ли он третье лицо прекратить сканировать WIRED, Сринивас ответил: «Это сложно».

2024-06-27 22:15:21


1719748605
#Amazon #расследует #недоумение #по #поводу #заявлений #злоупотреблениях #со #скрапингом

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.