Photo by Joshua Woroniecki on Unsplash
Изследователи от Cloudflare твърдят, че Perplexity скрепва уебсайтове, въпреки блокирането на AI ботове
Изследователи от доставчика на интернет инфраструктура Cloudflare твърдят, че AI системата Perplexity е скрейпвала съдържание от уебсайтове без разрешение, дори когато издателите са имплементирали блокиране на AI ботове.
В бягство? Ето основните факти:
- Cloudflare твърди, че Perplexity е извличал съдържание от уебсайтове без разрешение.
- Изследователи потвърдиха „скритото сканиране“ от страна на Perplexity дори когато издателите въвеждат блокиране на AI ботове.
- Преставител на Perplexity нарече доклада на Cloudflare „публичен спектакъл.“
Според доклада, споделен от Cloudflare в понеделник, Perplexity сканира уебсайтове, използвайки своя стандартен потребителски агент и променя своята идентичност, за да заобиколи тези блокади. Това поведение на „скрито сканиране“ беше потвърдено от експертите на Cloudflare.
„Ние продължаваме да наблюдаваме доказателства, че Perplexity неуспешно променя своя потребителски агент и променя своите изходни ASNs, за да скрие своята дейност по пълзене, както и игнорира – или понякога дори не успява да изтегли – robots.txt файлове,“ написаха изследователите.
От пълзащите машини се очаква да са прозрачни, ясно да посочват своята цел и да уважават предпочитанията на уебсайтовете, но изследователите твърдят, че Perplexity не е спазила тези принципи на доверие. Този извод беше направен след разследване, провокирано от жалби на клиенти.
„Получихме жалби от клиенти, които бяха забранили активността на Perplexity в своите robots.txt файлове и също така бяха създали WAF правила, за да блокират специфично и двата декларирани crawler-а на Perplexity: PerplexityBot и Perplexity-User“, написаха изследователите. „Тези клиенти ни казаха, че Perplexity все още имаше достъп до тяхното съдържание, дори когато видяха, че ботовете му са блокирани успешно.“
Изследователите от Cloudflare заявиха, че потвърдиха тези твърдения, като реплицираха блокиранията и проведоха няколко теста за наблюдение на поведението на crawler-а. В един тест, те създадоха нови домейни, които все още не бяха индексирани и включиха robots.txt файлове, за да блокират „уважителните ботове“. По-късно, те попитаха Perplexity за конкретна информация относно ограничените домейни и откриха, че двигателят за отговори, задвижван от изкуствен интелект, все още предоставяше подробности и точна информация за уебсайта.
„Тази реакция беше неочаквана, тъй като бяхме предприели всички необходими мерки, за да предотвратим извличането на тези данни от техните роботи за търсене“, допълниха изследователите.
Представител на Perplexity, Джеси Дуайър, нарече изследването „рекламен трюк“ в изявление за The Verge. Дуайър добави, че има „недоразумения“ в доклада на Cloudflare.
Cloudflare разработва няколко инструмента, които да помогнат на издателите да предотвратят неразрешено AI сканиране. През март, Cloudflare представи „AI Labyrinth“, инструмент, който пренасочва неразрешените сканиращи ботове към лабиринти от AI-генерирано съдържание. Миналия месец компанията пусна „Pay Per Crawl“, система за таксуване на AI ботовете за достъп до съдържанието на издателите.