Изследователи от Cloudflare твърдят, че Perplexity скрепва уебсайтове, въпреки блокирането на AI ботове

Photo by Joshua Woroniecki on Unsplash

Изследователи от Cloudflare твърдят, че Perplexity скрепва уебсайтове, въпреки блокирането на AI ботове

Време за четене: 3 мин.

Изследователи от доставчика на интернет инфраструктура Cloudflare твърдят, че AI системата Perplexity е скрейпвала съдържание от уебсайтове без разрешение, дори когато издателите са имплементирали блокиране на AI ботове.

В бягство? Ето основните факти:

  • Cloudflare твърди, че Perplexity е извличал съдържание от уебсайтове без разрешение.
  • Изследователи потвърдиха „скритото сканиране“ от страна на Perplexity дори когато издателите въвеждат блокиране на AI ботове.
  • Преставител на Perplexity нарече доклада на Cloudflare „публичен спектакъл.“

Според доклада, споделен от Cloudflare в понеделник, Perplexity сканира уебсайтове, използвайки своя стандартен потребителски агент и променя своята идентичност, за да заобиколи тези блокади. Това поведение на „скрито сканиране“ беше потвърдено от експертите на Cloudflare.

„Ние продължаваме да наблюдаваме доказателства, че Perplexity неуспешно променя своя потребителски агент и променя своите изходни ASNs, за да скрие своята дейност по пълзене, както и игнорира – или понякога дори не успява да изтегли – robots.txt файлове,“ написаха изследователите.

От пълзащите машини се очаква да са прозрачни, ясно да посочват своята цел и да уважават предпочитанията на уебсайтовете, но изследователите твърдят, че Perplexity не е спазила тези принципи на доверие. Този извод беше направен след разследване, провокирано от жалби на клиенти.

„Получихме жалби от клиенти, които бяха забранили активността на Perplexity в своите robots.txt файлове и също така бяха създали WAF правила, за да блокират специфично и двата декларирани crawler-а на Perplexity: PerplexityBot и Perplexity-User“, написаха изследователите. „Тези клиенти ни казаха, че Perplexity все още имаше достъп до тяхното съдържание, дори когато видяха, че ботовете му са блокирани успешно.“

Изследователите от Cloudflare заявиха, че потвърдиха тези твърдения, като реплицираха блокиранията и проведоха няколко теста за наблюдение на поведението на crawler-а. В един тест, те създадоха нови домейни, които все още не бяха индексирани и включиха robots.txt файлове, за да блокират „уважителните ботове“. По-късно, те попитаха Perplexity за конкретна информация относно ограничените домейни и откриха, че двигателят за отговори, задвижван от изкуствен интелект, все още предоставяше подробности и точна информация за уебсайта.

„Тази реакция беше неочаквана, тъй като бяхме предприели всички необходими мерки, за да предотвратим извличането на тези данни от техните роботи за търсене“, допълниха изследователите.

Представител на Perplexity, Джеси Дуайър, нарече изследването „рекламен трюк“ в изявление за The Verge. Дуайър добави, че има „недоразумения“ в доклада на Cloudflare.

Cloudflare разработва няколко инструмента, които да помогнат на издателите да предотвратят неразрешено AI сканиране. През март, Cloudflare представи „AI Labyrinth“, инструмент, който пренасочва неразрешените сканиращи ботове към лабиринти от AI-генерирано съдържание. Миналия месец компанията пусна „Pay Per Crawl“, система за таксуване на AI ботовете за достъп до съдържанието на издателите.

Хареса ли ви тази статия?
Оценете я!
Не ми хареса Не ми хареса особено Става Добра е! Страхотна!

Радваме се, че работата ни Ви хареса!

Като ценен читател, имате ли нещо против да ни дадете рейтинг в Trustpilot? Става бързо и означава всичко за нас. Благодарим Ви, че сте толкова невероятни!

Оценете ни в Trustpilot
0 Оценена от 0 потребителя
Заглавие
Коментар
Благодарим за вашето мнение