Der KI-Dienst Perplexity steht in der Kritik, sich nicht an etablierte Regeln zur automatisierten Datenerfassung im Internet zu halten. Wie der Netzwerk-Dienstleister Cloudflare berichtet, soll Perplexity auch dann auf Inhalte von Webseiten zugreifen, wenn diese über die Datei robots.txt ausdrücklich untersagen, von automatisierten Programmen durchsucht zu werden. Derartige Regeln dienen dazu, die Serverlast zu reduzieren oder sensible Inhalte zu schützen.

In Tests konnte Cloudflare nachweisen, dass Perplexity nicht nur mit seinem offiziell deklarierten Crawler aktiv ist, sondern zusätzlich einen alternativen Zugriff über nicht näher spezifizierte IP-Adressen und manipulierte Browserkennungen nutzt.

Dabei kam unter anderem ein User Agent zum Einsatz, der den Browser Google Chrome auf einem Mac nachahmt. Diese Tarnung diene offenbar dazu, Zugriffsbeschränkungen zu umgehen. Nach Angaben von Cloudflare wurden täglich mehrere Millionen solcher verdeckten Anfragen registriert.

Verhalten widerspricht gängigen Standards

Cloudflare sieht in der beobachteten Vorgehensweise einen klaren Verstoß gegen geltende Normen im Umgang mit automatisierten Zugriffen. Während seriöse Anbieter wie OpenAI ihre Bots eindeutig kennzeichnen, feste IP-Bereiche verwenden und sich an Zugriffsverbote halten, scheine Perplexity bewusst gegen diese Praxis zu verstoßen. In einem Vergleichstest habe OpenAIs ChatGPT die Sperranweisungen respektiert und auf weitere Zugriffsversuche verzichtet.

Zur Überprüfung des Verhaltens hatte Cloudflare mehrere neu registrierte Testseiten erstellt, die weder öffentlich auffindbar waren noch in Suchmaschinen indexiert wurden. Trotzdem konnte Perplexity detaillierte Inhalte dieser Seiten ausgeben. Daraus schließt Cloudflare, dass eine automatisierte Erfassung trotz Sperre erfolgt sein muss.

Schutzmaßnahmen für Webseitenbetreiber

Cloudflare hat nach eigenen Angaben technische Gegenmaßnahmen ergriffen. Neben der Entfernung von Perplexity aus der Liste verifizierter Bots wurden neue Erkennungsmuster in die Schutzsysteme integriert, um verdecktes Crawling zu unterbinden. Webseitenbetreiber, die Cloudflares Bot-Management nutzen, sollen damit bereits geschützt sein. Außerdem können Regeln eingerichtet werden, die automatisierte Zugriffe herausfiltern oder deren Nutzer zu einer Bestätigung auffordern.