robots.txt konsequent ignoriert

Verdecktes Crawling: Perplexity soll sich über Zugriffsregeln hinwegsetzen

Der KI-Dienst Perplexity steht in der Kritik, sich nicht an etablierte Regeln zur automatisierten Datenerfassung im Internet zu halten. Wie der Netzwerk-Dienstleister Cloudflare berichtet, soll Perplexity auch dann auf Inhalte von Webseiten zugreifen, wenn diese über die Datei robots.txt ausdrücklich untersagen, von automatisierten Programmen durchsucht zu werden. Derartige Regeln dienen dazu, die Serverlast zu reduzieren oder sensible Inhalte zu schützen.

In Tests konnte Cloudflare nachweisen, dass Perplexity nicht nur mit seinem offiziell deklarierten Crawler aktiv ist, sondern zusätzlich einen alternativen Zugriff über nicht näher spezifizierte IP-Adressen und manipulierte Browserkennungen nutzt.

Dabei kam unter anderem ein User Agent zum Einsatz, der den Browser Google Chrome auf einem Mac nachahmt. Diese Tarnung diene offenbar dazu, Zugriffsbeschränkungen zu umgehen. Nach Angaben von Cloudflare wurden täglich mehrere Millionen solcher verdeckten Anfragen registriert.

Verhalten widerspricht gängigen Standards

Cloudflare sieht in der beobachteten Vorgehensweise einen klaren Verstoß gegen geltende Normen im Umgang mit automatisierten Zugriffen. Während seriöse Anbieter wie OpenAI ihre Bots eindeutig kennzeichnen, feste IP-Bereiche verwenden und sich an Zugriffsverbote halten, scheine Perplexity bewusst gegen diese Praxis zu verstoßen. In einem Vergleichstest habe OpenAIs ChatGPT die Sperranweisungen respektiert und auf weitere Zugriffsversuche verzichtet.

7 von 10 Zugriffen: KI-Bots sorgen für immer höhere Serverlasten
ZEIT, SPIEGEL, BILD, FAZ: Kein Zugriff für Apple Intelligence

Zur Überprüfung des Verhaltens hatte Cloudflare mehrere neu registrierte Testseiten erstellt, die weder öffentlich auffindbar waren noch in Suchmaschinen indexiert wurden. Trotzdem konnte Perplexity detaillierte Inhalte dieser Seiten ausgeben. Daraus schließt Cloudflare, dass eine automatisierte Erfassung trotz Sperre erfolgt sein muss.

Schutzmaßnahmen für Webseitenbetreiber

Cloudflare hat nach eigenen Angaben technische Gegenmaßnahmen ergriffen. Neben der Entfernung von Perplexity aus der Liste verifizierter Bots wurden neue Erkennungsmuster in die Schutzsysteme integriert, um verdecktes Crawling zu unterbinden. Webseitenbetreiber, die Cloudflares Bot-Management nutzen, sollen damit bereits geschützt sein. Außerdem können Regeln eingerichtet werden, die automatisierte Zugriffe herausfiltern oder deren Nutzer zu einer Bestätigung auffordern.

04. Aug. 2025 um 18:37 Uhr von Nicolas Fehler gefunden?

KI Perplexity

34 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.

trippleAAA 04.08.2025, 18:45 Uhr

Hier sollte die EU dringend eingreifen und den ganzen KI Mist aus der EU fernhalten, wir brauchen wieder Schüler die auch anständig was lernen ohne dass der Computer immer etwas vorssagt.

Zum Glück sind wir auf einem guten Weg es muss alles reguliert werden bis ins letzte Detail! Die Regulierung geht mir aber noch nicht weit genug zumal sollte sich jeder auch mit Ausweis und persönlichen Daten eintragen müssen bei so einer KI

Antworten Melden

_Knight_ 04.08.2025, 18:53 Uhr

Ironie und Satire bitte deutlicher kennzeichnen!

Antworten Melden

Antworten Melden

Castle 04.08.2025, 18:59 Uhr

Doch. Cloudflare will Werbung für seine Sicherheitsarchitektur machen. Und tatsächlich finde ich, dass Regeln im Internet eingehalten werden sollte. Perplexity wird bei mir gelöscht.
vegiwhopper 04.08.2025, 19:36 Uhr

+1

HAL9000 04.08.2025, 18:55 Uhr

Ironie bitte immer kennzeichnen

Und außerdem : sollen also alle Regeln und Vorgaben grundsätzlich ignoriert werden?
Wo ist dann die rote Linie?
Oder ist in der Trump/Putin -Ära alles egal und jeder kann machen, wie er/sie will?

Antworten Melden

Antworten Melden
Midian 04.08.2025, 19:08 Uhr

Ich hoffe, das war jetzt nicht ernst gemeint?!

Antworten Melden

Antworten Melden
Sami Negm-Awad 04.08.2025, 20:53 Uhr

Und das Rad, Feuer und das Internet sollten auch verboten werden. Allgemein sollten wir wieder auf Bäumen wohnen… schon das mit den Höhlen war ein Fehler.

Antworten Melden

Antworten Melden
Ben 04.08.2025, 23:11 Uhr

Seitdem dieser KI-Crawler Müll extrem angestiegen ist, sind unsere monatlichen Serverkosten von ca. 250€ auf knapp unter 1000€ im Monat gestiegen.
Wir werden da jetzt auch mit Cloudflare und anderen Maßnahmen gegen vorgehen.

Antworten Melden

Antworten Melden
Flitzpiepe 05.08.2025, 00:50 Uhr

Absolut korrekt!
Natürlich muss es Freiräume geben … logisch! Aber ohne Regeln & Struktur gibts Chaos. Aber das können oder wollen viele nicht sehen.

Antworten Melden

Antworten Melden

Wolf 04.08.2025, 18:49 Uhr

Naja, dann wirst du eines Tages auch kontrolliert. Bis ins kleinste.

Flitzpiepe 05.08.2025, 00:51 Uhr

Was für ein Blödsinn!

Antworten Melden

Antworten Melden

iMick 04.08.2025, 18:49 Uhr

+1 auch wenn ich glaube, das der Zug leider bereits abgefahren ist

dynAdZ 04.08.2025, 18:50 Uhr

Ich meine dass es nahezu die selbe News zu Perplexity vor ca. einem Jahr schon einmal gab. Anscheinend haben sie ihre Praxis nicht geändert, was ich aber zumindest aus Business-Sicht verstehen kann. Wenn man nicht mehr auf alle Websites Zugriff hat, wir die Antwortqualität natürlich schlechter.

HAL9000 04.08.2025, 19:00 Uhr

Dann stimmt mit dem Business Modell aber nicht.
Sonst wäre ja auch Diebstahl in Ordnung, damit dein Dealer dir bessere Angebote machen kann

Antworten Melden

Antworten Melden

R4inb0wD4sh 04.08.2025, 19:29 Uhr

Dann schau dir mal das Business modell von Volvic und co an. Da wird genau das gemacht und kaum einer kritisiert es

Nicolas 04.08.2025, 19:13 Uhr

Ähnlich aber doch ein wenig anders gelagert.
„Perplexity-App in der Kritik: Inhalte erfunden und heimlich abgeschöpft“

https://www.iphone-ticker.de/perplexity-app-in-der-kritik-inhalte-erfunden-und-heimlich-abgeschoepft-236971/

Antworten Melden

Antworten Melden

kdm27 04.08.2025, 18:51 Uhr

Kommt das denn überraschend?
Was umgehbar ist, wird auch umgangen.
Und wenn man erwischt wird, war es eben ein Versehen.
Dafür braucht es doch keinen Artikel.

HAL9000 04.08.2025, 18:56 Uhr

aber es braucht Regeln.

Wenn ich nicht möchte, dass mein web content für AI Training verwendet wird, dann muss das auch akzeptiert/ respektiert werden

Antworten Melden

Antworten Melden

Berte 04.08.2025, 20:05 Uhr

Haha, niemals wird das respektiert- es geht ums Geld und Gewinn. Aufwachen

Mario 04.08.2025, 19:46 Uhr

Ich finds ok. Alles was ich im freien Internet als Mensch lesen kann, darf auch die KI nutzen.

Berte 04.08.2025, 20:06 Uhr

Joa, auch ein Ansatz. Aber ich möchte nicht unbedingt, das der Inhalt durch eine KI verwurstet wird und würde mich über Quellennennung freuen ;-)

Antworten Melden

Antworten Melden

DerD 04.08.2025, 22:58 Uhr

Perplexity nennt ja seine Quellen.

franz 04.08.2025, 22:15 Uhr

Das freie Internet funktioniert nur wenn Werbung ausgespielt wird. Sonst hast du bald gar kein „Internet“ mehr. Die bezahlen ja nicht einmal was. Der Besuch zahlt pro Klick.

Antworten Melden

Antworten Melden

Mario 05.08.2025, 10:05 Uhr

Und? Ich nutze doch auch mehrere Adblocker. Ich sehe seit, quasi schon immer, keine Werbung. Von mir hat noch nie ein YouTuber einen Cent verdient, noch nie eine Internetseite etwas erhalten.
Es ist also egal, ob ich die Seite besuche oder eine KI. Von daher bleibe ich auch hier bei meiner Aussage.
Werbung ist für mich keine respektable Art, sich seine Inhalte bezahlen zu lassen. Wer Geld dafür haben möchte, muss zwingend eine Bezahlschranke erstellen. Nur diese werden von mir respektiert und tatsächlich auch hier und da genutzt. Ich habe kein Problem damit, Informationen gegen echtes Geld zu erhalten. Werbung hingegen geht gar nicht.

MacManux 04.08.2025, 22:45 Uhr

Cooler Ansatz, Mario. Was ich im „freien“ Internet über Dich finde, darf ich auch zum Stalking auf Dich, oder zur Verleumdung bei Deinem Arbeitgeber verwenden, weil es ja frei ist? Überleg mal kurz, was das bedeuten würde. Warum dann noch Streetview-„Beifänge“ verpixeln (Dein Auto mit dem konkreten Nummernschild stand schließlich in der Öffentlichkeit – Du, Deine neben der Ehe Geliebte sich küssend halt auch, während grad das Google-Auto vorbei fuhr).

Klar – Du hast nichts zu verbergen…

Also nein: Ein Mensch, der Euch küssend sehen würde (und Euch nicht kennt), ist eben was komplett was anderes als das Google-Auto, das Euch knipst. Und genauso ist es hier auch: Was ich für Menschen zum Zweck der Kommunikation mit ihnen schreibe, ist noch lange nicht dazu gedacht, dass eine KI(?) daraus was „lernt“.

Antworten Melden

Antworten Melden

BastiOn 04.08.2025, 23:28 Uhr

+1
Flitzpiepe 05.08.2025, 00:53 Uhr

+1
FVH 05.08.2025, 01:47 Uhr

Hae? Was für ein Wirre und dystopischer Kommentar. Bitte Ironie immer kennzeichnen. Und falls es keine war, bitte erkläre noch mal, wie du zu diesem Zusammenhängen kommst.
Mario 05.08.2025, 10:01 Uhr

Alles was du da geschrieben hast, kann auch ein Mensch machen. Es dauert evtl. was länger aber es gibt ja tatsächlich Stalker die diese Zeit investieren. Von daher bleibe ich bei meiner Aussage, dass auch eine KI diese Daten sammeln und verarbeiten darf. Jeder ist selbst dafür verantwortlich, was im Internet über ihn zu finden ist und jeder muss dann auch mit den Konsequenzen leben.
Peter 05.08.2025, 12:46 Uhr

Mario genau darum geht es doch. Ja theoretisch wenn man eine Armee von Stalkern am Hals hätte könnten auch Menschen dasselbe tun. Für 99.99% aller Menschen ist das aber bisher nicht der Fall und würde auch nie so eintreten, und wenn ja, dann gäbe es auch Gesetze um sich davor aus gutem Grund zu schützen. Wieso ist das also ein Argument dafür, dass es ok sein soll, wenn Computer das mit allen Menschen gleichzeitig machen ohne Opt-Out-Möglichkeit?

Satyrus 04.08.2025, 22:14 Uhr

Vielleicht wird ja alles irgendwann ganz toll……im Moment aber ganz sicher nicht. Die Antworten der KI sind zu einem guten Teil völlig nutzlos und teils gefährlich. Man kann sie nur guten Gewissens verwenden, wenn man sie mit eigenem Wissen kontrollieren kann. eMails und andere Publikationen strotzen teilweise vor schlimmen Rechtschreib-/Zeichensetzungsfehlern. Der Energiebedarf ist extrem und steht in keinem Verhältnis zum derzeitigen Nutzen.
Welchen Nutzen KI-generierte Motivations- und Anerkennungsschreiben im Auftrage eines Vorgesetzten haben sollen…..Ich weiß es nicht. Eigentlich bedeutet es nur, dass die Person mich nicht im geringsten wertschätzt, oder selbst unfähig ist.

Jürgen T. 04.08.2025, 23:47 Uhr

Und warum glauben dann immer noch Leute, man könne die Gefahren der KI beherrschen? Es wird kommen, wie es kommen muss…

TimBo 05.08.2025, 09:30 Uhr

True

Antworten Melden

Antworten Melden
Rechtsmaus 05.08.2025, 13:47 Uhr

Und deswegen soll sich die Menschheit gleich das weiße Fähnchen wedeln und aufgeben?

Antworten Melden

Antworten Melden

robots.txt konsequent ignoriert

Verdecktes Crawling: Perplexity soll sich über Zugriffsregeln hinwegsetzen

Verhalten widerspricht gängigen Standards

Schutzmaßnahmen für Webseitenbetreiber

Redet mit. Seid nett zueinander! Antwort abbrechen