ifun.de — Apple News seit 2001. 44 169 Artikel

robots.txt konsequent ignoriert

Verdecktes Crawling: Perplexity soll sich über Zugriffsregeln hinwegsetzen

Artikel auf Mastodon teilen.
32 Kommentare 32

Der KI-Dienst Perplexity steht in der Kritik, sich nicht an etablierte Regeln zur automatisierten Datenerfassung im Internet zu halten. Wie der Netzwerk-Dienstleister Cloudflare berichtet, soll Perplexity auch dann auf Inhalte von Webseiten zugreifen, wenn diese über die Datei robots.txt ausdrücklich untersagen, von automatisierten Programmen durchsucht zu werden. Derartige Regeln dienen dazu, die Serverlast zu reduzieren oder sensible Inhalte zu schützen.

Perplexity App

In Tests konnte Cloudflare nachweisen, dass Perplexity nicht nur mit seinem offiziell deklarierten Crawler aktiv ist, sondern zusätzlich einen alternativen Zugriff über nicht näher spezifizierte IP-Adressen und manipulierte Browserkennungen nutzt.

Dabei kam unter anderem ein User Agent zum Einsatz, der den Browser Google Chrome auf einem Mac nachahmt. Diese Tarnung diene offenbar dazu, Zugriffsbeschränkungen zu umgehen. Nach Angaben von Cloudflare wurden täglich mehrere Millionen solcher verdeckten Anfragen registriert.

Verhalten widerspricht gängigen Standards

Cloudflare sieht in der beobachteten Vorgehensweise einen klaren Verstoß gegen geltende Normen im Umgang mit automatisierten Zugriffen. Während seriöse Anbieter wie OpenAI ihre Bots eindeutig kennzeichnen, feste IP-Bereiche verwenden und sich an Zugriffsverbote halten, scheine Perplexity bewusst gegen diese Praxis zu verstoßen. In einem Vergleichstest habe OpenAIs ChatGPT die Sperranweisungen respektiert und auf weitere Zugriffsversuche verzichtet.

Zur Überprüfung des Verhaltens hatte Cloudflare mehrere neu registrierte Testseiten erstellt, die weder öffentlich auffindbar waren noch in Suchmaschinen indexiert wurden. Trotzdem konnte Perplexity detaillierte Inhalte dieser Seiten ausgeben. Daraus schließt Cloudflare, dass eine automatisierte Erfassung trotz Sperre erfolgt sein muss.

Schutzmaßnahmen für Webseitenbetreiber

Cloudflare hat nach eigenen Angaben technische Gegenmaßnahmen ergriffen. Neben der Entfernung von Perplexity aus der Liste verifizierter Bots wurden neue Erkennungsmuster in die Schutzsysteme integriert, um verdecktes Crawling zu unterbinden. Webseitenbetreiber, die Cloudflares Bot-Management nutzen, sollen damit bereits geschützt sein. Außerdem können Regeln eingerichtet werden, die automatisierte Zugriffe herausfiltern oder deren Nutzer zu einer Bestätigung auffordern.

04. Aug. 2025 um 18:37 Uhr von Nicolas Fehler gefunden?


    32 Kommentare bisher. Dieser Unterhaltung fehlt Deine Stimme.
  • Hier sollte die EU dringend eingreifen und den ganzen KI Mist aus der EU fernhalten, wir brauchen wieder Schüler die auch anständig was lernen ohne dass der Computer immer etwas vorssagt.

    Zum Glück sind wir auf einem guten Weg es muss alles reguliert werden bis ins letzte Detail! Die Regulierung geht mir aber noch nicht weit genug zumal sollte sich jeder auch mit Ausweis und persönlichen Daten eintragen müssen bei so einer KI

  • Naja, dann wirst du eines Tages auch kontrolliert. Bis ins kleinste.

  • +1 auch wenn ich glaube, das der Zug leider bereits abgefahren ist

  • Ich meine dass es nahezu die selbe News zu Perplexity vor ca. einem Jahr schon einmal gab. Anscheinend haben sie ihre Praxis nicht geändert, was ich aber zumindest aus Business-Sicht verstehen kann. Wenn man nicht mehr auf alle Websites Zugriff hat, wir die Antwortqualität natürlich schlechter.

  • Kommt das denn überraschend?
    Was umgehbar ist, wird auch umgangen.
    Und wenn man erwischt wird, war es eben ein Versehen.
    Dafür braucht es doch keinen Artikel.

  • Ich finds ok. Alles was ich im freien Internet als Mensch lesen kann, darf auch die KI nutzen.

    • Joa, auch ein Ansatz. Aber ich möchte nicht unbedingt, das der Inhalt durch eine KI verwurstet wird und würde mich über Quellennennung freuen ;-)

    • Das freie Internet funktioniert nur wenn Werbung ausgespielt wird. Sonst hast du bald gar kein „Internet“ mehr. Die bezahlen ja nicht einmal was. Der Besuch zahlt pro Klick.

      • Und? Ich nutze doch auch mehrere Adblocker. Ich sehe seit, quasi schon immer, keine Werbung. Von mir hat noch nie ein YouTuber einen Cent verdient, noch nie eine Internetseite etwas erhalten.
        Es ist also egal, ob ich die Seite besuche oder eine KI. Von daher bleibe ich auch hier bei meiner Aussage.
        Werbung ist für mich keine respektable Art, sich seine Inhalte bezahlen zu lassen. Wer Geld dafür haben möchte, muss zwingend eine Bezahlschranke erstellen. Nur diese werden von mir respektiert und tatsächlich auch hier und da genutzt. Ich habe kein Problem damit, Informationen gegen echtes Geld zu erhalten. Werbung hingegen geht gar nicht.

    • Cooler Ansatz, Mario. Was ich im „freien“ Internet über Dich finde, darf ich auch zum Stalking auf Dich, oder zur Verleumdung bei Deinem Arbeitgeber verwenden, weil es ja frei ist? Überleg mal kurz, was das bedeuten würde. Warum dann noch Streetview-„Beifänge“ verpixeln (Dein Auto mit dem konkreten Nummernschild stand schließlich in der Öffentlichkeit – Du, Deine neben der Ehe Geliebte sich küssend halt auch, während grad das Google-Auto vorbei fuhr).

      Klar – Du hast nichts zu verbergen…

      Also nein: Ein Mensch, der Euch küssend sehen würde (und Euch nicht kennt), ist eben was komplett was anderes als das Google-Auto, das Euch knipst. Und genauso ist es hier auch: Was ich für Menschen zum Zweck der Kommunikation mit ihnen schreibe, ist noch lange nicht dazu gedacht, dass eine KI(?) daraus was „lernt“.

      • Hae? Was für ein Wirre und dystopischer Kommentar. Bitte Ironie immer kennzeichnen. Und falls es keine war, bitte erkläre noch mal, wie du zu diesem Zusammenhängen kommst.

      • Alles was du da geschrieben hast, kann auch ein Mensch machen. Es dauert evtl. was länger aber es gibt ja tatsächlich Stalker die diese Zeit investieren. Von daher bleibe ich bei meiner Aussage, dass auch eine KI diese Daten sammeln und verarbeiten darf. Jeder ist selbst dafür verantwortlich, was im Internet über ihn zu finden ist und jeder muss dann auch mit den Konsequenzen leben.

  • Vielleicht wird ja alles irgendwann ganz toll……im Moment aber ganz sicher nicht. Die Antworten der KI sind zu einem guten Teil völlig nutzlos und teils gefährlich. Man kann sie nur guten Gewissens verwenden, wenn man sie mit eigenem Wissen kontrollieren kann. eMails und andere Publikationen strotzen teilweise vor schlimmen Rechtschreib-/Zeichensetzungsfehlern. Der Energiebedarf ist extrem und steht in keinem Verhältnis zum derzeitigen Nutzen.
    Welchen Nutzen KI-generierte Motivations- und Anerkennungsschreiben im Auftrage eines Vorgesetzten haben sollen…..Ich weiß es nicht. Eigentlich bedeutet es nur, dass die Person mich nicht im geringsten wertschätzt, oder selbst unfähig ist.

  • Und warum glauben dann immer noch Leute, man könne die Gefahren der KI beherrschen? Es wird kommen, wie es kommen muss…

  • Redet mit. Seid nett zueinander!

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

    ifun.de ist das dienstälteste europäische Onlineportal rund um Apples Lifestyle-Produkte.
    Wir informieren täglich über Aktuelles und Interessantes aus der Welt rund um iPad, iPod, Mac und sonstige Dinge, die uns gefallen.
    Insgesamt haben wir 44169 Artikel in den vergangenen 8687 Tagen veröffentlicht. Und es werden täglich mehr.
    ifun.de — Love it or leave it   ·   Copyright © 2025 aketo GmbH   ·   Impressum   ·      ·   Datenschutz   ·   Safari-Push aketo GmbH Powered by SysEleven