robots.txt konsequent ignoriert
Verdecktes Crawling: Perplexity soll sich über Zugriffsregeln hinwegsetzen
Der KI-Dienst Perplexity steht in der Kritik, sich nicht an etablierte Regeln zur automatisierten Datenerfassung im Internet zu halten. Wie der Netzwerk-Dienstleister Cloudflare berichtet, soll Perplexity auch dann auf Inhalte von Webseiten zugreifen, wenn diese über die Datei robots.txt ausdrücklich untersagen, von automatisierten Programmen durchsucht zu werden. Derartige Regeln dienen dazu, die Serverlast zu reduzieren oder sensible Inhalte zu schützen.
In Tests konnte Cloudflare nachweisen, dass Perplexity nicht nur mit seinem offiziell deklarierten Crawler aktiv ist, sondern zusätzlich einen alternativen Zugriff über nicht näher spezifizierte IP-Adressen und manipulierte Browserkennungen nutzt.
Dabei kam unter anderem ein User Agent zum Einsatz, der den Browser Google Chrome auf einem Mac nachahmt. Diese Tarnung diene offenbar dazu, Zugriffsbeschränkungen zu umgehen. Nach Angaben von Cloudflare wurden täglich mehrere Millionen solcher verdeckten Anfragen registriert.
Verhalten widerspricht gängigen Standards
Cloudflare sieht in der beobachteten Vorgehensweise einen klaren Verstoß gegen geltende Normen im Umgang mit automatisierten Zugriffen. Während seriöse Anbieter wie OpenAI ihre Bots eindeutig kennzeichnen, feste IP-Bereiche verwenden und sich an Zugriffsverbote halten, scheine Perplexity bewusst gegen diese Praxis zu verstoßen. In einem Vergleichstest habe OpenAIs ChatGPT die Sperranweisungen respektiert und auf weitere Zugriffsversuche verzichtet.
- 7 von 10 Zugriffen: KI-Bots sorgen für immer höhere Serverlasten
- ZEIT, SPIEGEL, BILD, FAZ: Kein Zugriff für Apple Intelligence
Zur Überprüfung des Verhaltens hatte Cloudflare mehrere neu registrierte Testseiten erstellt, die weder öffentlich auffindbar waren noch in Suchmaschinen indexiert wurden. Trotzdem konnte Perplexity detaillierte Inhalte dieser Seiten ausgeben. Daraus schließt Cloudflare, dass eine automatisierte Erfassung trotz Sperre erfolgt sein muss.
Schutzmaßnahmen für Webseitenbetreiber
Cloudflare hat nach eigenen Angaben technische Gegenmaßnahmen ergriffen. Neben der Entfernung von Perplexity aus der Liste verifizierter Bots wurden neue Erkennungsmuster in die Schutzsysteme integriert, um verdecktes Crawling zu unterbinden. Webseitenbetreiber, die Cloudflares Bot-Management nutzen, sollen damit bereits geschützt sein. Außerdem können Regeln eingerichtet werden, die automatisierte Zugriffe herausfiltern oder deren Nutzer zu einer Bestätigung auffordern.
Hier sollte die EU dringend eingreifen und den ganzen KI Mist aus der EU fernhalten, wir brauchen wieder Schüler die auch anständig was lernen ohne dass der Computer immer etwas vorssagt.
Zum Glück sind wir auf einem guten Weg es muss alles reguliert werden bis ins letzte Detail! Die Regulierung geht mir aber noch nicht weit genug zumal sollte sich jeder auch mit Ausweis und persönlichen Daten eintragen müssen bei so einer KI
Ironie und Satire bitte deutlicher kennzeichnen!
Doch. Cloudflare will Werbung für seine Sicherheitsarchitektur machen. Und tatsächlich finde ich, dass Regeln im Internet eingehalten werden sollte. Perplexity wird bei mir gelöscht.
+1
Ironie bitte immer kennzeichnen
Und außerdem : sollen also alle Regeln und Vorgaben grundsätzlich ignoriert werden?
Wo ist dann die rote Linie?
Oder ist in der Trump/Putin -Ära alles egal und jeder kann machen, wie er/sie will?
Ich hoffe, das war jetzt nicht ernst gemeint?!
Und das Rad, Feuer und das Internet sollten auch verboten werden. Allgemein sollten wir wieder auf Bäumen wohnen… schon das mit den Höhlen war ein Fehler.
Seitdem dieser KI-Crawler Müll extrem angestiegen ist, sind unsere monatlichen Serverkosten von ca. 250€ auf knapp unter 1000€ im Monat gestiegen.
Wir werden da jetzt auch mit Cloudflare und anderen Maßnahmen gegen vorgehen.
Absolut korrekt!
Natürlich muss es Freiräume geben … logisch! Aber ohne Regeln & Struktur gibts Chaos. Aber das können oder wollen viele nicht sehen.
Naja, dann wirst du eines Tages auch kontrolliert. Bis ins kleinste.
Was für ein Blödsinn!
+1 auch wenn ich glaube, das der Zug leider bereits abgefahren ist
Ich meine dass es nahezu die selbe News zu Perplexity vor ca. einem Jahr schon einmal gab. Anscheinend haben sie ihre Praxis nicht geändert, was ich aber zumindest aus Business-Sicht verstehen kann. Wenn man nicht mehr auf alle Websites Zugriff hat, wir die Antwortqualität natürlich schlechter.
Dann stimmt mit dem Business Modell aber nicht.
Sonst wäre ja auch Diebstahl in Ordnung, damit dein Dealer dir bessere Angebote machen kann
Dann schau dir mal das Business modell von Volvic und co an. Da wird genau das gemacht und kaum einer kritisiert es
Ähnlich aber doch ein wenig anders gelagert.
„Perplexity-App in der Kritik: Inhalte erfunden und heimlich abgeschöpft“
https://www.iphone-ticker.de/perplexity-app-in-der-kritik-inhalte-erfunden-und-heimlich-abgeschoepft-236971/
Kommt das denn überraschend?
Was umgehbar ist, wird auch umgangen.
Und wenn man erwischt wird, war es eben ein Versehen.
Dafür braucht es doch keinen Artikel.
aber es braucht Regeln.
Wenn ich nicht möchte, dass mein web content für AI Training verwendet wird, dann muss das auch akzeptiert/ respektiert werden
Haha, niemals wird das respektiert- es geht ums Geld und Gewinn. Aufwachen
Ich finds ok. Alles was ich im freien Internet als Mensch lesen kann, darf auch die KI nutzen.
Joa, auch ein Ansatz. Aber ich möchte nicht unbedingt, das der Inhalt durch eine KI verwurstet wird und würde mich über Quellennennung freuen ;-)
Perplexity nennt ja seine Quellen.
Das freie Internet funktioniert nur wenn Werbung ausgespielt wird. Sonst hast du bald gar kein „Internet“ mehr. Die bezahlen ja nicht einmal was. Der Besuch zahlt pro Klick.
Und? Ich nutze doch auch mehrere Adblocker. Ich sehe seit, quasi schon immer, keine Werbung. Von mir hat noch nie ein YouTuber einen Cent verdient, noch nie eine Internetseite etwas erhalten.
Es ist also egal, ob ich die Seite besuche oder eine KI. Von daher bleibe ich auch hier bei meiner Aussage.
Werbung ist für mich keine respektable Art, sich seine Inhalte bezahlen zu lassen. Wer Geld dafür haben möchte, muss zwingend eine Bezahlschranke erstellen. Nur diese werden von mir respektiert und tatsächlich auch hier und da genutzt. Ich habe kein Problem damit, Informationen gegen echtes Geld zu erhalten. Werbung hingegen geht gar nicht.
Cooler Ansatz, Mario. Was ich im „freien“ Internet über Dich finde, darf ich auch zum Stalking auf Dich, oder zur Verleumdung bei Deinem Arbeitgeber verwenden, weil es ja frei ist? Überleg mal kurz, was das bedeuten würde. Warum dann noch Streetview-„Beifänge“ verpixeln (Dein Auto mit dem konkreten Nummernschild stand schließlich in der Öffentlichkeit – Du, Deine neben der Ehe Geliebte sich küssend halt auch, während grad das Google-Auto vorbei fuhr).
Klar – Du hast nichts zu verbergen…
Also nein: Ein Mensch, der Euch küssend sehen würde (und Euch nicht kennt), ist eben was komplett was anderes als das Google-Auto, das Euch knipst. Und genauso ist es hier auch: Was ich für Menschen zum Zweck der Kommunikation mit ihnen schreibe, ist noch lange nicht dazu gedacht, dass eine KI(?) daraus was „lernt“.
+1
+1
Hae? Was für ein Wirre und dystopischer Kommentar. Bitte Ironie immer kennzeichnen. Und falls es keine war, bitte erkläre noch mal, wie du zu diesem Zusammenhängen kommst.
Alles was du da geschrieben hast, kann auch ein Mensch machen. Es dauert evtl. was länger aber es gibt ja tatsächlich Stalker die diese Zeit investieren. Von daher bleibe ich bei meiner Aussage, dass auch eine KI diese Daten sammeln und verarbeiten darf. Jeder ist selbst dafür verantwortlich, was im Internet über ihn zu finden ist und jeder muss dann auch mit den Konsequenzen leben.
Vielleicht wird ja alles irgendwann ganz toll……im Moment aber ganz sicher nicht. Die Antworten der KI sind zu einem guten Teil völlig nutzlos und teils gefährlich. Man kann sie nur guten Gewissens verwenden, wenn man sie mit eigenem Wissen kontrollieren kann. eMails und andere Publikationen strotzen teilweise vor schlimmen Rechtschreib-/Zeichensetzungsfehlern. Der Energiebedarf ist extrem und steht in keinem Verhältnis zum derzeitigen Nutzen.
Welchen Nutzen KI-generierte Motivations- und Anerkennungsschreiben im Auftrage eines Vorgesetzten haben sollen…..Ich weiß es nicht. Eigentlich bedeutet es nur, dass die Person mich nicht im geringsten wertschätzt, oder selbst unfähig ist.
Und warum glauben dann immer noch Leute, man könne die Gefahren der KI beherrschen? Es wird kommen, wie es kommen muss…
True