Prüfung dauert etwa 20 Minuten
Claude Code prüft Programmcode fortan automatisch auf Fehler
Der KI-Anbieter Anthropic erweitert seine Entwicklungsplattform Claude Code um eine neue Funktion zur automatischen Prüfung von Programmcode. Die Funktion mit dem Namen „Code Review“ analysiert Änderungen an Softwareprojekten mithilfe mehrerer KI-Agenten und soll Entwickler dabei unterstützen, Fehler frühzeitig zu erkennen.
Die Neuerung richtet sich vor allem an Teams, die gemeinsam an Software arbeiten. Wenn Programmierer Änderungen an einem Projekt einreichen, startet die neue Funktion automatisch eine Analyse des Codes. Die Ergebnisse erscheinen anschließend direkt in der Entwicklungsumgebung als Kommentar und markieren mögliche Problemstellen.
KI-Agenten analysieren Code selbstständig
Für die Prüfung setzt Anthropic auf ein System aus mehreren KI-Agenten. Diese untersuchen den Code parallel und suchen nach Fehlern, Sicherheitsproblemen oder ungewöhnlichen Änderungen. Gefundene Probleme werden anschließend noch einmal überprüft, damit möglichst wenige Falschmeldungen entstehen.
Die Ergebnisse fasst das System in einer Übersicht zusammen. Zusätzlich erscheinen Hinweise direkt an den betroffenen Codezeilen. Entwickler können so schnell erkennen, an welchen Stellen Änderungen notwendig sein könnten.
Wie intensiv der Code geprüft wird, hängt von Umfang und Komplexität der Änderungen ab. Kleine Anpassungen werden kurz überprüft. Größere Änderungen erhalten eine ausführlichere Analyse. Laut Anthropic dauert eine typische Prüfung etwa zwanzig Minuten.
Prüfung dauert etwa 20 Minuten
Anthropic nutzt die Funktion bereits seit mehreren Monaten im eigenen Entwicklungsprozess. Dabei zeigte sich laut Unternehmen, dass deutlich mehr Probleme erkannt werden als zuvor.
Früher erhielten etwa 16 Prozent der eingereichten Änderungen ausführliche Hinweise bei der Prüfung. Mit der neuen KI-Funktion liegt dieser Anteil nun bei rund 54 Prozent. Besonders umfangreiche Änderungen werden dabei häufiger beanstandet. Bei großen Codeanpassungen mit mehr als 1000 geänderten Zeilen meldete das System in etwa 84 Prozent der Fälle Auffälligkeiten.
Die Nutzung der Funktion wird nach Rechenaufwand berechnet. Laut Anthropic kostet eine typische Prüfung zwischen 15 und 25 US-Dollar. Unternehmen können festlegen, für welche Projekte die automatische Analyse aktiviert wird und welche monatlichen Kosten dafür maximal entstehen dürfen. Derzeit ist die Funktion als Beta-Version in einer Forschungsvorschau für Team- und Enterprise-Konten verfügbar.


Also scheint bei Anthropic selber ja nicht viel geholfen zu haben, so schlecht wie deren Desktop App / Web UI ist.
Wie meist das? Ernstgemeinte Frage
Die App ist teilweise extrem langsam, etwa beim Wechseln von Chats oder wenn man Desktop Notifications für Berechtigungen erhält, erscheinen diese erst kurz darauf im UI zum Freigeben. Dateien verlinken mit „@“ ist auch extrem mühsam. Neu erstellte Dateien erscheinen gar nicht erst (in der CLI schon), und das Popover mit den Vorschlägen ist oftmals zu weit unten und wird abgeschnitten, so dass man gar nicht alles sieht und auswählen kann. Ganz davon abgesehen, dass es eh viel zu klein ist um bei längeren Pfaden überhaupt was zu sehen (kein Bug aber schlechte UX). Letztens war ja (in anderen Ländern) ein Problem mit der Zeitumstellung. Auch das Chat-Feld ist schlecht gemacht, keine Unterstützung für Markdown und Ctrl+Z funktioniert nicht wie man das erwarten würde. Und im Web (nutze ich nicht mehr) hatte ich öfters das Problem, dass beim Starten eines Chats plötzlich der gestartete Chat nicht gefunden wird.
Ja, würde mich auch interessieren, wo du das Argument her nimmst. Kannst du das mit Fakten belegen? Immerhin sind sie selbstkritisch und behaupten nicht das das U von Ultrasuper sind….
Ich muss erst noch die Regressionstests abschließen bevor ich einen mit Fakten belegten Kommentar abgeben kann. Schau doch bitte in 5 Tagen nochmal vorbei, dann können wir darüber diskutieren. Ok?
Wollte gerade schreiben, dass bei dir Preispolitik vielleicht drei Zeilen geprüft werden können.
Wurde dann ja auch im Text bestätigt.
Sorry, das Programm ist einfach Schrott in meine Augen. Vor allem liefert es extrem oft falsche Informationen das sind andere viel weiter.
Hängt es nicht von den Prompts ab, um präzise Ergebnisse zu erzielen?
Der „Schrott“ kommt doch vom User….
Die „active User“ und „runrate“ Zahlen sagen was ganz anderes
Arbeitest Du konkret mit Claude Code? Oder was meinst Du mit „liefert nur Schrott“? Sonnet? Opus?
Man sagt der KI ja oft nach, dass sie halluziniert – hier tut es der Mensch.
Hmm… Die Frage ist, wie sich das ganze konfigurieren lässt bzw. was beanstandet wird. Logikfehler, Syntaxfehler, Architektur, Design Pattern, Ineffizienter Code… Wenn man sich mit SonerQube auf ein RuleSet einigt im Projekt und das ML Model dann Code auf Effizienz, Wartbarkeit etc. prüft + man das direkt ändern lassen kann, wäre das schon brauchbar.
So trainiert der Programmierer dann schön weiter du KI, dass seine Tätigkeit dann in einiger Zeit noch mehr von der KI übernommen werden kann… oder irre ich mich?