Anthropic hat nach dem Desktop Redesign heute Claude Opus 4.7 freigegeben, das neue Flaggschiff-Modell. Was hat sich praktisch geändert?
https://www.anthropic.com/news/claude-opus-4-7
Ein paar Features sind aus QA- und Engineering-Sicht besonders interessant.
Adaptive Thinking, Task Budgets und /ultrareview als neue Alltagswerkzeuge
Die prägendste Änderung heißt Adaptive Thinking. Bisher musste man dem Modell manuell ein Denkbudget vorgeben, und die passende Größe zu finden blieb Schätzarbeit. Opus 4.7 reguliert das jetzt selbst und passt die Rechenzeit an die Komplexität der Aufgabe an. Für Teams bedeutet das weniger Parameter-Fummelei und konsistentere Ergebnisse, ohne dass man vorher groß konfigurieren muss.
Task Budgets gibt es neu in Public Beta: einen weichen Token-Rahmen für komplette Agent-Loops. Das Modell sieht dabei einen Countdown und priorisiert eigenständig, was noch reinpasst. Wer autonome Agentenläufe für Regressions-Tests, Testfallgenerierung oder Dokumenten-Prüfung laufen lässt, hat damit endlich einen belastbaren Kostenrahmen, ohne dass die Qualität darunter leidet.
/ultrareview ist ein neuer Slash-Command in Claude Code. Er startet eine dedizierte Review-Session, in der mehrere Agenten parallel den Code durchgehen und gezielt nach subtilen Designschwächen und übersehenen Logiklücken suchen. So bekommt man den Blick eines Senior-Reviewers vor dem Merge, zusätzlich zum bestehenden Review-Prozess.
Speicher, Vision und Verhalten: die stillen Verbesserungen
Das Modell schreibt und liest zuverlässiger aus Scratchpads und Notes-Dateien und kann den Kontext über mehrere Sessions besser halten. In langen Test-Sessions oder Legacy-Migrationen, bei denen Claude über Tage denselben Kontext braucht, ist das ein spürbarer Fortschritt.
Bei Bildern, die Claude einliest und analysiert, hat sich die Auflösungsgrenze verdreifacht: jetzt bis zu 3,75 Megapixel. Damit kommen detailreiche Dashboards, dichte Code-Screenshots oder UI-Mockups ohne Downsampling an, wo die alte Grenze bisher Details gekostet hat.
Im Ton ist das Modell direkter geworden: Validierungs-Phrasen und Emojis sind reduziert, Anweisungen werden literaler umgesetzt. Bei den reinen Zahlen hat sich auch einiges getan (plus 11 Punkte auf SWE-bench Pro, ein Drittel weniger Tool-Fehler). Im Alltag fällt aber stärker auf, dass Tool-Ausfälle nicht mehr zu Abbrüchen führen; das Modell arbeitet durch.
Erster Eindruck nach ein paar Stunden: Adaptive Thinking und Task Budgets nehmen Konfigurationsaufwand ab und geben mehr Kontrolle. /ultrareview wird vor allem in QA-Pipelines ankommen, als Prüfinstanz vor dem Merge, die über reine Syntax-Checks hinausgeht.
Persönliche Randnotiz: Ich habe morgen Geburtstag, und mit dem Desktop-Redesign von Dienstag und heute Opus 4.7 fühlt sich das wie ein verfrühtes Präsent an. Danke Anthropic 😉
