Claude Opus 4.7

https://www.anthropic.com/news/claude-opus-4-7

Premiera Claude Opus 4.7 (kwiecień 2026) pokazuje konflikt między czystą wydajnością modelu w benchmarkach a realną wartością dla użytkowników końcowych. Mimo znaczących wzrostów w testach (np. SWE-bench Pro), model ten wprowadza zmiany, które mogą być postrzegane jako “ukryty podatek” od efektywności.

Kluczowe obserwacje:

  1. Ekonomia Tokenów: Nowy tokenizer generuje o 1.0–1.35x więcej tokenów dla tego samego tekstu wejściowego. W połączeniu z nowymi trybami “High/XHigh Effort”, powoduje to drastycznie szybsze wyczerpywanie limitów subskrypcyjnych, co można nazwać potrzebą “liczenia kalorii w każdym zapytaniu”.

  2. Cenzura Techniczna (Cybersecurity): Anthropic wprowadził rygorystyczne filtry bezpieczeństwa, które paraliżują pracę specjalistów od cybersec (tzw. White Hats). Model odmawia analizy kodu pod kątem podatności, co wymusza na profesjonalistach migrację do modelu Codex (OpenAI).

  3. Kryzys Zaufania (Gaslighting): Czy Anthropic celowo pogarsza modelu 4.6 tuż przed premierą 4.7, aby nowy model wydawał się większym skokiem jakościowym. Brak ransparentności w komunikacji o limitach i zmianach w architekturze.

  4. Regresja Długiego Kontekstu: Zauważalny spadek w benchmarku MCRC (z 78% na 32%) sugeruje, że optymalizacja pod kodowanie odbyła się kosztem zdolności do rozumowania nad bardzo długimi dokumentami.

Moim zdaniem W kwietniu 2026 r. rynek AI staje się grą o stabilność i limity, a nie tylko o parametry. OpenAI (Codex) może zyskać przewagę dzięki bardziej przewidywalnym planom cenowym i wyższym limitom, mimo że Claude wciąż jest postrzegany jako model o bardziej ludzkiej intuicji w programowaniu.

IMHO największym wyzwaniem dla AI nie jest już brak inteligencji, ale zarządzanie kosztami i przewidywalność. Wolimy model nieco “głupszy”, ale stabilny (jak Codex), niż genialnego “artystę” (Claude 4.7), który ma zmienne nastroje i błyskawicznie spala budżet.

42a5a⁝ Claude Opus 4.7 System Card

42a⁝ LLM Models