Claude Opus 4.7
https://www.anthropic.com/news/claude-opus-4-7
Premiera Claude Opus 4.7 (kwiecień 2026) pokazuje konflikt między czystą wydajnością modelu w benchmarkach a realną wartością dla użytkowników końcowych. Mimo znaczących wzrostów w testach (np. SWE-bench Pro), model ten wprowadza zmiany, które mogą być postrzegane jako “ukryty podatek” od efektywności.
Kluczowe obserwacje:
-
Ekonomia Tokenów: Nowy tokenizer generuje o 1.0–1.35x więcej tokenów dla tego samego tekstu wejściowego. W połączeniu z nowymi trybami “High/XHigh Effort”, powoduje to drastycznie szybsze wyczerpywanie limitów subskrypcyjnych, co można nazwać potrzebą “liczenia kalorii w każdym zapytaniu”.
-
Cenzura Techniczna (Cybersecurity): Anthropic wprowadził rygorystyczne filtry bezpieczeństwa, które paraliżują pracę specjalistów od cybersec (tzw. White Hats). Model odmawia analizy kodu pod kątem podatności, co wymusza na profesjonalistach migrację do modelu Codex (OpenAI).
-
Kryzys Zaufania (Gaslighting): Czy Anthropic celowo pogarsza modelu 4.6 tuż przed premierą 4.7, aby nowy model wydawał się większym skokiem jakościowym. Brak ransparentności w komunikacji o limitach i zmianach w architekturze.
-
Regresja Długiego Kontekstu: Zauważalny spadek w benchmarku MCRC (z 78% na 32%) sugeruje, że optymalizacja pod kodowanie odbyła się kosztem zdolności do rozumowania nad bardzo długimi dokumentami.
Moim zdaniem W kwietniu 2026 r. rynek AI staje się grą o stabilność i limity, a nie tylko o parametry. OpenAI (Codex) może zyskać przewagę dzięki bardziej przewidywalnym planom cenowym i wyższym limitom, mimo że Claude wciąż jest postrzegany jako model o bardziej ludzkiej intuicji w programowaniu.
IMHO największym wyzwaniem dla AI nie jest już brak inteligencji, ale zarządzanie kosztami i przewidywalność. Wolimy model nieco “głupszy”, ale stabilny (jak Codex), niż genialnego “artystę” (Claude 4.7), który ma zmienne nastroje i błyskawicznie spala budżet.