Back to archive

42a5⁝ Claude Opus 4.7

Claude Opus 4.7

Premiera Claude Opus 4.7 pokazuje coś, o czym w AI mówi się za mało: sam wzrost benchmarków nie oznacza jeszcze lepszego doświadczenia użytkownika.

Na papierze Opus 4.7 wygląda bardzo mocno. Anthropic podkreśla poprawę w zadaniach kodowych i agentowych, a partnerzy firmy chwalą wyraźny skok m.in. na SWE-bench Pro i w realnych workflow programistycznych.

Problem polega na tym, że ten wzrost jakości nie przychodzi za darmo. Opus 4.7 używa nowego tokenizera, który dla tego samego wejścia może naliczać od około 1x do 1.35x więcej tokenów niż Opus 4.6. Do tego dochodzą tryby high i xhigh effort, które pozwalają wycisnąć z modelu więcej, ale jednocześnie szybciej spalają budżet. W praktyce oznacza to, że część użytkowników nie odczuje „po prostu lepszego modelu”, tylko raczej model, przy którym trzeba dużo uważniej pilnować kosztu każdego promptu.

Rrynek AI coraz mniej przypomina wyścig na inteligencję, a coraz bardziej wyścig na przewidywalność.

Dla wielu osób ważniejsze od tego, czy model jest błyskotliwszy o kolejne kilka punktów, staje się to, czy da się na nim spokojnie pracować przez cały dzień bez ciągłego liczenia tokenów, limitów i effort leveli. Z tej perspektywy przewaga nie zawsze będzie należeć do modelu "najmocniejszego", tylko do tego, który jest bardziej stabilny operacyjnie. OpenAI właśnie tak próbuje ustawiać Codex: czytelniejsze zasady, jasna komunikacja limitów dla planów oraz opcja pay-as-you-go dla zespołów, gdzie koszt jest bardziej bezpośrednio powiązany z użyciem.

Druga rzecz to bezpieczeństwo. Anthropic otwarcie komunikuje, że rozwój nowszych modeli jest silnie związany z ryzykiem cyberbezpieczeństwa, a w dokumentacji i materiałach wokół 4.7 widać wyraźny nacisk na safeguards i kontrolę ryzykownych zastosowań. To może być rozsądne z perspektywy firmy, ale dla części specjalistów technicznych oznacza większą nieprzewidywalność tego, kiedy model pomoże, a kiedy nagle odmówi.

Dlatego najuczciwszy wniosek nie brzmi dziś: „który model jest najmądrzejszy?”, tylko raczej: który model daje najlepszy stosunek jakości do kosztu i najmniej psuje rytm pracy. (42a5b⁝ Ekonomia Tokenów)

Claude nadal dla wielu programistów ma bardziej „ludzką” intuicję i bywa świetny w złożonych zadaniach. Ale jeśli ten poziom jakości jest okupiony większym zużyciem tokenów, większą złożonością ustawień i mniejszą przewidywalnością kosztów, to część rynku może świadomie wybrać model trochę mniej błyskotliwy, ale bardziej stabilny.

Największym wyzwaniem AI nie jest już dziś brak inteligencji. Jest nim koszt tej inteligencji i to, czy można na niej polegać codziennie, a nie tylko w demie.

https://www.anthropic.com/news/claude-opus-4-7

42a5a⁝ Claude Opus 4.7 System Card

42a⁝ LLM Models