Gdy ma się pod ręką gotowe, dopracowane ekosystemy od OpenAI czy Anthropic, budowanie własnego “składaka” może wydawać się zbędną gimnastyką. Ma to jednak sens, gdy patrzymy na to przez pryzmat kosztów skali i kontroli nad procesem. Topowe modele są świetne, ale są i absurdalnie drogie, jeśli chciałbym nimi zasilać agenta wykonującego setki małych operacji w tle to mój codzienny rachunek szedłby w setki dolarów

Ciekawą alternatywą w tym kontekście jest Step 3.5 Flash od 42ad1⁝ StepFun. To model, który nie próbuje być we wszystkim najlepszy, ale stawia na bardzo konkretną optymalizację.

To architektura MoE (Mixture of Experts). W uproszczeniu: model ma ogromną bazę parametrów (196 mld), ale przy każdym konkretnym pytaniu “budzi” tylko niewielką ich część - około 11 mld. Dzięki temu nie marnuje mocy obliczeniowej na analizowanie wszystkiego naraz.

Przekłada się to bezpośrednio na portfel:

  • $0.10 za milion tokenów wejściowych,
  • $0.30 za milion tokenów wyjściowych.

W zestawieniu z cenami modeli klasy “frontier”, to są kwoty, które pozwalają na znacznie luźniejsze podejście do budowania automatyzacji. Można mu zlecać powtarzalne, nudne zadania bez poczucia, że każda pętla w kodzie kosztuje nas kawę w kawiarni.

To prawdopodobnie pierwszy lokalny model z rodziny “200mld”, który faktycznie nadaje się do pracy z agentami CLI. Na Macu z procesorem M1 Ultra osiąga prędkości rzędu 36 t/s, co przy tak dużej liczbie parametrów jest wynikiem bardzo solidnym. Co ważne, wydajność nie spada drastycznie przy długim kontekście - nawet przy 100 tysiącach tokenów model wciąż “wypluwa” tekst sprawnie.

Był trenowany pod kątem kompatybilności z ekosystemem agentowym, w tym z narzędziami typu Claude Code. Zamiast budować wszystko od zera, można próbować podmienić drogie API Anthropic na lokalną instancję StepFun w narzędziach, które już znamy.

  • Pętle myślowe: Zdarza mu się wpaść w nieskończoną pętlę rozumowania (tzw. reasoning loop), co bywa irytujące przy autonomicznych agentach.

  • Przegadanie: Czasami jego łańcuchy myślowe (Chain of Thought) są absurdalnie długie. Pisze “książkę” o tym, jak stworzyć prosty skrypt, co wydłuża czas oczekiwania na końcowy efekt, mimo wysokiej prędkości generowania tokenów.

Warto odnotować: StepFun to ta sama ekipa, która stoi za modelem ACEStep (generowanie muzyki). Widać, że mają dryg do tworzenia rzeczy, które są “dobre i tanie”, co w świecie AI rzadko idzie w parze.

42 AI