Back to archive
#agentic-systems#llm#LLM-harness#AI-runtime#prompt-engineering#model-orchestration#autonomous-agents#Elixir#agent-framework

42ak⁝ Słabszy model + mocniejszy harness

Przy budowie systemów agentowych, wiele rzeczy, które normalnie próbujemy "upchnąć" w prompt, trzeba przenieść do harnessu, czyli do samego runtimeu systemu.

W klasycznym podejściu piszemy modelowi:

Pamiętaj, żeby planować.
Pamiętaj, żeby nie wychodzić poza katalog.
Pamiętaj, żeby używać narzędzi ostrożnie.
Pamiętaj, żeby sprawdzać wynik.
Pamiętaj, żeby nie deklarować sukcesu bez dowodów.
Pamiętaj, żeby zwracać JSON w konkretnym formacie.

Dla mocnych modeli to działa całkiem dobrze. One potrafią utrzymać dużo instrukcji naraz, rozumieją intencję i same wypełniają luki. Ale słabsze modele dużo szybciej się gubią. Zapominają o części zasad, mieszają formaty, źle interpretują narzędzia, robią zbyt duże kroki albo deklarują sukces bez realnej weryfikacji.

Zamiast próbować coraz bardziej rozbudowywać prompt, przenosimy część odpowiedzialności do systemu.

Model ma mniej rzeczy do "pamiętania". Jego zadanie staje się węższe. Nie musi jednocześnie być plannerem, systemem bezpieczeństwa, parserem, kontrolerem uprawnień, audytorem i wykonawcą. Może po prostu wykonać mały fragment pracy w dobrze opisanych granicach.

To powoduje, że słabsze modele mogą zachowywać się dużo lepiej, niż wynikałoby z ich surowych możliwości. Nie dlatego, że nagle stają się tak samo inteligentne jak mocniejsze modele, ale dlatego, że harness zmniejsza przestrzeń błędu.

Można to porównać do pracy juniora w dobrze zaprojektowanym procesie. Junior bez procesu może łatwo się pogubić. Ale junior z checklistą, ograniczonym dostępem, dobrym review, jasnym kontraktem i automatycznymi testami może dowozić zaskakująco dobre rezultaty.

Podobnie jest z modelami.

Mocny model potrafi więcej "dowieźć z głowy"
Słabszy model potrzebuje więcej struktury wokół siebie.

Dlatego przyszłość agentów nie polega tylko na coraz większych modelach. Równie ważne będzie budowanie coraz lepszych harnessów: z permissions, sandboxem, walidacją kontraktów, podziałem ról, kontrolą narzędzi, pamięcią, budżetami, event logiem i evidence-based finalization.

W praktyce dobry harness działa jak egzoszkielet dla modelu.

42 AI