Test-time compute (TTC) w kontekście dużych modeli językowych (LLM) to dodatkowa moc obliczeniowa wykorzystywana podczas inferencji, czyli generowania odpowiedzi po treningu modelu, a nie w fazie uczenia. Pozwala to modelom na dłuższe “myślenie”, np. poprzez generowanie wielu wariantów odpowiedzi, chain-of-thought reasoning czy weryfikację wyników, co poprawia jakość na trudnych zadaniach.
TTC różni się od compute’u treningowego - skupia się na skalowaniu rozumowania w czasie rzeczywistym, gdzie model dynamicznie zwiększa czas przetwarzania. Techniki obejmują best-of-N sampling, beam search czy adaptacyjne alokowanie zasobów w zależności od trudności promptu.
Zwiększanie TTC może poprawić wydajność nawet 4x w porównaniu do prostych metod, np. na benchmarkach matematycznych, bez potrzeby większego modelu bazowego. Przykładowo, model z TTC może wygenerować łańcuch myśli, zweryfikować go i wybrać najlepszą odpowiedź, co jest kluczowe przy blokadach danych treningowych.