42ah1⁝ Scaling Laws
Scaling laws w LLM to empiryczne zależności mówiące, jak jakość modelu zmienia się wraz ze wzrostem liczby parametrów, ilości danych i budżetu obliczeniowego. W praktyce opisują one, że większy model trenowany na większej ilości danych zwykle osiąga niższy loss i lepsze wyniki, często zgodnie z prawem potęgowym.
O co chodzi
Najprościej: jeśli zwiększasz skalę trenowania, performance nie rośnie losowo, tylko dość przewidywalnie. To pozwala szacować, czy opłaca się zbudować większy model, ile danych trzeba zebrać i jak podzielić stały budżet compute między model a dane.
Co mierzą
Najczęściej mierzy się zależność między:
- liczbą parametrów modelu,
- liczbą tokenów w treningu,
- ilością compute, czyli mocy obliczeniowej,
- oraz metryką jakości, zwykle loss albo wynik na benchmarku.
Dlaczego to ważne
Scaling laws pomagają planować trening dużych modeli zanim wydasz ogromne pieniądze na pełny run. Z klasycznych wyników wynikało, że bardzo duże modele były często „niedotrenowane” względem optymalnego użycia compute, a późniejsze prace, jak Chinchilla, pokazały lepszą równowagę między rozmiarem modelu a ilością danych.
Intuicja
To trochę jak prawo malejących korzyści: podwojenie skali zwykle poprawia wynik, ale nie dwa razy lepiej. Poprawa jest przewidywalna, ale coraz trudniej o duży skok jakości bez ogromnego wzrostu kosztu.
Ważne zastrzeżenie
Teraz to są zależności empiryczne, nie fundamentalne prawa fizyki. Działają bardzo dobrze w typowych warunkach pretrainingu, ale mogą słabiej opisywać nowe architektury, fine-tuning albo zachowania po treningu, więc traktuje się je jako narzędzie planistyczne, nie gwarancję.