42ah1⁝ Scaling Laws

Scaling laws w LLM to empiryczne zależności mówiące, jak jakość modelu zmienia się wraz ze wzrostem liczby parametrów, ilości danych i budżetu obliczeniowego. W praktyce opisują one, że większy model trenowany na większej ilości danych zwykle osiąga niższy loss i lepsze wyniki, często zgodnie z prawem potęgowym.

O co chodzi

Najprościej: jeśli zwiększasz skalę trenowania, performance nie rośnie losowo, tylko dość przewidywalnie. To pozwala szacować, czy opłaca się zbudować większy model, ile danych trzeba zebrać i jak podzielić stały budżet compute między model a dane.

Co mierzą

Najczęściej mierzy się zależność między:

liczbą parametrów modelu,
liczbą tokenów w treningu,
ilością compute, czyli mocy obliczeniowej,
oraz metryką jakości, zwykle loss albo wynik na benchmarku.

Dlaczego to ważne

Scaling laws pomagają planować trening dużych modeli zanim wydasz ogromne pieniądze na pełny run. Z klasycznych wyników wynikało, że bardzo duże modele były często „niedotrenowane” względem optymalnego użycia compute, a późniejsze prace, jak Chinchilla, pokazały lepszą równowagę między rozmiarem modelu a ilością danych.

Intuicja

To trochę jak prawo malejących korzyści: podwojenie skali zwykle poprawia wynik, ale nie dwa razy lepiej. Poprawa jest przewidywalna, ale coraz trudniej o duży skok jakości bez ogromnego wzrostu kosztu.

Ważne zastrzeżenie

Teraz to są zależności empiryczne, nie fundamentalne prawa fizyki. Działają bardzo dobrze w typowych warunkach pretrainingu, ale mogą słabiej opisywać nowe architektury, fine-tuning albo zachowania po treningu, więc traktuje się je jako narzędzie planistyczne, nie gwarancję.

42ah⁝ Czy możemy zbudować teorię fizyki procesu uczenia, która przewiduje makroskopowe zachowania sieci?