Back to archive

42ah1⁝ Scaling Laws

Scaling laws w LLM to empiryczne zależności mówiące, jak jakość modelu zmienia się wraz ze wzrostem liczby parametrów, ilości danych i budżetu obliczeniowego. W praktyce opisują one, że większy model trenowany na większej ilości danych zwykle osiąga niższy loss i lepsze wyniki, często zgodnie z prawem potęgowym.

O co chodzi

Najprościej: jeśli zwiększasz skalę trenowania, performance nie rośnie losowo, tylko dość przewidywalnie. To pozwala szacować, czy opłaca się zbudować większy model, ile danych trzeba zebrać i jak podzielić stały budżet compute między model a dane.

Co mierzą

Najczęściej mierzy się zależność między:

  • liczbą parametrów modelu,
  • liczbą tokenów w treningu,
  • ilością compute, czyli mocy obliczeniowej,
  • oraz metryką jakości, zwykle loss albo wynik na benchmarku.

Dlaczego to ważne

Scaling laws pomagają planować trening dużych modeli zanim wydasz ogromne pieniądze na pełny run. Z klasycznych wyników wynikało, że bardzo duże modele były często „niedotrenowane” względem optymalnego użycia compute, a późniejsze prace, jak Chinchilla, pokazały lepszą równowagę między rozmiarem modelu a ilością danych.

Intuicja

To trochę jak prawo malejących korzyści: podwojenie skali zwykle poprawia wynik, ale nie dwa razy lepiej. Poprawa jest przewidywalna, ale coraz trudniej o duży skok jakości bez ogromnego wzrostu kosztu.

Ważne zastrzeżenie

Teraz to są zależności empiryczne, nie fundamentalne prawa fizyki. Działają bardzo dobrze w typowych warunkach pretrainingu, ale mogą słabiej opisywać nowe architektury, fine-tuning albo zachowania po treningu, więc traktuje się je jako narzędzie planistyczne, nie gwarancję.

42ah⁝ Czy możemy zbudować teorię fizyki procesu uczenia, która przewiduje makroskopowe zachowania sieci?