42ah2⁝ Edge Of Stability

Edge of stability to zjawisko w treningu sieci neuronowych, gdzie "loss landscape sharpness." zwykle mierzona największą wartością własną Hessian matrix, utrzymuje się blisko granicy

2/η

gdzie η to learning rate. Innymi słowy, model nie ucieka w pełni do stabilnego, płaskiego reżimu, tylko długo trenuje „na granicy” niestabilności.

Intuicja

Jeśli learning rate jest za duży, zwykły gradient descent powinien się rozjechać. W praktyce badania pokazały jednak, że trening często sam reguluje się tak, że curvature rośnie do punktu bliskiego tej granicy i potem oscyluje wokół niej.

To ważne, bo pokazuje, że klasyczne intuicje o stabilności optymalizacji są zbyt proste dla dużych modeli. Zjawisko edge of stability pomaga wyjaśniać, czemu trening głębokich sieci bywa stabilny nawet wtedy, gdy lokalnie wygląda na „na granicy wybuchu”.

W LLM oznacza to, że podczas pretrainingu optymalizator może działać w reżimie, w którym sharpness pozostaje wysoka, ale kontrolowana przez krok uczenia. To ma znaczenie dla doboru learning rate, schematów treningu i interpretacji dynamiki lossu, zwłaszcza przy bardzo dużej skali modeli.

Związek ze scaling laws

Scaling laws mówią, jak zmienia się jakość modelu wraz ze skalą treningu, a edge of stability opisuje, jak wygląda sama dynamika optymalizacji w trakcie tego treningu. Jedno dotyczy zależności koszt-jakość, drugie mechaniki uczenia na poziomie trajektorii gradient descent.

42ah⁝ Czy możemy zbudować teorię fizyki procesu uczenia, która przewiduje makroskopowe zachowania sieci?

42ah2⁝ Edge Of Stability

Intuicja

Związek ze scaling laws

Nearby signals