42ah2⁝ Edge Of Stability
Edge of stability to zjawisko w treningu sieci neuronowych, gdzie "loss landscape sharpness." zwykle mierzona największą wartością własną Hessian matrix, utrzymuje się blisko granicy
2/η
gdzie η to learning rate. Innymi słowy, model nie ucieka w pełni do stabilnego, płaskiego reżimu, tylko długo trenuje „na granicy” niestabilności.
Intuicja
Jeśli learning rate jest za duży, zwykły gradient descent powinien się rozjechać. W praktyce badania pokazały jednak, że trening często sam reguluje się tak, że curvature rośnie do punktu bliskiego tej granicy i potem oscyluje wokół niej.
To ważne, bo pokazuje, że klasyczne intuicje o stabilności optymalizacji są zbyt proste dla dużych modeli. Zjawisko edge of stability pomaga wyjaśniać, czemu trening głębokich sieci bywa stabilny nawet wtedy, gdy lokalnie wygląda na „na granicy wybuchu”.
W LLM oznacza to, że podczas pretrainingu optymalizator może działać w reżimie, w którym sharpness pozostaje wysoka, ale kontrolowana przez krok uczenia. To ma znaczenie dla doboru learning rate, schematów treningu i interpretacji dynamiki lossu, zwłaszcza przy bardzo dużej skali modeli.
Związek ze scaling laws
Scaling laws mówią, jak zmienia się jakość modelu wraz ze skalą treningu, a edge of stability opisuje, jak wygląda sama dynamika optymalizacji w trakcie tego treningu. Jedno dotyczy zależności koszt-jakość, drugie mechaniki uczenia na poziomie trajektorii gradient descent.