Back to archive

42ah2⁝ Edge Of Stability

Edge of stability to zjawisko w treningu sieci neuronowych, gdzie "loss landscape sharpness." zwykle mierzona największą wartością własną Hessian matrix, utrzymuje się blisko granicy 

2/η

gdzie η to learning rate. Innymi słowy, model nie ucieka w pełni do stabilnego, płaskiego reżimu, tylko długo trenuje „na granicy” niestabilności.

Intuicja

Jeśli learning rate jest za duży, zwykły gradient descent powinien się rozjechać. W praktyce badania pokazały jednak, że trening często sam reguluje się tak, że curvature rośnie do punktu bliskiego tej granicy i potem oscyluje wokół niej.

To ważne, bo pokazuje, że klasyczne intuicje o stabilności optymalizacji są zbyt proste dla dużych modeli. Zjawisko edge of stability pomaga wyjaśniać, czemu trening głębokich sieci bywa stabilny nawet wtedy, gdy lokalnie wygląda na „na granicy wybuchu”.

W LLM oznacza to, że podczas pretrainingu optymalizator może działać w reżimie, w którym sharpness pozostaje wysoka, ale kontrolowana przez krok uczenia. To ma znaczenie dla doboru learning rate, schematów treningu i interpretacji dynamiki lossu, zwłaszcza przy bardzo dużej skali modeli.

Związek ze scaling laws

Scaling laws mówią, jak zmienia się jakość modelu wraz ze skalą treningu, a edge of stability opisuje, jak wygląda sama dynamika optymalizacji w trakcie tego treningu. Jedno dotyczy zależności koszt-jakość, drugie mechaniki uczenia na poziomie trajektorii gradient descent.

42ah⁝ Czy możemy zbudować teorię fizyki procesu uczenia, która przewiduje makroskopowe zachowania sieci?