To jest ciekawy manifest, który moim zdaniem wyzywa do tego, aby skończyć udawać, że deep learning to tylko empiryczna inżynieria, gdzie najlepszą metodą jest odpalić 100 eksperymentów i zobaczyć, co zadziała. Zaczynamy widzieć fragmenty głębszej teorii: scaling laws, µP, edge of stability, lazy/rich learning, uniwersalne reprezentacje. Teraz trzeba to potraktować jako poważny program naukowy.
Przesunięcie pytania “Czy możemy dać formalną gwarancję, że model będzie generalizował” do “Czy możemy przewidywać zachowanie procesu uczenia na poziomie makroskopowych zmiennych”
https://arxiv.org/pdf/2604.21691
Deep learning nie jest magiczną czarną skrzynką. To złożony, ale mierzalny system dynamiczny. Skoro znamy architekturę, dane, funkcję straty, gradienty, wagi, aktywacje i regułę aktualizacji, to powinna istnieć naukowa teoria opisująca, jak sieci uczą się w czasie.
Deep learning jest wyłącznie czarną skrzynką praktycznie, ale nie fizycznie.
W fizyce często nie znamy dokładnych równań natury i musimy je odkrywać. W deep learningu mamy: architekturę, loss, gradient descent, learning rate, batch size itd. Problemem nie jest brak dostępu do procesu. Problemem jest jego złożoność. Można mierzyć wagi, aktywacje, gradienty, loss i dowolne statystyki, więc deep learning jest wyjątkowo dobrym obiektem do naukowych eksperymentów.
Istnieją proste prawa empiryczne
Najbardziej znane aktualnie to scaling laws.
Loss modeli często spada według prostych praw potęgowych względem:
- liczby parametrów,
- ilości danych,
- compute.
To jest niesamowite, bo model może mieć miliardy parametrów, dane są ogromne, optymalizacja złożona, a mimo to końcowy loss często układa się w prostą linię na wykresie log-log. To jest bardzo silny sygnał, że pod spodem istnieje prostsza struktura.
Drugi przykład: edge of stability.
Podczas treningu gradient descent sharpness loss landscape rośnie, a potem stabilizuje się blisko wartości zależnej od learning rate, około 2/η. To wygląda jak regularność dynamiczna, nie przypadek.