42ah⁝ Czy możemy zbudować teorię fizyki procesu uczenia, która przewiduje makroskopowe zachowania sieci?
To jest ciekawy manifest, który moim zdaniem wyzywa do tego, aby skończyć udawać, że deep learning to tylko empiryczna inżynieria, gdzie najlepszą metodą jest odpalić 100 eksperymentów i zobaczyć, co zadziała. Zaczynamy widzieć fragmenty głębszej teorii: scaling laws, µP, edge of stability, lazy/rich learning, uniwersalne reprezentacje. Teraz trzeba to potraktować jako poważny program naukowy.
Przesunięcie pytania "Czy możemy dać formalną gwarancję, że model będzie generalizował" do "Czy możemy przewidywać zachowanie procesu uczenia na poziomie makroskopowych zmiennych"
https://arxiv.org/pdf/2604.21691
Deep learning nie jest magiczną czarną skrzynką. To złożony, ale mierzalny system dynamiczny. Skoro znamy architekturę, dane, funkcję straty, gradienty, wagi, aktywacje i regułę aktualizacji, to powinna istnieć naukowa teoria opisująca, jak sieci uczą się w czasie.
Deep learning jest wyłącznie czarną skrzynką praktycznie, ale nie fizycznie.
W fizyce często nie znamy dokładnych równań natury i musimy je odkrywać. W deep learningu mamy: architekturę, loss, gradient descent, learning rate, batch size itd. Problemem nie jest brak dostępu do procesu. Problemem jest jego złożoność. Można mierzyć wagi, aktywacje, gradienty, loss i dowolne statystyki, więc deep learning jest wyjątkowo dobrym obiektem do naukowych eksperymentów.
Istnieją proste prawa empiryczne / prawa / regularności bardzo mocno związane z trenowaniem LLM
Najbardziej znane aktualnie to
- 42ah1⁝ Scaling Laws
- 42ah2⁝ Edge Of Stability
- 42ah3⁝ Neural Collapse
- 42ah4⁝ Neural Feature Ansatz
- 42ah8⁝ Lazy Learning Vs Rich Learning
- 42ah6⁝ µP I Transfer Hyperparametrów
- 42ah9⁝ Learning Rate - Batch Size Scaling Rules
- 42ah5⁝ Critical Batch Size
- 42ah7⁝ Implicit Regularization Przez Hyperparametry
- 42ah10⁝ Universal Representations I Universal Phenomena