Back to archive
#ai#llm#agents#research#paper

42ah⁝ Czy możemy zbudować teorię fizyki procesu uczenia, która przewiduje makroskopowe zachowania sieci?

To jest ciekawy manifest, który moim zdaniem wyzywa do tego, aby skończyć udawać, że deep learning to tylko empiryczna inżynieria, gdzie najlepszą metodą jest odpalić 100 eksperymentów i zobaczyć, co zadziała. Zaczynamy widzieć fragmenty głębszej teorii: scaling laws, µP, edge of stability, lazy/rich learning, uniwersalne reprezentacje. Teraz trzeba to potraktować jako poważny program naukowy.

Przesunięcie pytania "Czy możemy dać formalną gwarancję, że model będzie generalizował" do "Czy możemy przewidywać zachowanie procesu uczenia na poziomie makroskopowych zmiennych"

https://arxiv.org/pdf/2604.21691

Deep learning nie jest magiczną czarną skrzynką. To złożony, ale mierzalny system dynamiczny. Skoro znamy architekturę, dane, funkcję straty, gradienty, wagi, aktywacje i regułę aktualizacji, to powinna istnieć naukowa teoria opisująca, jak sieci uczą się w czasie.

Deep learning jest wyłącznie czarną skrzynką praktycznie, ale nie fizycznie.

W fizyce często nie znamy dokładnych równań natury i musimy je odkrywać. W deep learningu mamy: architekturę, loss, gradient descent, learning rate, batch size itd. Problemem nie jest brak dostępu do procesu. Problemem jest jego złożoność. Można mierzyć wagi, aktywacje, gradienty, loss i dowolne statystyki, więc deep learning jest wyjątkowo dobrym obiektem do naukowych eksperymentów.

Istnieją proste prawa empiryczne / prawa / regularności bardzo mocno związane z trenowaniem LLM

Najbardziej znane aktualnie to

https://arxiv.org/pdf/2604.21691

42 AI