Back to archive

42ah4⁝ Neural Feature Ansatz

Neural Feature Ansatz (NFA) to hipoteza w teorii głębokiego uczenia, która opisuje, jak sieci neuronowe "uczą się" cech z danych. Mówi, że po nauczeniu macierz Grama wag pierwszej warstwy jest proporcjonalna do pewnej potęgi  Average Gradient Outer Product (AGOP)  względem danych wejściowych.

Intuicyjna idea

AGOP to średni iloczyn zewnętrzny gradientów wyjścia sieci względem wejścia; mierzy, które kierunki w przestrzeni danych najbardziej wpływają na zmianę wyjścia.
NFA stwierdza, że sieć „wyczuwa” te ważne kierunki i konfiguruje wagi pierwszej warstwy tak, aby wzmocnić cechy, które są mocno związane z wynikiem (np. klasyfikacją).

Po co to jest?

42ah4⁝ Neural Feature Ansatz jest używana do:

  • opisania mechanizmu uczenia cech (feature learning) w sieciach głębokich,
  • wyprowadzania prostych modeli zastępczych (np. kernel machines), które potrafią uczyć się cech bez pełnego backpropagationu,
  • wyjaśniania zjawisk takich jak "42ah4a⁝ Grokking", przejścia fazowe w uczeniu i efekty przycinania (pruning) sieci.

42ah⁝ Czy możemy zbudować teorię fizyki procesu uczenia, która przewiduje makroskopowe zachowania sieci?