Back to archive

42ah3⁝ Neural Collapse

Neural collapse to nazwa zjawiska geometrycznego występującego we w głębokich sieciach neuronowych w ostatniej fazie ich treningu na zadaniach klasyfikacji.

Co to dokładnie oznacza?

Gdy sieć dopiero się uczy, "ukryte cechy" (reprezentacje neuronów z ostatniej warstwy) tego samego klasy są mocno rozrzucone. W fazie tzw. terminal phase of training - gdy błąd na zbiorze treningowym spada do zera, a sieć nadal minimalizuje stratę – cechy dla danej klasy „zapadają się” do jednego środka klasy, a środki wszystkich klas układają się w bardzo regularną, symetryczną konfigurację (simplex ETF – równo‑kątowa, równo‑odległa struktura).

Najważniejsze cechy Neural Collapse

Proces opisuje się zwykle czterema właściwościami:

  1. Zanik zmienności wewnątrz klas (NC1) – wszystkie przykłady z jednej klasy mają praktycznie tę samą reprezentację w ostatniej warstwie (zbliżają się do środka klasy).
  2. Symetryczna struktura klas (ETF) – środki klas tworzą „simplex equiangular tight frame”, czyli w przestrzeni cech są jak równo‑odległe, równo‑kątne wierzchołki wielowymiarowego symetrycznego wielościanu.
  3. Wyrównanie klas i wag klasyfikatora – wektory wag klasyfikatora (to, co „odczytuje” klasy z cech) układają się w bardzo podobny sposób do środków klas, co sprowadza decyzję do prostego „najbliższy centroid klasy” (nearest‑class‑center).
  4. Uproszczenie granic decyzyjnych – klasyfikacja staje się geometrycznie prostsza, co jest powiązane z lepszą generalizacją i większą odpornością modelu.

42ah⁝ Czy możemy zbudować teorię fizyki procesu uczenia, która przewiduje makroskopowe zachowania sieci?