42ah4a⁝ Grokking

Grokking w uczeniu maszynowym to zjawisko, w którym model najpierw wydaje się tylko zapamiętywać dane treningowe (ma bardzo niski błąd na uczących, ale słabo generalizuje), a po długim czasie treningu nagle zaczyna dużo lepiej działać na danych testowych - jakby "dokładnie zrozumiał" zadanie.

Jak to wygląda na krzywych uczenia

Na początku krzywa treningowa spada gładko, ale krzywa walidacyjna jest blisko przypadkowej (model się przeucza).
Po długim okresie stagnacji (gdy wydaje się, że nic się nie zmienia) błąd walidacyjny raptownie opada, często „skakając” do bardzo dobrych wyników - to właśnie grokking.

Skąd się bierze

Często pojawia się w małych jako „zabawkowych” zadaniach algorytmicznych (np. działania w grupach, proste arytmetyka), ale też obserwowano je w większych modelach i innych domenach.
Teorie mówią, że sieć „przełącza” się z trybu leniwej treningu do bogatszego trybu, w którym wagi ruszają się w kierunkach odpowiadających prawdziwej strukturze zadania, co daje gwałtowny wzrost generalizacji.

Analogia do „kliknięcia” w głowie

Nazwa pochodzi z science‑fiction i oznacza „głęboko zrozumieć”. W kontekście AI grokking wygląda jak sytuacja, w której model najpierw „uczy się na pamięć”, a potem - po długim treningu - nagle "zaznacza" rozwiązanie i zaczyna dobrze radzić sobie z nowymi przykładami.

42ah4⁝ Neural Feature Ansatz

42ah4a⁝ Grokking

Jak to wygląda na krzywych uczenia

Skąd się bierze

Analogia do „kliknięcia” w głowie

Nearby signals