42ah4a⁝ Grokking
Grokking w uczeniu maszynowym to zjawisko, w którym model najpierw wydaje się tylko zapamiętywać dane treningowe (ma bardzo niski błąd na uczących, ale słabo generalizuje), a po długim czasie treningu nagle zaczyna dużo lepiej działać na danych testowych - jakby "dokładnie zrozumiał" zadanie.
Jak to wygląda na krzywych uczenia
- Na początku krzywa treningowa spada gładko, ale krzywa walidacyjna jest blisko przypadkowej (model się przeucza).
- Po długim okresie stagnacji (gdy wydaje się, że nic się nie zmienia) błąd walidacyjny raptownie opada, często „skakając” do bardzo dobrych wyników - to właśnie grokking.
Skąd się bierze
- Często pojawia się w małych jako „zabawkowych” zadaniach algorytmicznych (np. działania w grupach, proste arytmetyka), ale też obserwowano je w większych modelach i innych domenach.
- Teorie mówią, że sieć „przełącza” się z trybu leniwej treningu do bogatszego trybu, w którym wagi ruszają się w kierunkach odpowiadających prawdziwej strukturze zadania, co daje gwałtowny wzrost generalizacji.
Analogia do „kliknięcia” w głowie
Nazwa pochodzi z science‑fiction i oznacza „głęboko zrozumieć”. W kontekście AI grokking wygląda jak sytuacja, w której model najpierw „uczy się na pamięć”, a potem - po długim treningu - nagle "zaznacza" rozwiązanie i zaczyna dobrze radzić sobie z nowymi przykładami.