Back to archive

42ah4a⁝ Grokking

Grokking w uczeniu maszynowym to zjawisko, w którym model najpierw wydaje się tylko zapamiętywać dane treningowe (ma bardzo niski błąd na uczących, ale słabo generalizuje), a po długim czasie treningu nagle zaczyna dużo lepiej działać na danych testowych - jakby "dokładnie zrozumiał" zadanie.

Jak to wygląda na krzywych uczenia

  • Na początku krzywa treningowa spada gładko, ale krzywa walidacyjna jest blisko przypadkowej (model się przeucza).
  • Po długim okresie stagnacji (gdy wydaje się, że nic się nie zmienia) błąd walidacyjny raptownie opada, często „skakając” do bardzo dobrych wyników - to właśnie grokking.

Skąd się bierze

  • Często pojawia się w małych jako „zabawkowych” zadaniach algorytmicznych (np. działania w grupach, proste arytmetyka), ale też obserwowano je w większych modelach i innych domenach.
  • Teorie mówią, że sieć „przełącza” się z trybu leniwej treningu do bogatszego trybu, w którym wagi ruszają się w kierunkach odpowiadających prawdziwej strukturze zadania, co daje gwałtowny wzrost generalizacji.

Analogia do „kliknięcia” w głowie

Nazwa pochodzi z science‑fiction i oznacza „głęboko zrozumieć”. W kontekście AI grokking wygląda jak sytuacja, w której model najpierw „uczy się na pamięć”, a potem - po długim treningu - nagle "zaznacza" rozwiązanie i zaczyna dobrze radzić sobie z nowymi przykładami.

42ah4⁝ Neural Feature Ansatz