42ah10⁝ Universal Representations I Universal Phenomena
różne modele, trenowane niezależnie, często uczą się podobnych wewnętrznych struktur, cech i mechanizmów.
Czyli np. dwa różne LLM-y mogą mieć inne wagi, inną architekturę, inny tokenizer i inny rozmiar, ale mimo to w środku mogą kodować podobne pojęcia: składnię, liczby, języki, formaty danych, emocje, relacje semantyczne, kod, cytaty, daty, byty geograficzne itd.
1. Universal representations - o co chodzi?
Reprezentacja to wewnętrzny wektorowy opis czegoś w modelu.
Na przykład model widzi tokeny:
"pies", "dog", "chien"
i gdzieś w środku może reprezentować je jako podobne pojęcie: „zwierzę domowe, pies”.
Universal representations oznacza hipotezę/obserwację, że różne modele uczą się podobnych reprezentacji tych samych pojęć.
Nie chodzi o to, że neuron numer 1234 w modelu A robi dokładnie to samo co neuron numer 1234 w modelu B. Raczej chodzi o to, że po odpowiednim przekształceniu przestrzeni wektorowej można znaleźć podobną strukturę.
Czyli geometria znaczenia może być podobna, nawet jeśli konkretne współrzędne są inne.
Badania nad podobieństwem reprezentacji, np. CKA, pokazują, że można porównywać warstwy różnych sieci i znajdować odpowiadające sobie reprezentacje nawet między różnymi architekturami. https://proceedings.mlr.press/v97/kornblith19a/kornblith19a.pdf
2. Ważne: reprezentacje są zwykle podobne "z dokładnością do transformacji"
Nie należy myśleć:
model A ma neuron od "psów"
model B ma ten sam neuron od "psów"
Bardziej poprawnie:
model A ma pewien kierunek / podprzestrzeń / feature od "psów"
model B ma podobny feature, ale zapisany w innej bazie
Co można porównywać
podobieństwo warstw
- podobieństwo geometrii embeddingów
- liniowe mapowania między reprezentacjami
- feature matching
- sparse autoencodery
- CKA / RSA / stitching
3. Universal phenomena - czym różni się od universal representations?
Universal representations dotyczą tego, co model ma w środku.
Universal phenomena dotyczą tego, jakie wzorce pojawiają się w wielu modelach/treningach.
Universal representations: różne modele uczą się podobnych „pojęć” w środku.
Universal phenomena: różne modele pokazują podobne wzorce uczenia i działania