Czym jest token w LLM
Token w LLM to najmniejsza jednostka tekstu, na której model językowy operuje podczas przetwarzania i generowania odpowiedzi.
Token nie musi oznaczać całego słowa.
Może być:
- całym słowem,
- częścią słowa,
- pojedynczym znakiem,
- liczbą,
- znakiem interpunkcyjnym,
- a czasem także spacją lub fragmentem formatu technicznego.
Model nie „czyta” tekstu dokładnie tak jak człowiek, zdanie po zdaniu i słowo po słowie.
Najpierw zamienia tekst na tokeny, a dopiero potem analizuje ich sekwencję i przewiduje kolejne tokeny.
Prosty przykład
Zdanie:
Lubię czytać książki.
może zostać podzielone na tokeny jako:
Lubięczytaćksiążki.
To tylko przykład, bo dokładny podział zależy od sposobu tokenizacji używanego przez dany model.
Więcej o tym, jak dzielą się tokeny według roli i sposobu użycia, znajduje się w sekcji 42a5b1a⁝ Typy Tokenów LLM
Najprościej
Token to kawałek tekstu, który model potrafi rozpoznać, policzyć i przetwarzać.
Dlaczego to ważne?
Tokeny mają wpływ na:
- koszt pracy z modelem,
- limit długości kontekstu,
- szybkość działania,
- to, ile informacji da się zmieścić w jednym zapytaniu.
Token to podstawowa jednostka tekstu przetwarzana przez model językowy - może być słowem, częścią słowa, znakiem lub symbolem.