42a5b1⁝ Token

Czym jest token w LLM

Token w LLM to najmniejsza jednostka tekstu, na której model językowy operuje podczas przetwarzania i generowania odpowiedzi.

Token nie musi oznaczać całego słowa.

Może być:

całym słowem,
częścią słowa,
pojedynczym znakiem,
liczbą,
znakiem interpunkcyjnym,
a czasem także spacją lub fragmentem formatu technicznego.

Model nie „czyta” tekstu dokładnie tak jak człowiek, zdanie po zdaniu i słowo po słowie.
Najpierw zamienia tekst na tokeny, a dopiero potem analizuje ich sekwencję i przewiduje kolejne tokeny.

Prosty przykład

Zdanie:

Lubię czytać książki.

może zostać podzielone na tokeny jako:

Lubię
czy
tać
książ
ki
.

To tylko przykład, bo dokładny podział zależy od sposobu tokenizacji używanego przez dany model.

Więcej o tym, jak dzielą się tokeny według roli i sposobu użycia, znajduje się w sekcji 42a5b1a⁝ Typy Tokenów LLM

Najprościej

Token to kawałek tekstu, który model potrafi rozpoznać, policzyć i przetwarzać.

Dlaczego to ważne?

Tokeny mają wpływ na:

koszt pracy z modelem,
limit długości kontekstu,
szybkość działania,
to, ile informacji da się zmieścić w jednym zapytaniu.

Token to podstawowa jednostka tekstu przetwarzana przez model językowy - może być słowem, częścią słowa, znakiem lub symbolem.

42a5b1a⁝ Typy Tokenów LLM

A Personal Journal of Learning and Discovery

Archive

42a5b1⁝ Token

Czym jest token w LLM

Prosty przykład

Najprościej

Dlaczego to ważne?

Spis treści

Odnośniki zwrotne

Graf