Czym jest token w LLM

Token w LLM to najmniejsza jednostka tekstu, na której model językowy operuje podczas przetwarzania i generowania odpowiedzi.

Token nie musi oznaczać całego słowa.

Może być:

  • całym słowem,
  • częścią słowa,
  • pojedynczym znakiem,
  • liczbą,
  • znakiem interpunkcyjnym,
  • a czasem także spacją lub fragmentem formatu technicznego.

Model nie „czyta” tekstu dokładnie tak jak człowiek, zdanie po zdaniu i słowo po słowie.
Najpierw zamienia tekst na tokeny, a dopiero potem analizuje ich sekwencję i przewiduje kolejne tokeny.

Prosty przykład

Zdanie:

Lubię czytać książki.

może zostać podzielone na tokeny jako:

  • Lubię
  • czy
  • tać
  • książ
  • ki
  • .

To tylko przykład, bo dokładny podział zależy od sposobu tokenizacji używanego przez dany model.

Więcej o tym, jak dzielą się tokeny według roli i sposobu użycia, znajduje się w sekcji 42a5b1a⁝ Typy Tokenów LLM

Najprościej

Token to kawałek tekstu, który model potrafi rozpoznać, policzyć i przetwarzać.

Dlaczego to ważne?

Tokeny mają wpływ na:

  • koszt pracy z modelem,
  • limit długości kontekstu,
  • szybkość działania,
  • to, ile informacji da się zmieścić w jednym zapytaniu.

Token to podstawowa jednostka tekstu przetwarzana przez model językowy - może być słowem, częścią słowa, znakiem lub symbolem.

42a5b1a⁝ Typy Tokenów LLM