Typy tokenów w LLM

Tokeny to podstawowe jednostki przetwarzania tekstu w modelach językowych. Można je podzielić według roli, widoczności i funkcji.

1. Podział według przepływu przetwarzania

TypOpisLiczone do kosztów?Przykład
InputTokeny z zapytania lub promptuTak„Przetwórz ten tekst:”
OutputTokeny generowane przez modelTak„Oto odpowiedź.”
ContextSuma inputu, historii rozmowy i outputu w oknie kontekstuTakCała konwersacja
CachedTokeny wejściowe, które system rozpoznał jako już wcześniej przetworzone i może ponownie wykorzystaćTak, ale zwykle taniejTen sam system prompt albo niezmieniona część długiego kontekstu

2. Tokeny specjalne i systemowe

  • Systemowe — definiują rolę modelu, na przykład: „Jesteś ekspertem”.
  • Specjalne — znaczniki techniczne, takie jak <|endoftext|>, <|im_start|>, <|im_end|>, które opisują strukturę danych.
  • Thinking / Reasoning — ukryte tokeny wykorzystywane przez model podczas procesu rozumowania.
  • Planning / Critical — tokeny wspierające planowanie lub kluczowe etapy logiki odpowiedzi.

3. Podział według tokenizacji

MetodaGranularnośćZaletyWady
SłowaCałe słowaProste podejścieSłabsze przy nowych i rzadkich słowach
Subwordy (BPE)Części słówElastyczne, często stosowane w LLMBardziej złożone
ZnakiPojedyncze literyUniwersalneGenerują znacznie więcej tokenów

Reguła ekonomii

Input + Cached + Output ≤ okno kontekstu modelu
na przykład 128K tokenów.

Co oznaczają cached tokens w praktyce?

Cached tokens to fragmenty wejścia, które nie zmieniły się między kolejnymi wywołaniami modelu.

Najczęściej chodzi o:

  • ten sam system prompt
  • tę samą historię rozmowy
  • te same instrukcje lub dokumenty dołączane do wielu zapytań

Dzięki temu system nie zawsze musi przeliczać wszystko od zera i taki fragment może być rozliczany taniej. Nie wszystkie modele to obsługują.

Praktyczna zasada

Im więcej stałego, niezmiennego kontekstu między zapytaniami, tym większa szansa na wykorzystanie cached tokens i obniżenie kosztu.

42a5b⁝ Ekonomia Tokenów

42a5b1⁝ Token