42ac⁝ ChatJimmy.ai - 15-17k tokenów na sekundę

ChatJimmy.ai (42ac1⁝ Taalas HC1) osiąga 15-17 tys. tokenów/sekundę na Llama 3.1 8B, wypierając GPU dzięki wbudowaniu wag modelu bezpośrednio w krzem (mask ROM recall fabric). Eliminuje “memory wall” - brak HBM/VRAM, obliczenia hardwired na chipie TSMC 6nm (815 mm², 53 mld tranzystorów, 200W).

10x szybciej niż Cerebras (~2k t/s),
73x vs Nvidia H200 (~230 t/s),
20x tańsze koszty produkcji.
Latencja ~0,03s,
60-85 t/s na wat (0,012-0,017 J/token).
Produkcja chipa w 2 miesiące

Trade-offy typowe dla ASIC

Brak elastyczności: model = chip, nie reprogramowalny.
Mały model 8B (3/6-bit quantized)

Implikacje: Przesunięcie od GPU do ASIC dla inferencji; HC2 planuje większe model

Podobna ścieżka jak w crypto GPU → ASIC

Cecha	Wartość
Proces technologiczny	TSMC 6nm (N6)
Powierzchnia die	815 mm² (reticle limit)
Tranzystory	53 mld
Zużycie mocy	200-250W na kartę PCIe
Serwer	10 kart / 2U / 2.5kW
Model	Llama 3.1 8B (3-bit data / 6-bit parametry)
Prędkość	14-17k tok/s/użytkownik (~74x H200)

42 AI

A Personal Journal of Learning and Discovery

Archive

42ac⁝ ChatJimmy.ai - 15-17k tokenów na sekundę

Odnośniki zwrotne

Graf