ChatJimmy.ai (42ac1⁝ Taalas HC1) osiąga 15-17 tys. tokenów/sekundę na Llama 3.1 8B, wypierając GPU dzięki wbudowaniu wag modelu bezpośrednio w krzem (mask ROM recall fabric). Eliminuje “memory wall” - brak HBM/VRAM, obliczenia hardwired na chipie TSMC 6nm (815 mm², 53 mld tranzystorów, 200W).

  • 10x szybciej niż Cerebras (~2k t/s),
  • 73x vs Nvidia H200 (~230 t/s),
  • 20x tańsze koszty produkcji.
  • Latencja ~0,03s,
  • 60-85 t/s na wat (0,012-0,017 J/token).
  • Produkcja chipa w 2 miesiące

Trade-offy typowe dla ASIC

  • Brak elastyczności: model = chip, nie reprogramowalny.
  • Mały model 8B (3/6-bit quantized)

Implikacje: Przesunięcie od GPU do ASIC dla inferencji; HC2 planuje większe model

Podobna ścieżka jak w crypto GPU → ASIC

CechaWartość
Proces technologicznyTSMC 6nm (N6)
Powierzchnia die815 mm² (reticle limit)
Tranzystory53 mld
Zużycie mocy200-250W na kartę PCIe
Serwer10 kart / 2U / 2.5kW
ModelLlama 3.1 8B (3-bit data / 6-bit parametry)
Prędkość14-17k tok/s/użytkownik (~74x H200)

42 AI