ChatJimmy.ai (42ac1⁝ Taalas HC1) osiąga 15-17 tys. tokenów/sekundę na Llama 3.1 8B, wypierając GPU dzięki wbudowaniu wag modelu bezpośrednio w krzem (mask ROM recall fabric). Eliminuje “memory wall” - brak HBM/VRAM, obliczenia hardwired na chipie TSMC 6nm (815 mm², 53 mld tranzystorów, 200W).
- 10x szybciej niż Cerebras (~2k t/s),
- 73x vs Nvidia H200 (~230 t/s),
- 20x tańsze koszty produkcji.
- Latencja ~0,03s,
- 60-85 t/s na wat (0,012-0,017 J/token).
- Produkcja chipa w 2 miesiące
Trade-offy typowe dla ASIC
- Brak elastyczności: model = chip, nie reprogramowalny.
- Mały model 8B (3/6-bit quantized)
Implikacje: Przesunięcie od GPU do ASIC dla inferencji; HC2 planuje większe model
Podobna ścieżka jak w crypto GPU → ASIC
| Cecha | Wartość |
|---|---|
| Proces technologiczny | TSMC 6nm (N6) |
| Powierzchnia die | 815 mm² (reticle limit) |
| Tranzystory | 53 mld |
| Zużycie mocy | 200-250W na kartę PCIe |
| Serwer | 10 kart / 2U / 2.5kW |
| Model | Llama 3.1 8B (3-bit data / 6-bit parametry) |
| Prędkość | 14-17k tok/s/użytkownik (~74x H200) |