Ostatnio zastanawiałem się nad różnymi opcjami sprzętowymi do lokalnego hostowania i serwowania modeli językowych. Wydać X tysięcy na Maca Ultra, czy może złożyć mocną stację roboczą z kilkoma kartami graficznymi? Im dłużej na to patrzę z perspektywy najbliższych kilkunastu miesięcy, tym bardziej taki ruch wydaje mi się ryzykowny.

Wszystko rozbija się o to, jak szybko dedykowane układy do inferencji (ASIC) odjeżdżają standardowym GPU.

To nie są kosmetyczne różnice. Patrząc na to, co robią systemy takie jak LPU od Groq czy CS-3 od Cerebras, widzę, że matematyka projektów AI po prostu się zmienia. Groq wyciąga dla modeli klasy Llama-2-70B przepustowości rzędu kilkuset tokenów na sekundę, zużywając przy tym ułamek energii tego, czego potrzebują klastry oparte na Nvidii. Cerebras z kolei na niektórych dużych modelach działa kilkukrotnie szybciej niż najnowsza architektura Blackwell, oferując przy tym odczuwalnie niższy całkowity koszt posiadania. Własne układy do inferencji wdraża też Meta na potrzeby wewnętrznych systemów rekomendacyjnych.

Zysk na wydajności rzędu 10-20x w specyficznych zadaniach to już realia, z którymi trzeba się liczyć.

Jest w tym jednak haczyk. Chodzi o dostępność i elastyczność. Tych dedykowanych układów nie kupię jako karty na złączu PCIe, którą wepnę do serwera w biurze. Korzysta się z nich przez API lub dedykowane środowiska chmurowe konkretnego dostawcy.

Dodatkowo ich stos oprogramowania jest dość wąski, mocno zoptymalizowany pod inferencję modeli opartych na architekturze transformer. Kiedy chcę zrobić coś niestandardowego, poeksperymentować z nowymi architekturami, pracować z wizją komputerową czy klasycznym HPC, środowisko CUDA od Nvidii wciąż daje mi największą wolność. GPU nadal dominują w treningu i w długim ogonie badawczych wdrożeń.

Gdzie w tym wszystkim widzę miejsce dla sprzętu Apple?

Procesory z serii M, dzięki współdzielonej architekturze pamięci, to bardzo wdzięczne narzędzie. Odpalenie na Macu Studio modelu ważącego kilkadziesiąt gigabajtów jest po prostu wygodne. Jednak traktowanie Maca jako maszyny do produkcyjnej inferencji mija się z celem. Pod względem stosunku ceny do wydajności i czystego przerobu tokenów stacje od Apple już teraz mocno ustępują konsumenckim kartom Nvidii, a w starciu z dedykowanymi chmurami ASIC nie mają żadnych szans. To dobre maszyny do prototypowania, ale nie do masowej obsługi ruchu.

Mój wybór architektury sprowadza się więc do klasycznego dylematu: własny sprzęt czy chmura.

Opierając projekt o API - niezależnie czy to OpenAI, czy dostawcy infrastruktury tacy jak Groq - automatycznie jadę na krzywej postępu sprzętowego. Gdy wychodzą nowe układy z lepszą przepustowością pamięci, zapytania realizują się szybciej i taniej, bez żadnych zmian w kodzie po mojej stronie. Własny sprzęt miałby dla mnie sens, gdybym miał stałe, przewidywalne i ciężkie obciążenie inferencyjne, połączone z twardymi wymogami dotyczącymi prywatności danych. Ale wtedy myślałbym raczej o dzierżawie szaf z GPU la nie o postawieniu mocnego komputera pod biurkiem.

Staram jednak opierać się na API. Zbyt wiele zmiennych ewoluuje obecnie w szybkim tempie. Od samego sprzętu, przez metody kwantyzacji, po mniejsze modele. Zamrażanie dużego kapitału we własnym krzemie, który za generację lub dwie będzie przestarzały, to dla prostu zbyt duże ryzyko biznesowe.