42x⁝ Odpalenie molocha na laptopie - Qwen 397B lokalnie na MacBooku Pro

Wpadłem na niezwykle ciekawy projekt udostępniony przez Dana Woodsa (https://x.com/danveloper), który udowadnia, że lokalna sztuczna inteligencja na domowym sprzęcie wchodzi na zupełnie nowy poziom. Dan wziął na warsztat pracę badawczą Apple sprzed trzech lat (“LLM in a Flash”) i przekuł jej teorię w działający kod.

Co dokładnie zrobił?

Dan uruchomił potężny model Qwen 3.5 (Q4bit) o rozmiarze 397 miliardów parametrów (który zajmuje 209 GB na dysku) na MacBooku Pro wyposażonym w zaledwie 48 GB pamięci RAM.

Zamiast ładować cały model do pamięci operacyjnej - co byłoby fizycznie niemożliwe - system strumieniuje niezbędne wagi w czasie rzeczywistym z szybkiego dysku SSD. Efekt? Model działa z prędkością 5.7 tokenów na sekundę, zużywając przy tym zaledwie 5.5 GB RAM-u!

Co ciekawe Dan nie napisał osobiście ani jednej linijki kodu. Wykorzystał Claude (Opus 4.6), nadając mu cel i metryki do optymalizacji. AI w ciągu 24 godzin przeprowadziło 90 eksperymentów, pisząc od zera silnik w Objective-C. Rola Dana sprowadzała się do nadawania kierunku badaniom tzw. autoresearch inspirowany podejściem Andreja Karpathy.

Ten wariant Qwen ma 512 “ekspertów”, ale aktywują tylko kilku na jeden token. Algorytm udało się tak zoptymalizować, aby wykorzystywał tylko 4 ekspertów na warstwę, i to przy 2-bitowej kwantyzacji. Znacząco obniżyło to ilość danych, które trzeba było odczytywać z dysku (z 209 GB do 120 GB).

Projekt w pełni wykorzystuje zunifikowaną pamięć Apple Silicon i ogromną przepustowość dysków SSD (M3 Max czyta sekwencyjnie z prędkością 17.5 GB/s), unikając “wąskich gardeł” między procesorem a kartą graficzną.

Największy skok wydajności (o 38%) nastąpił w momencie… usunięcia autorskiego systemu cache’owania. Okazało się, że skomplikowany cache napisany dla GPU walczył z wbudowanym w macOS sprzętowym kompresorem pamięci. Gdy pozwolono systemowi operacyjnemu naturalnie zarządzać pamięcią, przepustowość drastycznie wzrosła.

Wygląda na to że ogromne, modele AI klasy frontier nie muszą być zarezerwowane wyłącznie dla gigantycznych farm serwerowych. Dzięki architekturze modelu (MoE) i szybkim dyskom SSD, wkrótce uruchamianie modeli o wielkości 400 czy 600 miliardów parametrów na prywatnym laptopie może stać się standardem.

https://x.com/danveloper/status/2034353876753592372

The most counterintuitive finding of the whole project was that deleting the carefully engineered 9.8 GB Metal LRU expert cache and just letting macOS handle caching on its own made everything 38% faster. Claude built a sophisticated application-level cache in GPU-visible shared memory, and it was actively hurting us. … Remove the cache, the compressor goes quiet, decompressions drop to near zero, and all that bandwidth becomes available for useful work. … the theme of the whole project: trust the hardware, get the software out of the way.

Every design decision Apple made in pursuit of ‘thin and light’ turned out to help with what we’re trying to do here. When they moved everything onto a single chip, they wired the CPU, GPU, and SSD controller together with copper. They did it because it made laptops thinner and more power efficient, but it also means that data moving between storage and the GPU doesn’t have bus-hopping costs.

https://github.com/danveloper/flash-moe
https://github.com/danveloper/flash-moe/blob/main/paper/flash_moe.pdf
Oryginalny research Apple - https://arxiv.org/pdf/2312.11514

42 AI

A Personal Journal of Learning and Discovery

Archive

42x⁝ Odpalenie molocha na laptopie - Qwen 397B lokalnie na MacBooku Pro

Co dokładnie zrobił?

Odnośniki zwrotne

Graf