Lightbits Labs i ScaleFlux osiągnęły100-krotne do 280-krotne przyspieszenie wydajności dla obciążeń pamięci podręcznej KV, wykorzystując oprogramowanie pamięci podręcznej LightInferra do odczytu danych z dysków SSD z pamięcią obliczeniową ScaleFlux.
Obie firmy dostarczyły dane pamięci podręcznej KV do procesorów GPU w środowisku centrum danych FarmGPU i zaprezentują to przełomowe rozwiązanie na nadchodzącej konferencji GTC firmy Nvidia. Pamięć podręczna KV przechowuje wektory tokenów w pamięci o wysokiej przepustowości (HBM) procesora GPU. Po wyczerpaniu pojemności HBM, bloki danych pamięci podręcznej KV muszą zostać przeliczone — proces ten pochłania czas i obniża prędkość trenowania i wnioskowania AI. To spowolnienie staje się szczególnie widoczne w miarę skalowania obciążeń AI, prowadząc do gwałtownego wzrostu liczby tokenów używanych do generowania wektorów.
Oprogramowanie pamięci podręcznej KV logicznie rozszerza warstwę pamięci podręcznej na zewnątrz: najpierw do procesora x86 i jego pamięci DRAM na serwerze GPU, następnie do lokalnych dysków NVMe w tym samym systemie x86, a dalej do zewnętrznych dysków SSD NVMe. To stopniowe rozszerzenie eliminuje potrzebę ponownego obliczania wektorów tokenów. Chociaż dyski SSD NVMe naturalnie mają wyższe opóźnienia dostępu niż HBM lub DRAM, pobieranie wstępnie obliczonych wektorów tokenów jest znacznie szybsze niż ponowne obliczanie dziesiątek tysięcy z nich od zera. Lightbits i ScaleFlux twierdzą, że ich rozwiązanie drastycznie przyspiesza pobieranie danych z pamięci podręcznej KV z dysków SSD.
Arthur Rasmusson, dyrektor ds. architektury AI w Lightbits Labs, stwierdził: „Przekształcamy pamięć wnioskowania z reaktywnej pamięci podręcznej w inteligentną, strumieniową warstwę danych”.
Jak?
„Poprzez wstępne pobieranie tylko istotnych danych i dostarczanie ich do procesorów GPU za pośrednictwem szybkiego RDMA, zanim będą potrzebne, eliminujemy przestoje, które tradycyjnie ograniczają wydajność przy długim kontekście. Rezultatem jest niższy czas do pierwszego tokena (TTFT), bardziej stabilna przepustowość pod obciążeniem w rzeczywistych warunkach i znacznie wyższa efektywna wykorzystanie procesora GPU”.
Keith McKay, starszy dyrektor ds. architektury rozwiązań i partnerstw technicznych w ScaleFlux, skomentował: „To, co prezentujemy na GTC, to wczesny wgląd w to, jak inteligentniejsze rozmieszczenie danych i trwałe zarządzanie stanem uwagi może pomóc systemom wnioskowania pozostać responsywnymi w miarę wzrostu okien kontekstowych. Jest to współpraca, którą chcemy kształtować wraz z rzeczywistymi operatorami”.
Zarówno Lightbits, jak i ScaleFlux dążą do zachęcenia operatorów chmur i infrastruktury do przyjęcia ich oprogramowania i dysków SSD, eliminując kosztowny czas bezczynności procesorów GPU.
Najpierw przeanalizujemy wkład ScaleFlux, a następnie przejdziemy do bardziej zaawansowanej warstwy oprogramowania Lightbits.
ScaleFlux dostarcza dyski SSD NVMe i dyski obliczeniowe (CSD) wyposażone w sprzętową technologię redukcji zapisu (WRT). Napędzane przez sprzętowo przyspieszoną kompresję i zarządzanie metadanymi oparte na SoC, dyski te zapewniają do czterech razy większą pojemność logiczną niż pamięć masowa fizyczna, pozostając jednocześnie w pełni przezroczyste dla systemów hosta. Firma jest członkiem konsorcjum Open Flash Platform (OFP), które pracuje nad przedefiniowaniem infrastruktury danych AI za pomocą gęstych, niskolatencyjnych, energooszczędnych systemów — oferując 10-krotnie większą gęstość niż konwencjonalne systemy przechowywania danych AI oparte na plikach i zaledwie jedną dziesiątą zużycia energii.
Opierając się na tych dyskach pamięci masowej, Lightbits dodaje inteligentne wstępne pobieranie danych pamięci podręcznej KVzanimprocesory GPU ich potrzebują, zapobiegając przestojom spowodowanym niewystarczającą pojemnością KV lub kosztownym ponownym obliczaniem wektorów tokenów. Jego oprogramowanie LightInferra wykorzystuje zoptymalizowane algorytmy pamięci podręcznej KV do pobierania wymaganych danych do pamięci GPU z prędkością RDMA przed faktycznym zapotrzebowaniem.
Ponownie, jak?
Oprogramowanie działa na hoście x86 wbudowanym w serwery GPU i śledzi wzorce dostępu do bloków danych pamięci podręcznej KV. Wykorzystując tę telemetrię, obsługuje silnik Sub-Linear Sparse Attention Prefetch (SLSAP) do identyfikowania bloków KV, które najprawdopodobniej będą potrzebne w następnej kolejności.
Silnik ten łączy haszowanie wrażliwe na lokalizację (LSH) z modelowaniem statystycznego ponownego wykorzystania — analizując historyczną lokalność dostępu w obliczeniach uwagi — w celu oceny i priorytetyzacji bloków KV, a następnie wybiera te o najwyższym prawdopodobieństwie żądania przez procesory GPU.
Ten proces wyboru wykorzystuje inherentną rzadkość dostępu do danych GPU: większość tokenów ma znaczenie tylko dla niewielkiego podzbioru poprzednich tokenów. Izolując te bloki o wysokim prawdopodobieństwie, rozwiązanie drastycznie zmniejsza ilość wektorów tokenów, które muszą być przesyłane strumieniowo z powrotem do procesorów GPU.
Drugi algorytm koncentruje się na wzorcach ponownego wykorzystania: ostatnie tokeny, semantycznie podobne tokeny i wzorce strukturalne powszechne w scenariuszach RAG lub czatach wieloobrotowych są często ponownie wykorzystywane i odpowiednio priorytetyzowane.
LightInferra pobiera te bloki tokenów najpierw z pamięci DRAM serwera x86, lub z zewnętrznych dysków SSD ScaleFlux, jeśli jest to konieczne, a następnie wstępnie ładuje je do pamięci HBM procesora GPU za pośrednictwem połączeń RDMA.
Lightbits przetestował to podejście w porównaniu z ponownym obliczaniem zawartości pamięci podręcznej od zera przy użyciu obciążeń dużych modeli językowych, mierząc poprawę czasu do pierwszego tokena (TTFT). Zgłoszone przyspieszenie od 100x do 280x pochodzi bezpośrednio z tych wyników testów.

Oczywiście, chcielibyśmy zobaczyć wyniki testów porównujących akcelerację pamięci podręcznej KV Lightbits-ScaleFlux
z akceleratorami pamięci podręcznej KV od DDN, Hammerspace, VAST Data, WEKA i innych, ale
nie są one dostępne.
Istnieją wykresy pokazujące, jak LightInferra-ScaleFlux stopniowo poprawiał TTFT regeneracji pamięci podręcznej
wraz ze wzrostem rozmiaru modelu. Np.;

Wszystkie powiązane dane testowe są prezentowane na wykresach w skali logarytmicznej, dostosowanych głównie do profesjonalistów z dziedziny informatyki, ale prosty język sprawia, że rzeczywisty wpływ jest znacznie łatwiejszy do zrozumienia: „Wynikiem jest stabilna wydajność czasu do pierwszego tokena (TTFT) w miarę skalowania kontekstu od 100 tys. tokenów do 1 miliona i więcej”.
Jak mówi Jonmichael Hands z FarmGPU, gdy rozmowa na 400 tys. tokenów jest wznawiana, a system musi odtworzyć całą pamięć podręczną KV od zera, oznacza to dwie pełne minuty pracy procesora GPU bez wygenerowania żadnych tokenów. LightInferra całkowicie zmienia model ekonomiczny — ta sama praca generuje pierwszy token w mniej niż pół sekundy, przekształcając nieopłacalny poziom produktu w rentowny.
Lightbits i ScaleFlux zaprojektowały to wspólne rozwiązanie specjalnie dla farm GPU nowej generacji, gdzie duże klastry GPU uruchamiają setki, a nawet tysiące jednoczesnych obciążeń modeli AI. Prawie każde z tych obciążeń osiągnie limit pojemności pamięci podręcznej KV w pamięci o wysokiej przepustowości (HBM) procesora GPU.
W tradycyjnych konfiguracjach zespoły stają przed dwoma kosztownymi opcjami: powolnym pobieraniem wektorów tokenów z ogólnej pamięci masowej, lub znacznie bardziej czasochłonnym procesem ponownego obliczania tych wektorów od zera — oba te rozwiązania pozostawiają procesory GPU bezczynne przez wiele godzin. Połączenie LightInferra i ScaleFlux całkowicie eliminuje ten druzgocący problem branżowy.
Jonmichael Hands, dyrektor generalny FarmGPU, dodał: „Szybka pamięć masowa sieciowa od Lightbits otwiera bogactwo nowych zastosowań dla wnioskowania z długim kontekstem. Łącząc naszą usługę zarządzaną z wysokowydajną pamięcią masową Lightbits działającą na dyskach NVMe ScaleFlux, możemy skrócić czas do pierwszego tokena i zwiększyć wykorzystanie procesora GPU, drastycznie obniżając całkowity koszt posiadania (TCO) dla obciążeń wnioskowania”.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Dyrektor ds. Strategii Globalnej
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Strona internetowa:
www.qianxingdata.com/www.storagesserver.com
Główny obszar działalności:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Z ponad 20-letnim doświadczeniem w dystrybucji IT współpracujemy z wiodącymi światowymi markami, dostarczając niezawodne produkty i profesjonalne usługi.
„Wykorzystując technologię do budowania inteligentnego świata” Twój zaufany dostawca usług w zakresie produktów ICT!