Dom Aktualności

wiadomości o firmie Lightbits i ScaleFlux demo 100x do 280x przyspieszenia KV Cache

Wszystkie produkty

Serwer pamięci masowej w szafie
(179)

Serwer Huawei Fusion
(31)

Serwer Dell Poweredge
(59)

Serwer H3C
(31)

Przełączniki Datacom
(96)

Urządzenie WLAN
(21)

Inteligentny router bezprzewodowy
(17)

Dysk twardy HDD
(78)

Wewnętrzny dysk twardy SSD
(16)

Karta graficzna GeForce
(27)

Procesor procesora INTEL
(20)

Pamięć RAM serwera
(6)

Odnowiony serwer pamięci masowej
(6)

Moduł nadawczo-odbiorczy SFP
(4)

przełącznik kanału światłowodowego
(125)

Orzecznictwo

Chiny Beijing Qianxing Jietong Technology Co., Ltd. Certyfikaty

Opinie klientów

Pracownicy sprzedaży Beijing Qianxing Jietong Technology Co., Ltd są bardzo profesjonalni i cierpliwi. Mogą szybko dostarczyć wyceny. Jakość i opakowanie produktów są również bardzo dobre. Nasza współpraca przebiega bardzo sprawnie.

—— 《Festfing DV》LLC

Kiedy pilnie szukałem procesora Intel i dysku SSD firmy Toshiba, Sandy z Beijing Qianxing Jietong Technology Co., Ltd udzieliła mi dużej pomocy i szybko dostarczyła mi potrzebne produkty. Naprawdę ją doceniam.

—— Kitty Jen

Sandy z Beijing Qianxing Jietong Technology Co.,Ltd jest bardzo uważnym sprzedawcą, który przy zakupie serwera potrafi przypomnieć mi o błędach konfiguracyjnych. Inżynierowie są również bardzo profesjonalni i mogą szybko zakończyć proces testowania.

—— Strelkin Michaił Władimirowicz

Jesteśmy bardzo zadowoleni z naszej współpracy z firmą Beijing Qianxing Jietong. Jakość produktu jest doskonała, a dostawy zawsze na czas. Ich zespół sprzedaży jest profesjonalny, cierpliwy i bardzo pomocny we wszystkich naszych pytaniach. Naprawdę doceniamy ich wsparcie i oczekujemy długoterminowej współpracy. Gorąco polecamy!

—— Ahmad Navid

Jakość: Wielkie doświadczenie z moim dostawcą. MikroTik RB3011 był już używany, ale był w bardzo dobrym stanie i wszystko działa doskonale.i wszystkie moje obawy zostały szybko rozwiązaneBardzo niezawodny dostawca.

—— Geran Colesio

Im Online Czat teraz

firma Aktualności

Lightbits i ScaleFlux demo 100x do 280x przyspieszenia KV Cache

Lightbits Labs i ScaleFlux osiągnęły100-krotne do 280-krotne przyspieszenie wydajności dla obciążeń pamięci podręcznej KV, wykorzystując oprogramowanie pamięci podręcznej LightInferra do odczytu danych z dysków SSD z pamięcią obliczeniową ScaleFlux.

Obie firmy dostarczyły dane pamięci podręcznej KV do procesorów GPU w środowisku centrum danych FarmGPU i zaprezentują to przełomowe rozwiązanie na nadchodzącej konferencji GTC firmy Nvidia. Pamięć podręczna KV przechowuje wektory tokenów w pamięci o wysokiej przepustowości (HBM) procesora GPU. Po wyczerpaniu pojemności HBM, bloki danych pamięci podręcznej KV muszą zostać przeliczone — proces ten pochłania czas i obniża prędkość trenowania i wnioskowania AI. To spowolnienie staje się szczególnie widoczne w miarę skalowania obciążeń AI, prowadząc do gwałtownego wzrostu liczby tokenów używanych do generowania wektorów.

Oprogramowanie pamięci podręcznej KV logicznie rozszerza warstwę pamięci podręcznej na zewnątrz: najpierw do procesora x86 i jego pamięci DRAM na serwerze GPU, następnie do lokalnych dysków NVMe w tym samym systemie x86, a dalej do zewnętrznych dysków SSD NVMe. To stopniowe rozszerzenie eliminuje potrzebę ponownego obliczania wektorów tokenów. Chociaż dyski SSD NVMe naturalnie mają wyższe opóźnienia dostępu niż HBM lub DRAM, pobieranie wstępnie obliczonych wektorów tokenów jest znacznie szybsze niż ponowne obliczanie dziesiątek tysięcy z nich od zera. Lightbits i ScaleFlux twierdzą, że ich rozwiązanie drastycznie przyspiesza pobieranie danych z pamięci podręcznej KV z dysków SSD.

Arthur Rasmusson, dyrektor ds. architektury AI w Lightbits Labs, stwierdził: „Przekształcamy pamięć wnioskowania z reaktywnej pamięci podręcznej w inteligentną, strumieniową warstwę danych”.

Jak?

„Poprzez wstępne pobieranie tylko istotnych danych i dostarczanie ich do procesorów GPU za pośrednictwem szybkiego RDMA, zanim będą potrzebne, eliminujemy przestoje, które tradycyjnie ograniczają wydajność przy długim kontekście. Rezultatem jest niższy czas do pierwszego tokena (TTFT), bardziej stabilna przepustowość pod obciążeniem w rzeczywistych warunkach i znacznie wyższa efektywna wykorzystanie procesora GPU”.

Keith McKay, starszy dyrektor ds. architektury rozwiązań i partnerstw technicznych w ScaleFlux, skomentował: „To, co prezentujemy na GTC, to wczesny wgląd w to, jak inteligentniejsze rozmieszczenie danych i trwałe zarządzanie stanem uwagi może pomóc systemom wnioskowania pozostać responsywnymi w miarę wzrostu okien kontekstowych. Jest to współpraca, którą chcemy kształtować wraz z rzeczywistymi operatorami”.

Zarówno Lightbits, jak i ScaleFlux dążą do zachęcenia operatorów chmur i infrastruktury do przyjęcia ich oprogramowania i dysków SSD, eliminując kosztowny czas bezczynności procesorów GPU.

Najpierw przeanalizujemy wkład ScaleFlux, a następnie przejdziemy do bardziej zaawansowanej warstwy oprogramowania Lightbits.

ScaleFlux dostarcza dyski SSD NVMe i dyski obliczeniowe (CSD) wyposażone w sprzętową technologię redukcji zapisu (WRT). Napędzane przez sprzętowo przyspieszoną kompresję i zarządzanie metadanymi oparte na SoC, dyski te zapewniają do czterech razy większą pojemność logiczną niż pamięć masowa fizyczna, pozostając jednocześnie w pełni przezroczyste dla systemów hosta. Firma jest członkiem konsorcjum Open Flash Platform (OFP), które pracuje nad przedefiniowaniem infrastruktury danych AI za pomocą gęstych, niskolatencyjnych, energooszczędnych systemów — oferując 10-krotnie większą gęstość niż konwencjonalne systemy przechowywania danych AI oparte na plikach i zaledwie jedną dziesiątą zużycia energii.

Opierając się na tych dyskach pamięci masowej, Lightbits dodaje inteligentne wstępne pobieranie danych pamięci podręcznej KVzanimprocesory GPU ich potrzebują, zapobiegając przestojom spowodowanym niewystarczającą pojemnością KV lub kosztownym ponownym obliczaniem wektorów tokenów. Jego oprogramowanie LightInferra wykorzystuje zoptymalizowane algorytmy pamięci podręcznej KV do pobierania wymaganych danych do pamięci GPU z prędkością RDMA przed faktycznym zapotrzebowaniem.

Ponownie, jak?

Oprogramowanie działa na hoście x86 wbudowanym w serwery GPU i śledzi wzorce dostępu do bloków danych pamięci podręcznej KV. Wykorzystując tę telemetrię, obsługuje silnik Sub-Linear Sparse Attention Prefetch (SLSAP) do identyfikowania bloków KV, które najprawdopodobniej będą potrzebne w następnej kolejności.

Silnik ten łączy haszowanie wrażliwe na lokalizację (LSH) z modelowaniem statystycznego ponownego wykorzystania — analizując historyczną lokalność dostępu w obliczeniach uwagi — w celu oceny i priorytetyzacji bloków KV, a następnie wybiera te o najwyższym prawdopodobieństwie żądania przez procesory GPU.

Ten proces wyboru wykorzystuje inherentną rzadkość dostępu do danych GPU: większość tokenów ma znaczenie tylko dla niewielkiego podzbioru poprzednich tokenów. Izolując te bloki o wysokim prawdopodobieństwie, rozwiązanie drastycznie zmniejsza ilość wektorów tokenów, które muszą być przesyłane strumieniowo z powrotem do procesorów GPU.

Drugi algorytm koncentruje się na wzorcach ponownego wykorzystania: ostatnie tokeny, semantycznie podobne tokeny i wzorce strukturalne powszechne w scenariuszach RAG lub czatach wieloobrotowych są często ponownie wykorzystywane i odpowiednio priorytetyzowane.

LightInferra pobiera te bloki tokenów najpierw z pamięci DRAM serwera x86, lub z zewnętrznych dysków SSD ScaleFlux, jeśli jest to konieczne, a następnie wstępnie ładuje je do pamięci HBM procesora GPU za pośrednictwem połączeń RDMA.

Lightbits przetestował to podejście w porównaniu z ponownym obliczaniem zawartości pamięci podręcznej od zera przy użyciu obciążeń dużych modeli językowych, mierząc poprawę czasu do pierwszego tokena (TTFT). Zgłoszone przyspieszenie od 100x do 280x pochodzi bezpośrednio z tych wyników testów.

Oczywiście, chcielibyśmy zobaczyć wyniki testów porównujących akcelerację pamięci podręcznej KV Lightbits-ScaleFlux

z akceleratorami pamięci podręcznej KV od DDN, Hammerspace, VAST Data, WEKA i innych, ale

nie są one dostępne.

Istnieją wykresy pokazujące, jak LightInferra-ScaleFlux stopniowo poprawiał TTFT regeneracji pamięci podręcznej

wraz ze wzrostem rozmiaru modelu. Np.;

najnowsze wiadomości o firmie Lightbits i ScaleFlux demo 100x do 280x przyspieszenia KV Cache 1

Wszystkie powiązane dane testowe są prezentowane na wykresach w skali logarytmicznej, dostosowanych głównie do profesjonalistów z dziedziny informatyki, ale prosty język sprawia, że rzeczywisty wpływ jest znacznie łatwiejszy do zrozumienia: „Wynikiem jest stabilna wydajność czasu do pierwszego tokena (TTFT) w miarę skalowania kontekstu od 100 tys. tokenów do 1 miliona i więcej”.

Jak mówi Jonmichael Hands z FarmGPU, gdy rozmowa na 400 tys. tokenów jest wznawiana, a system musi odtworzyć całą pamięć podręczną KV od zera, oznacza to dwie pełne minuty pracy procesora GPU bez wygenerowania żadnych tokenów. LightInferra całkowicie zmienia model ekonomiczny — ta sama praca generuje pierwszy token w mniej niż pół sekundy, przekształcając nieopłacalny poziom produktu w rentowny.

Lightbits i ScaleFlux zaprojektowały to wspólne rozwiązanie specjalnie dla farm GPU nowej generacji, gdzie duże klastry GPU uruchamiają setki, a nawet tysiące jednoczesnych obciążeń modeli AI. Prawie każde z tych obciążeń osiągnie limit pojemności pamięci podręcznej KV w pamięci o wysokiej przepustowości (HBM) procesora GPU.

W tradycyjnych konfiguracjach zespoły stają przed dwoma kosztownymi opcjami: powolnym pobieraniem wektorów tokenów z ogólnej pamięci masowej, lub znacznie bardziej czasochłonnym procesem ponownego obliczania tych wektorów od zera — oba te rozwiązania pozostawiają procesory GPU bezczynne przez wiele godzin. Połączenie LightInferra i ScaleFlux całkowicie eliminuje ten druzgocący problem branżowy.

Jonmichael Hands, dyrektor generalny FarmGPU, dodał: „Szybka pamięć masowa sieciowa od Lightbits otwiera bogactwo nowych zastosowań dla wnioskowania z długim kontekstem. Łącząc naszą usługę zarządzaną z wysokowydajną pamięcią masową Lightbits działającą na dyskach NVMe ScaleFlux, możemy skrócić czas do pierwszego tokena i zwiększyć wykorzystanie procesora GPU, drastycznie obniżając całkowity koszt posiadania (TCO) dla obciążeń wnioskowania”.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Dyrektor ds. Strategii Globalnej
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storagesserver.com

Główny obszar działalności:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Z ponad 20-letnim doświadczeniem w dystrybucji IT współpracujemy z wiodącymi światowymi markami, dostarczając niezawodne produkty i profesjonalne usługi.
„Wykorzystując technologię do budowania inteligentnego świata” Twój zaufany dostawca usług w zakresie produktów ICT!

Pub Czas : 2026-03-18 11:34:46 >> lista aktualności

Szczegóły kontaktu

Beijing Qianxing Jietong Technology Co., Ltd.

Osoba kontaktowa: Ms. Sandy Yang

Tel: 13426366826

wiadomości o firmie Lightbits i ScaleFlux demo 100x do 280x przyspieszenia KV Cache

Serwer pamięci masowej w szafie

Serwer Huawei Fusion

Serwer Dell Poweredge

Serwer H3C

Przełączniki Datacom

Urządzenie WLAN

Inteligentny router bezprzewodowy

Dysk twardy HDD

Wewnętrzny dysk twardy SSD

Karta graficzna GeForce

Procesor procesora INTEL

Pamięć RAM serwera

Odnowiony serwer pamięci masowej

Moduł nadawczo-odbiorczy SFP

przełącznik kanału światłowodowego

Jak?

Ponownie, jak?

Serwer pamięci masowej w szafie

12 wnęk Serwer do montażu w szafie serwerowej 1U Lenovo ThinkSystem SR630 Serwer do montażu w szafie serwerowej

Think System SR250 V2 4SFF Rack Storage Server Procesor Intel Xeon E-2378G

Serwer pamięci masowej Intel C621A do montażu w szafie serwerowej Inspur NF5180M6 1U do montażu w szafie serwerowej

Serwer Huawei Fusion

FusionServer 5288 V6 4U serwer do montażu w szafie serwerowej 32 moduły DIMM DDR4 44 3,5-calowe dyski twarde

Sieciowy serwer pamięci masowej o ultra wysokiej gęstości Huawei Fusion Server 1U 1288H V5

Nowa generacja OceanStor 5310 Hybrydowa pamięć flash do serwerów stelażowych Huawei