WEKA ogłosiła integrację swojej platformy NeuralMesh z architekturą referencyjną NVIDIA STX,ustanawiająca swoją sieć pamięci rozszerzonej jako kluczowy element infrastruktury sztucznej inteligencji nowej generacjiPołączone rozwiązanie rozwiązuje jeden z najważniejszych wąskich gardeł w środowiskach wykonywania wniosków na dużą skalę: ograniczenia pamięci, które bezpośrednio wpływają na wydajność, całkowity koszt posiadania,i skalowalny wzrost.
Wykonując pracę za pośrednictwem NeuralMesh, WEKA's Augmented Memory Grid rozszerza pamięć GPU poprzez eksternalizację i trwałe przechowywanie pamięci podręcznej kluczy.Ta architektura zapewnia wysokiej przepustowości pamięci kontekstowej dla obciążeń roboczych agentów AIWedług firmy, konfiguracje łączące systemy NVIDIA Vera Rubin NVL72, BlueField-4 DPU,i Spectrum-X Ethernet może zwiększyć przepustowość tokena pamięci kontekstowej o 4x do 10xOczekuje się również, że platforma dostarczy co najmniej 320 GB/s przepustowości odczytu i 150 GB/s przepustowości zapisu, co ponad dwukrotnie zwiększy wydajność tradycyjnych architektur przechowywania AI.
Infrastruktura pamięci staje się wąskim gardłem
W dzisiejszych przewodnikach inferencyjnych ograniczona pamięć GPU o dużej przepustowości zmusza do częstych wysiedleń pamięci podręcznej KV,prowadzące do powtarzających się ponownych obliczeń i zmniejszonej efektywności operacyjnejWraz ze wzrostem równoległości systemów te nieefektywności mnożą się, zwiększając koszty infrastruktury i zmniejszając przewidywalność wydajności.
Firma promuje wspólną infrastrukturę pamięci podręcznej KV jako rozwiązanie.udostępnione pamięć podręczna eliminuje nadmierne przetwarzanie i stabilizuje przepustowość tokenówNVIDIA STX zapewnia zatwierdzoną architekturę odniesienia dla tego modelu, podczas gdy WEKA dostarcza warstwę rozszerzenia pamięci i pamięci.
NeuralMesh i Architektura Sieci Pamięci Rozszerzonej
NeuralMesh działa jako rozproszona platforma pamięci masowej WEKA, zbudowana w celu płynnego zintegrowania się z całym stackem NVIDIA STX.podczas gdy rozszerzona sieć pamięci służy jako dedykowana warstwa rozszerzenia pamięci, która konsolidowała pamięć podręczną KV poza pamięcią GPU.
Ten projekt umożliwia środowisku wnioskowania utrzymywanie długich sesji kontekstowych bez przeciążania zasobów GPU.Platforma utrzymuje wysokie wykorzystanie i stałą wydajność w miarę skalowania wdrożeń.
WEKA zauważa, że rozszerzona sieć pamięci, po raz pierwszy zaprezentowana na GTC 2025 i obecnie ogólnie dostępna, została zweryfikowana na platformach NVIDIA Grace CPU połączonych z procesorami BlueField DPU.Architektura zapewnia wymierne zyski w zakresie wydajności wnioskowania, w tym znacznie szybsze czas do pierwszego tokena, wyższa przepustowość tokena na GPU i stabilna wydajność w przypadku zwiększonej równowagi.Odładowanie ścieżki danych do BlueField-4 zmniejsza również koszty procesora i łagodzi wąskie gardła I/O.
Zwiększenie wydajności i wydajności
W środowiskach podobnych do produkcji platforma została zaprojektowana w celu zwiększenia szybkości reagowania i wydajności infrastruktury.WEKA twierdzi, że rozszerzona sieć pamięci może skrócić czas do pierwszego tokenu o 4x do 20x, przy jednoczesnym zwiększeniu wydajności tokena na GPU do 6,5x. Poprawy te wynikają z wyższych wskaźników trafienia pamięci podręcznej KV i mniejszej liczby cykli ponownego obliczania,umożliwiające systemom utrzymanie wydajności w miarę rozszerzania rozmiarów kontekstu i liczby użytkowników.
Firmus, dostawca infrastruktury sztucznej inteligencji, jest uważany za pierwszego użytkownika wykorzystującego NeuralMesh z infrastrukturą opartą na NVIDIA.,Zyski wynikające z bardziej wydajnego wykorzystania istniejących procesorów graficznych, a nie z dodatkowych wdrożeń sprzętu.
Wpływ na projektowanie infrastruktury sztucznej inteligencji
Integracja ta podkreśla zmianę w projektowaniu systemów sztucznej inteligencji, w której strategie pamięci i pamięci masowej coraz częściej określają ogólną wydajność i efektywność kosztową.W miarę rozszerzania obciążeń pracą agentycznej sztucznej inteligencji i poszerzania okien kontekstu, podejścia oparte wyłącznie na pamięci DRAM stają się niezrównoważone ze względu na rosnące koszty ponownego obliczania i niedostatecznie wykorzystywane procesory graficzne.
WEKA pozycjonuje trwałą, udostępnioną pamięć podręczną KV jako podstawową zdolność dla fabryk sztucznej inteligencji.mniejsze zużycie energii na zadanie wnioskoweNatomiast środowiska zależne wyłącznie od lokalnej pamięci GPU prawdopodobnie staną w obliczu rosnących kosztów operacyjnych i zmniejszających się zysków wraz ze wzrostem obciążeń roboczych.
Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang, dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storagesserver.com
Skoncentruj się na biznesie:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami w celu dostarczania niezawodnych produktów i profesjonalnych usług.
Używanie technologii do budowy inteligentnego świata•Twój zaufany dostawca usług produktów ICT!
Sandy Yang, dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storagesserver.com
Skoncentruj się na biznesie:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami w celu dostarczania niezawodnych produktów i profesjonalnych usług.
Używanie technologii do budowy inteligentnego świata•Twój zaufany dostawca usług produktów ICT!



