MinIO wypuściło MemKV, dedykowany magazyn pamięci kontekstowej zbudowany w celu usunięcia krytycznego wąskiego gardła w potokach wnioskowania AI na dużą skalę. Będąc drugim flagowym rozwiązaniem MinIO, obok AIStor, MemKV rozszerza infrastrukturę danych firmy o warstwę pamięci. Został zaprojektowany z myślą o dostarczaniu trwałych, współdzielonych danych kontekstowych dla agentycznych obciążeń AI działających w rozproszonych klastrach GPU.
MiniIO AIStor
W miarę jak systemy sztucznej inteligencji przechodzą od jednorazowych odpowiedzi do wieloobrotowego rozumowania i automatycznego wykonywania zadań, utrzymywanie ciągłego kontekstu w cyklach wnioskowania staje się coraz ważniejsze. W istniejących architekturach dane kontekstowe są często odrzucane ze względu na ograniczoną pojemność warstw pamięci sąsiadujących z procesorem graficznym, w tym HBM i DRAM. Zmusza to procesory graficzne do wielokrotnego ponownego obliczania istniejącego kontekstu, zwiększając opóźnienia, zużycie mocy obliczeniowej i pobór mocy. MinIO definiuje to nadmiarowe obciążenie pracą jako „podatek naliczony”, czyli nieefektywność, która pogarsza się wykładniczo w środowiskach chmur hiperskalowych.
MemKV został zaprojektowany tak, aby złagodzić ten problem poprzez współdzieloną, trwałą warstwę pamięci zdolną do przechowywania w skali petabajtów z opóźnieniem dostępu na poziomie mikrosekund. Zachowując dane kontekstowe w procesach wnioskowania, platforma ogranicza zbędne obliczenia i zwiększa ogólną wydajność infrastruktury. Wewnętrzne dane porównawcze z MinIO weryfikują skrócony czas oczekiwania na pierwszy token w przypadku współbieżności na poziomie produkcyjnym. W typowym wdrożeniu wyposażonym w 128 procesorów graficznych i okna kontekstowe o pojemności 128 tys. tokenów wykorzystanie procesora graficznego wzrosło z około 50% do ponad 90%, co przełożyło się na znaczną roczną redukcję kosztów obliczeń.
Kierownictwo MinIO stwierdziło, że narzut związany z ponownym obliczeniem pozostaje niezauważalny w przypadku wdrożeń na małą skalę, a mimo to staje się podstawową wadą strukturalną w skali przedsiębiorstwa. W miarę rozwoju klastrów GPU wielokrotna regeneracja kontekstu wiąże się z wyższym zużyciem energii i wydatkami na infrastrukturę, co sprawia, że wyspecjalizowane systemy pamięci są niezbędne do zrównoważonego działania sztucznej inteligencji.
Rozwiązanie problemu kompromisu w skali pamięci
Starsza infrastruktura AI zmusza programistów do kompromisu między szybkością dostępu a pojemnością pamięci. Warstwy pamięci o wysokiej wydajności, takie jak HBM i DRAM, zapewniają mikrosekundowe opóźnienia, ale wiążą się z wąskimi ograniczeniami pojemności i wysokimi kosztami. Z kolei konwencjonalne systemy pamięci masowej oferują ogromną skalowalność, ale charakteryzują się opóźnieniami na poziomie milisekund, co czyni je niekompatybilnymi z zadaniami wnioskowania w czasie rzeczywistym i wnioskowania w długim kontekście.
Mikron HBM4
MemKV wypełnia tę lukę branżową, wprowadzając pośredni poziom pamięci współdzielonej, który równoważy ultraniskie opóźnienia i dużą skalowalność pamięci masowej. Rozwiązanie, natywnie kompatybilne z NVIDIA BlueField-4 STX i zintegrowane z NVIDIA Dynamo wraz z narzędziami NIXL, umożliwia całym klastrom GPU dostęp do ujednoliconych kontekstowych pul danych przy prędkościach transmisji dostosowanych do wnioskowania. Taka konstrukcja eliminuje częstą migrację danych kontekstowych pomiędzy izolowaną pamięcią a warstwami pamięci masowej, zmniejszając opóźnienia i zwiększając przepustowość systemu.
NVIDIA BlueField-4
Architektura zoptymalizowana pod kątem obciążeń związanych z wnioskowaniem
Dostosowany wyłącznie do potoków danych wnioskowania, MemKV pasuje do warstwy G3.5 struktury hierarchii pamięci GPU MinIO. Zbudowany w oparciu o infrastrukturę pamięci masowej NVMe, osiąga pojemność na poziomie petabajtów, zachowując jednocześnie mikrosekundowe opóźnienia dostępu, skutecznie oddzielając skalowalność pamięci od zasobów obliczeniowych procesora graficznego.
System rezygnuje z uciążliwych tradycyjnych abstrakcji pamięci, przesyłając dane bezpośrednio z dysków NVMe do potoków danych AI za pośrednictwem kompleksowej transmisji RDMA. Eliminuje to obciążenie wydajności powodowane przez protokoły HTTP, konwersję systemów plików i pośrednie serwery pamięci masowej – typowe wąskie gardła w architekturach pamięci obiektowej i opartej na plikach.
Źródło: Google
Kluczowe optymalizacje architektury obejmują natywne wykonanie binarne ARM64 na platformie NVIDIA BlueField-4 STX, osadzone bezpośrednio w warstwie pamięci masowej w celu zmniejszenia zależności od zewnętrznych węzłów pamięci masowej x86. Wszystkie transfery danych pomiędzy pamięcią GPU a pamięcią masową NVMe wykorzystują transmisję RDMA, omijając nadmiarowe konwencjonalne stosy pamięci. Dodatkowo MemKV wykorzystuje powiększone rozmiary bloków w zakresie od 2 MB do 16 MB, które są zoptymalizowane pod kątem przepustowości procesora graficznego, zamiast starszych bloków pamięci o pojemności 4 KB. Obsługuje najnowocześniejsze, szybkie struktury połączeń wzajemnych, takie jak NVIDIA Spectrum-X Ethernet i PCIe Gen6, ułatwiając transmisję danych z szybkością bliską przewodowej pomiędzy klastrami.
Dostępność
MinIO MemKV jest teraz dostępny komercyjnie do wdrożenia w przedsiębiorstwach.
Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang/dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storageserver.com
Koncentracja biznesowa:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami, aby dostarczać niezawodne produkty i profesjonalne usługi.
„Wykorzystanie technologii do zbudowania inteligentnego świata”Twój zaufany dostawca usług produktów ICT!
Sandy Yang/dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storageserver.com
Koncentracja biznesowa:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami, aby dostarczać niezawodne produkty i profesjonalne usługi.
„Wykorzystanie technologii do zbudowania inteligentnego świata”Twój zaufany dostawca usług produktów ICT!



