IBM zaprezentowała architekturę pamięci masowej (CAS), która wbudowuje przetwarzanie danych AI bezpośrednio w warstwie pamięci masowej.Takie podejście jest dostosowane do przepływów pracy w zakresie generowania zwiększonego odzysku (RAG), ponieważ integruje wektoryzację dokumentów do samego systemu magazynowania, zmniejszając potrzebę wykorzystania zewnętrznych rurociągów wstępnego przetwarzania.
CAS przenosi kluczową funkcję RAG ‒ wbudowanie dokumentów za pomocą metod opartych na dużych modelach językowych (LLM) ‒ do infrastruktury pamięci masowej.Umożliwia to przedsiębiorstwom przetwarzanie i indeksowanie danych w istniejącym miejscu, dostosowując systemy magazynowania do obciążeń pracy opartych na sztucznej inteligencji i minimalizując przepływ danych między różnymi poziomami infrastruktury.IBM pozycjonuje to jako sposób na uproszczenie wdrożenia przy jednoczesnym zwiększeniu wydajności i zwiększeniu lokalizacji danych dla aplikacji AI.
Baza danych wektorowa w skali
W sercu implementacji IBM CAS znajduje się baza danych wektorowa zoptymalizowana do wyszukiwania semantycznego.umożliwiające systemom sztucznej inteligencji pobieranie odpowiednich fragmentów danych na podstawie wskaźników podobieństwa, takich jak podobieństwo kosynusu lub odległość L2Ta możliwość jest podstawowa dla RAG, gdzie zapytania użytkowników są konwertowane na wektory i dopasowywane do indeksowanych danych przedsiębiorstwa w celu dostarczenia odpowiedzi świadomych kontekstu.
IBM CAS ChartŹródło: IBM
IBM Research, we współpracy z Samsungem i NVIDIA, zaprezentował prototyp systemu zdolnego do skalowania do 100 miliardów wektorów na jednym serwerze.System osiągnął ponad 90 procent dokładności, z średnim opóźnieniem zapytania poniżej 700 milisekund. Ta skala jest przeznaczona dla środowisk przedsiębiorstw, w których zestawy danych mogą obejmować miliardy plików, a po pełnym indeksowaniuWyrosło do setek miliardów wektorów..
Integracja rurociągu RAG
RAG staje się faworyzowanym podejściem do sztucznej inteligencji przedsiębiorstw, ponieważ zwiększa dokładność wyjścia bez konieczności przećwiczenia modelu.Działa poprzez uzupełnianie instrukcji o dane specyficzne dla przedsiębiorstwa pobrane z bazy danych wektorowej.
Rurociąg rozpoczyna się od wchłaniania danych, gdzie dokumenty takie jak pliki PDF i prezentacje są analizowane, dzielone na fragmenty i konwertowane na wbudowane.Te wbudowania są przechowywane w bazie danych wektorowej, która organizuje dane do efektywnego wyszukiwania podobieństwPodczas zapytania wpisy użytkownika są wbudowane i dopasowywane do przechowywanych wektorów, a odpowiednia zawartość przekazywana jest do modelu językowego jako kontekst.Ten mechanizm uziemienia zmniejsza halucynacje i zwiększa zaufanie do wyników generowanych przez sztuczną inteligencję..
IBM CAS integruje cały ten rurociąg bezpośrednio do przechowywania, konsolidacji spożycia, indeksowania i pobierania w bliskiej odległości od danych.
Rozwiązywanie problemów związanych ze skalą i kosztami
Systemy pamięci masowej przedsiębiorstw działają już w skali petabytowej.Tradycyjne bazy danych wektorowe zazwyczaj skalowane są na wielu serwerachIndeksowanie i ponowne indeksowanie dużych zestawów danych również staje się czasochłonnym zadaniem.
Podstawowe podejście IBM koncentruje się na poprawie gęstości wektorów i zmniejszeniu kosztów indeksowania w celu ograniczenia rozprzestrzeniania się infrastruktury.umożliwienie niezależnego skalowania zasobów pamięci masowej i obliczeniowychUmożliwia to IBM Storage Scale i jego wydajny równoległy system plików.
Architektura pamięci masowej i sprzętu
Wdrożenie CAS wykorzystuje IBM Storage Scale System 6000 (ESS 6000), całkowicie flash platformę zaprojektowaną do AI i wysokiej wydajności obciążeń roboczych.System obsługuje do 48 napędów NVMe na obudowę 4U, z indywidualnymi pojemnościami napędu w zakresie od 7 TB do 60 TB. Integruje połączenie PCIe Gen5, 400 Gb InfiniBand lub 200 Gb Ethernet,dostarczając do 340 GB/s przepustowości odczytu i 175 GB/s przepustowości zapisu na węzeł, wraz z maksymalnie 7 milionami IOPS.
Platforma obsługuje również NVIDIA GPUDirect Storage, ułatwiając bezpośrednie ścieżki danych między pamięcią pamięci masowej a procesorami graficznymi, a także BlueField-3 DPU do obciążania zadań sieciowych i przetwarzania danych.
Samsung PM9D3a PCIe Gen5 NVMe SSD zapewniają wysoką przepustowość i wysoką gęstość pamięci masowej.z sekwencyjnymi prędkościami odczytu do 12 GB/s i prędkościami zapisu do 6 GB/s.8 GB/s. Korzystanie z komercyjnie dostępnych dysków SSD dla przedsiębiorstw umożliwia skalowanie architektury przy użyciu standardowych komponentów.
Indeksowanie hierarchiczne i przyspieszenie GPU
Aby rozwiązać problem indeksowania w skali, IBM opracował hierarchiczny model indeksowania składający się z wielu podindeksów, które mogą być zoptymalizowane niezależnie.Ta struktura umożliwia dodatkowe aktualizacje i zlokalizowane ponowne indeksowanie bez zakłócania całego zestawu danych, zwiększając zarówno dostępność, jak i efektywność operacyjną.
Akceleracja GPU drastycznie skraca czas indeksowania w porównaniu z metodami wykorzystującymi tylko procesor.Budowanie indeksów dla 100 miliardów wektorów zajęło 4 dni z 6 NVIDIA H200 GPU, w porównaniu do szacunkowych 120 dni na systemie CPU z dwoma gniazdkami.
Cały zestaw danych, w tym wektory i indeksy, zużył około 153 TiB pamięci masowej.W rezultacie system dostarczył średni opóźnienie zapytania 694 ms z 90% przypomnienia, zwalidowane w stosunku do obliczeń siły brutalnej.
Plan działania
IBM i NVIDIA kontynuują optymalizację platformy, koncentrując się na zmniejszeniu opóźnienia indeksowania i zapytania.skrócenie czasu przyjmowania danych z dziewięciu dni do jednego dnia, i obniżenie opóźnienia zapytania do zakresu 50-100 milisekund przy zachowaniu 90 procent przypomnienia.
Integracja indeksowania wektorowego do standardowych systemów plików ma na celu uproszczenie wdrożenia i zmniejszenie barier w przyjmowaniu sztucznej inteligencji w przedsiębiorstwach.IBM pozycjonuje CAS jako warstwę podstawową infrastruktury AI.
Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang, dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storagesserver.com
Skoncentruj się na biznesie:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami w celu dostarczania niezawodnych produktów i profesjonalnych usług.
Używanie technologii do budowy inteligentnego świata•Twój zaufany dostawca usług produktów ICT!
Sandy Yang, dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storagesserver.com
Skoncentruj się na biznesie:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami w celu dostarczania niezawodnych produktów i profesjonalnych usług.
Używanie technologii do budowy inteligentnego świata•Twój zaufany dostawca usług produktów ICT!



