Używamy Dell PowerEdge R760 z Ubuntu 22.04.02 LTS jako nasza platforma testowa dla wszystkich obciążeń roboczych w tym przeglądzie.2Nasza konfiguracja systemu jest przedstawiona poniżej:
Wydajność sieci CDN
W celu symulacji realistycznego obciążenia CDN z mieszaną zawartością dyski SSD zostały poddane wielofazowej sekwencji odniesienia zaprojektowanej w celu replikacji wzorców I/O serwerów krawędzi o dużej zawartości.Proces testowania obejmuje zakres wielkości bloków ‒ zarówno dużych jak i małych ‒ rozmieszczonych w oparciu o przypadkowe i sekwencyjne operacje., z różnymi poziomami równoległości.
Przed głównymi testami wydajności, każdy dysk SSD wypełniał pełne urządzenie za pomocą 100% sekwencyjnego przepustki zapisu przy użyciu bloków 1MB.umożliwiające wykonywanie czterech jednoczesnych zadańPo sekwencyjnym wypełnieniu uruchomiono sekundarny trzygodzinny losowy etap nasycenia zapisu.wykorzystując ważone rozkład wielkości bloku (wielkość bloku/procent) ze szczególnym uwzględnieniem transferów 128K (98.51%), uzupełnione przez niewielkie wkłady z bloków poniżej 128K do 8K. Ten krok emuluje złamane, nierównomierne wzory zapisu powszechnie obserwowane w rozproszonych środowiskach pamięci podręcznej.
Główny pakiet testowy koncentrował się na skalowanych przypadkowych operacjach odczytu i zapisu w celu pomiaru wydajności napędu w warunkach zmiennej głębokości kolejki i równoczesności pracy.Każde badanie trwało pięć minut (300 sekund), po czym następuje trzyminutowy okres bezczynności, aby umożliwić wewnętrznym mechanizmom odzyskiwania stabilizację wskaźników wydajności.
Testy przeprowadzono przy użyciu stałego rozkładu wielkości bloku faworyzującego 128K (98,51%), a pozostałe 1,49% operacji składało się z mniejszych rozmiarów transferu w zakresie od 64K do 8K.Każda konfiguracja różniła się w 1, 2 i 4 równoległe prace, z głębokością kolejki 1, 2, 4, 8, 16 i 32, aby profilować skalowalność przepustowości i opóźnienie w typowych warunkach pisania krawędzi.
Użyto również silnie mieszanego profilu wielkości bloku, naśladującego wyszukiwanie zawartości CDN, zaczynając od dominującego komponentu 128K (83,21%),po którym następuje długi ogon o ponad 30 mniejszych rozmiarach bloków (4K do 124K)Rozkład ten odzwierciedla różnorodne wzory żądań napotykanych podczas pobierania segmentów wideo, dostępu miniaturowego i wyszukiwania metadanych.Te testy zostały również przeprowadzone w całej matrycy liczby miejsc pracy i głębokości kolejki.
To połączenie wstępnego uwarunkowania, nasycenia i testów dostępu randomizowanego o mieszanej wielkości ma na celu ujawnienie, jak SSD działa w trwałych środowiskach podobnych do CDN,podkreślanie szybkości reagowania i wydajności w warunkach wymagających dużej przepustowości, bardzo równoległe scenariusze.
Obciążenie CDN odczytywane 1
W naszych testach odczytu obciążenia CDN (1 zadanie), Kingston DC3000ME dostarczył solidną wydajność, która skutecznie skalowana z rosnącą głębokością kolejki.wyprzedzający SanDisk SN861 o około 26%Jednak wraz ze wzrostem głębokości kolejki, DC3000ME zmniejszył różnicę i wyprzedził kilka napędów Gen5. W QD4, Kingston DC3000ME osiągnął 3390 MB/s ≈ około 42% szybciej niż Micron 9550,40% przed Pascari X200P, i około 25% szybszy niż Solidigm PS1010, choć nieznacznie za SanDisk SN861 o około 2,6%.przewyższając Solidigm PS1010 o ~13% i Micron 9550 o ~20%Przy maksymalnej głębokości testu QD32 Kingston osiągnął 14,131MB/s, skutecznie dopasowując się do Micron 9550 i przewyższając Solidigm PS1010 o ~15% i SanDisk SN861 o prawie 10%.
Kingston DC3000ME - Obciążenie CDN Czytaj 1 zadanie
Przeczytanie obciążenia CDN 2
W przypadku obciążenia odczytu CDN z dwoma zadaniami, Kingston DC3000ME utrzymywał wysoką wydajność we wszystkich głębokościach kolejek.Pascari X200P (1,519MB/s) o 22%, a Solidigm PS1010 (2,011MB/s) o około 8%, chociaż wyprzedza SanDisk SN861 (2,487MB/s) o 34%.
W QD4 Kingston osiągnął 6,335 MB/s, znacznie wyprzedzając Micron (5,337 MB/s), Pascari (5,249 MB/s) i Solidigm (5,609 MB/s).który zajął pierwsze miejsce na 6996 MB/s.
Do QD16 Kingston osiągnął 14,131 MB/s, prowadząc w tym momencie.052MB/s) o ~ 6% i 5%, odpowiednio, utrzymując solidną przewagę nad SanDisk (13,619 MB/s) i Solidigm (13,721 MB/s).
Przeczytanie obciążenia CDN 4
Z czterema aktywnymi zadaniami, Kingston DC3000ME nadal utrzymuje swoją pozycję w zakresie wydajności odczytu CDN.Ale nadal 22% za SanDisk SN861W QD4 Kingston dostarczył 10,854 MB/s ≈ 15% poprawy w porównaniu z Micronem (9,427 MB/s), 20% przed Pascari (9,070 MB/s) i nieco powyżej Solidigm (9,627 MB/s).,Wciąż śledził SanDisk 11,161MB/s.
Do QD8 Kingston odnotował 13,926MB/s ≈ prawie identyczne z Micronem i w przybliżeniu w linii z SanDisk (13,619MB/s) i Solidigm (12,800MB/s).233MB/s dla Kingston, nieznacznie za Micronem i Pascariem (obydwa około 15,052 ¢ 15,257 MB/s), ale nadal wygodnie przed SanDiskem (13,619 MB/s) i Solidigm (13,721 MB/s).
Obciążenie CDN Write 1
W naszym obciążeniu pisania CDN (1 Praca), Kingston DC3000ME wykazał spójne skalowanie w całej głębokości kolejki.,W QD4 Kingston odnotował 4,318MB/s ≈55% szybciej niż Solidigm (2,789MB/s), 26% szybciej niż Pascari (3,437MB/s), ale o 10% wolniejszy niż Micron (4,807 MB/s) i o 19% niższy od SanDisk (5,353 MB/s).
W QD16 dostarczył 5,880 MB/s ̇ wyprzedzając Pascari (4,921 MB/s) o 20% i ponad dwukrotnie podwajając Solidigm (2,664 MB/s), ale nadal 11% za Micronem (6,686 MB/s) i 15% za SanDiskem (6,939 MB/s).Kingston zaliczył 5., 987MB/s ponownie blisko Pascari (5,913MB/s), ale wyprzedza Micron (7,422MB/s) i SanDisk (7,521MB/s) odpowiednio o ~20% i 25%.
Kingston DC3000ME - Wypis wydajności obciążenia CDN 1 zadanie
Obciążenie CDN Write 2
W 2-job CDN napisanie obciążenia roboczego, Kingston DC3000ME wykazał stałą wydajność, chociaż ogólnie wyprzedził najszybszy Gen5 SSD klasy przedsiębiorstwa.651MB/s ̇ tuż pod Mikronem 9550 (2,813MB/s) i Pascari X200P (2,762MB/s), i około 33% za SanDisk SN861 (3,972MB/s).
Wraz z wzrostem głębokości kolejki, DC3000ME utrzymywał tempo. W QD4 osiągnął 4,807 MB/s ≈ około 23% wolniej niż Micron 9550 (5,902 MB/s) i 13% wstecz od SanDisk SN861 (5,508 MB/s).Ale przed Solidigm PS1010 na 3154 MB/s.
W QD16 firma Kingston dostarczyła 5,772 MB/s, wciąż wyprzedzając Micron (7,896 MB/s) i SanDisk (6,709 MB/s), ale nadal przewyższając modele niższej klasy, takie jak Solidigm PS1010 (3,820MB/s) i Pascari X200P (5W QD32, DC3000ME osiągnął szczyt 5,870MB/s, około 32% za Micronem 9550 (8,670MB/s) i 22% poniżej SanDisk SN861 (7,537MB/s), ale nadal przed Solidigm PS1010 (2,05 MB/s).817MB/s) i Pascari (4,585MB/s).
Obciążenie CDN Write 4
W 4-job CDN napis pracy, Kingston DC3000ME skalowane stale w całej głębokości kolejki, chociaż ogólnie wyprzedził dwóch górnych napędów Gen5.202MB/s2 umieszczając go za Pascari X200P (2W drugim kwartale Kingston osiągnął poziom 3,165 MB/s, pozostając w tyle za SanDiskem (4,4 MB/s).863MB/s) i Micron (4,457MB/s), ale utrzymując przewagę nad Solidigm (2,872MB/s).
W średniej głębokości kolejki, Kingston DC3000ME osiągnął 3,647MB/s w QD4 i 4,410MB/s w QD8.478MB/s) i napędu SanDisk (5W QD16 Kingston osiągnął 4,865 MB/s niewielki zysk w porównaniu z QD8, ale wciąż wyprzedził napęd SanDisk (6,011 MB/s) i napęd Micron (7,474 MB/s).DC3000ME osiągnął swój szczyt w 5, 307MB/s ), znacznie wyprzedzając Solidigm (3,894MB/s), ale znacznie za Micronem (7,941MB/s) i SanDiskem (7,212MB/s).napęd Kingston utrzymywał stałą skalowalność i wydajność.
Wskaźnik kontrolny DLIO
Aby ocenić realną wydajność SSD w środowiskach szkoleniowych sztucznej inteligencji, użyliśmy narzędzia referencyjnego Data and Learning Input/Output (DLIO).DLIO jest specjalnie zaprojektowany do testowania wzorców I/O w obciążeniach roboczych głębokiego uczenia się, dostarczając wglądu w to, w jaki sposób systemy magazynowania radzają sobie z wyzwaniami, takimi jak kontrolne punkty, przechowywanie danych i szkolenie modeli.Poniższy wykres pokazuje, jak oba napędy obsługiwać proces w 36 punktów kontrolnychPrzy szkoleniu modeli uczenia maszynowego punkty kontrolne mają kluczowe znaczenie dla okresowego zapisywania stanu modelu, zapobiegając utratom postępu podczas przerw lub awarii zasilania.To zapotrzebowanie na magazyny wymaga solidnej wydajnościWykorzystaliśmy referencję DLIO wersja 2.0 z 13 sierpnia 2024 r.
W celu zapewnienia, że nasze badanie porównawcze odzwierciedlało rzeczywiste scenariusze, opracowaliśmy nasze testy w oparciu o architekturę modelu LLAMA 3.1 405B. Wdrożyliśmy kontrolę przy użyciu torch.save() do przechwytywania parametrów modelu,stan optymalizatoraNasza konfiguracja symulowała system ośmiu procesorów graficznych, wykorzystując strategię hybrydowego równoległości z 4-stronnym równoległością tensorową i 2-stronnym równoległym przetwarzaniem rurociągu rozmieszczonym w ośmiu procesorach graficznych.Ta konfiguracja zaowocowała rozmiarami punktów kontrolnych wynoszącymi 1636 GB, reprezentującymi nowoczesne wymagania w zakresie szkolenia dużych modeli językowych.
W wynikach średniej przepustki DLIO, Kingston DC3000ME 7,68TB pozostał nieznacznie za najlepszymi konkurentami, lądując w środku pakietu pięcioprzewozowego.04 sekundy po pierwszym przejściuPodczas gdy konsekwentnie szybszy niż Pascari X200P 7.68TB (który zaprezentował najwyższe czasy we wszystkich trzech przejściach),osiągając 674.48 sekundy w przejściu 3), Kingston DC3000ME pozostał w tyle za Micronem 9550 7.68TB i Solidigm PS1010 7.68TB, z których oba pozostały poniżej 565 sekund w ostatnim przejściu.
Jak pokazano na poniższym wykresie, Kingston DC3000ME rozpoczął silny start, z wczesnymi czasami kontrolnymi zbliżonymi do czasów konkurentów najwyższej klasy.27 sekund tuż za Micronem 9550 na 464Od punktu kontroli 2 do 4, utrzymywał stały zakres 461,92 do 465.44 sekundy ponownie w pobliżu Micronu 9550 i Solidigm PS1010, które obie unosiły się w przedziale 453 ̇ 465 sekund.
Do połowy testu (punkty kontrolne 5 do 8) Kingston DC3000ME doświadczył skoku w czasach kontroli, osiągając szczyt na 613,01 sekundy podczas punktu kontroli 7.42s) i SanDisk SN861 7.68TB (559.56s), chociaż nadal znacznie lepszy niż Pascari X200P (który osiągnął 694.38 sekund w tym samym czasie).Kingston DC3000ME nieznacznie ustabilizował się, kończąc na 571,36 sekundy dla punktu kontrolnego 12, mniej więcej 28 sekund wolniej niż Micron 9550 ale nadal wyprzedzając Pascari X200P (który zamknął się na 689,68 sekundy)..68TB wykazało stałą wydajność i pozostało w zakresie konkurencyjnym przez cały obciążenie kontrolne, co umieszcza go w środku pakietu.
Wskaźnik wydajności FIO
Aby zmierzyć wydajność każdego dysku SSD w oparciu o standardowe metryki przemysłowe, użyliśmy FIO.w tym krok wstępnego uwarunkowania dwóch pełnych napędów wypełniających z sekwencyjnym obciążeniem zapisywaniaW miarę jak zmieniał się każdy typ obciążenia, uruchamiano kolejne wypełnianie nowego rozmiaru transferu.
W niniejszej sekcji skupiamy się na następujących wskaźnikach referencyjnych FIO:
-128K sekwencyjny
- 64K Random
- 16K Random
- 4K Random
Z wysokiej pojemności QLC SSD zaprojektowane dla dużych wielkości transferów, nasze testy prędkości zapisu są ograniczone do 16K losowo.Użyliśmy stanu wstępnie wypełnionego z obciążenia 16K, aby zmierzyć tylko 4K wykonanie czytania losowego.
128K Sekwencyjne warunki wstępne (IODepth 256 / NumJobs 1)
W tym ciężkim teście wstępnego uwarunkowania głębokości kolejki, Kingston DC3000ME utrzymywał stałą szerokość pasma zapisu 8,944.9MB/s przez cały 1000-sekundowy bieg (kończąc tuż po 800 sekundach).Kingston DC3000ME wykazał stałą przepustowość z minimalną zmiennością.
128K sekwencyjna opóźnienie warunków wstępnych (IODepth 256 / NumJobs 1)
W testie opóźnienia 128K Sequential Write Precondition, Kingston DC3000ME wykazał średnią opóźnienia 3,577 ms (pozostając stabilny w czasie z minimalnymi wahaniami),Położenie go na drugim miejscu za napędem Micron.
128K sekwencyjne zapisywanie (IODepth 16 / NumJobs 1)
W 128K Sequential Write Test, Kingston DC3000ME osiągnął 8,477.4MB/s ∙ umieszczając go tuż za Micron 9550 (który prowadził grupę na 10,354Kingston DC3000ME wyprzedził Pascari X200P i utrzymał solidną przewagę zarówno nad Solidigm PS1010 jak i SanDisk SN861 (każdy waha się wokół 7,100 MB/s).Wydajność Kingstona odzwierciedla silną równowagę między prędkością a konsekwencją..
128K sekwencyjny opóźnienie zapisu (IODepth 16 / NumJobs 1)
W testu 128K Sequential Write Latency, Kingston DC3000ME dostarczył solidny wynik o średnim opóźnieniu 235,6 μs.7 μs) i Solidigm PS1010 (280Chociaż nie był tak szybki jak Micron 9550 (który prowadził z prędkością 192,9 μs), Kingston DC3000ME pozostał konkurencyjny.
Czytanie sekwencyjne 128K (IODepth 64 / NumJobs 1)
W testowaniu sekwencyjnego odczytu 128K przy głębokości kolejki 64 z jedną pracą, Kingston DC3000ME osiągnął 13,513.8MB/s. Chociaż zajął czwarte miejsce wśród testowanych napędów, nadal dostarczał silną przepustowość (z minimalnymi różnicami w świecie rzeczywistym).242.1MB/s) o ~ 5,1%, Solidigm PS1010 (14,163.3MB/s) o 4,6%, a Micron 9550 (14,050.1MB/s) o ~3,8%, ale wyprzedził SanDisk SN861 (12,631Ogólnie rzecz biorąc, wyniki napędu Kingston DC3000ME były dobre, z minimalnym spadkiem w porównaniu z testowanymi napędami.
128K sekwencyjna opóźnienie odczytu (IODepth 64 / NumJobs 1)
W odniesieniu do opóźnienia, Kingston DC3000ME odnotował średnią 591,6 μs, co umieszcza go w środku grupy.4% niższy niż Solidigm PS1010 (564Pascari X200P prowadził marginalnie z 561,4 μs, podczas gdy SanDisk SN861 wykazał najwolniejszą odpowiedź z 633,0 μs.Kingston DC3000ME utrzymywał stosunkowo niskie opóźnienie w warunkach odczytu głębokości kolejki.
64K Random Write
W testu 64K Random Write, Kingston DC3000ME konsekwentnie dostarczał wysoką wydajność w różnych głębokościach kolejki i kombinacjach wątków, osiągając szczyt na poziomie 6,649MB/s w konfiguracji 32 (głębokość IO)/8 (liczba zadań).
W całym wykresie, Kingston DC3000ME utrzymywał stabilny trend przepustowości od 4000 do 5000 MB/s, z szczególnie silnymi pokazami w średnich do wysokich konfiguracjach równoległych (np. 32/4 w 5,380MB/s i 16/8 przy 5W porównaniu z innymi napędami, Kingston DC3000ME generalnie prowadził lub pozostawał blisko góry w większości punktów testowych,oferuje zarówno wysoką maksymalną przepustowość, jak i stałą wydajność.
64K Random Write Latency
W testu 64K Random Write Latency, Kingston DC3000ME konsekwentnie dostarczał niskie czasy odpowiedzi w większości głębokości kolejek i kombinacji zadań,wykazuje wysoką wydajność pisania nawet pod dużym obciążeniem.
Na przykład:
- Na 4/1, wykazało 49 μs
- W 8/1, opóźnienie pozostało niskie na 102 μs
- Na 16/4, zmierzył 1,486 μs
- I przy najwyższym obciążeniu testowanym, 32/8, osiągnął 2,402 μs
Wyniki te wskazują, że Kingston DC3000ME skalowany jest przewidywalnie, unikając poważnych skoków opóźnienia obserwowanych w innych napędach, zwłaszcza w modelach Pascari i Solidigm,które wykazywały nieregularne skoki powyżej 3,000 ‰ 6 000 μs (zwłaszcza przy 16/8).
64K Wyczytanie losowe
W testie 64K Random Read, Kingston DC3000ME wykazał silną, konsekwentną wydajność w całej matrycy IOdepth / NumJobs, zajmując czwarte miejsce pod koniec testu (z niewielką przewagą).Maksymalna szerokość pasma osiągnięta 13,515MB/s przy 32/4, z podobnie wysoką przepustowością przy 16/4 (13,482MB/s) i 32/8 (13,512MB/s)Kingston DC3000ME mierzony 2, 298MB/s i 2,234MB/s, odpowiednio.
64K Random Read Latency
64K opóźnienie napędu Kingston DC3000ME pozostało stosunkowo niskie we wszystkich punktach testowych.chociaż SanDisk SN861 osiągnął znacznie wyższy szczyt niż inni pod koniec testuPocząwszy od 1/2, Kingston DC3000ME mierzył 106 μs, a następnie 108 μs w 1/4, 131 μs w 8/1, 133 μs w 4/4, i 177 μs w 8/4.301 μs przy 32/2Ogólnie rzecz biorąc, profil opóźnienia Kingstona DC3000ME łączy się ściśle z najwyższymi wynikami,z minimalnym drgawką lub wyboczeniem (wspólne dla wszystkich badanych napędów).
16K Random Write
W testie 16K Random Write, Kingston DC3000ME dostarczył dużą przepustowość w całym zakresie głębokości kolejki i liczby wątków, zajmując drugie miejsce wśród rywalizujących napędów.592 IOPS w konfiguracji 32/16Pozostałe punkty o wysokiej wydajności obejmowały 338 521 IOPS przy 32/8, 251 428 IOPS przy 16/4, oraz 226 606 IOPS przy 1/8 wszystkie wykazujące doskonałą wydajność kontrolera przy różnych obciążeniach równoległych.Nawet przy umiarkowanym obciążeniu (2/16 i 1/4), napęd osiągnął odpowiednio 218.300 IOPS i 204.867 IOPS. Ogólnie rzecz biorąc, Kingston DC3000ME konsekwentnie osiągnął IOPS powyżej 160.000 w całej matrycy testowej (z wyjątkiem kilku obszarów),co czyni go jednym z bardziej zrównoważonych napędów w tym obciążeniu pracą.
16K Random Write Latency
Wydajność opóźnienia zapisu 16K Kingstona DC3000ME była doskonała, kończąc na szczycie tablicy lidera (z napędem Pascari nieznacznie w tyle).19 μs przy 1/4Wraz ze wzrostem obciążenia, Kingston utrzymywał silny profil opóźnienia: 126 μm w 8/4, 146 μm w 2/16, 254 μm w 16/4, i 575 μm w 16/8.W przypadku leczenia leczenia leczenia leczenia leczenia leczenia leczenia197 μs.
16K Random reading
W warunkach wykrywania 16K, Kingston DC3000ME wykazał stale wysoką wydajność aż do osiągnięcia 8/8.Szczyt IOPS wylądował tuż pod 800K (648, 686) w QD32 z czterema miejscami pracy, a następnie 641K IOPS w QD4 z 16 miejscami pracy i 623K w QD16 z czterema miejscami pracy.Kingston DC3000ME zakończył w pobliżu dolnej części tablicy lidera obok napędu SanDisk.
16K Random Read Latency
W szczytowej przepustowości (QD8/8), opóźnienie Kingstona DC3000ME® mierzyło zaledwie 99 μs, pozostając w wąskim, niskim zakresie opóźnienia w większości konfiguracji do około 16/8, kiedy zaczął się wahać.Najlepszą latencję obserwowano w QD1/4 (74 μs), z kilkoma innymi wynikami poniżej 80 μs w niskiej do umiarkowanej głębokości kolejki.Kingston DC3000ME odnotował 826 μs ≈ znacznie wyższy niż inne testowane dyski (z wyjątkiem SanDisk).
4K Random Read
W 4K random reading test, Kingston DC3000ME wykazał doskonałą skalowalność w całym zakresie testu, osiągając szczyt na 1,957.92K IOPS w konfiguracji 16/16.923.42K IOPS na 32/8, 1,361.32K IOPS na 8/16, i 1,326.03K IOPS na 16/8 konsekwentnie na szczycie rankingu obok Solidigm i Micron.
4K Random Read Latency
Kingston DC3000ME utrzymywał niskie opóźnienie podczas testu randomizmu 4K, począwszy od 60 μs w konfiguracji 1/1.utrzymywał się na 63 μs.Wraz ze wzrostem równoległości, opóźnienie skalowane przewidywalnie: 66μs na 2/4, 67μs na 2/16, 71μs na 4/4, i 80μs na 8/4.i szczyt 266 μs przy 32/16.
4K Random Write
W 4K random write, Kingston DC3000ME dostarczył silne wyświetlanie z maksymalnym 979,636 IOPS w 32/16 i 979,173 IOPS w 32/8 ̇ umieszczając go daleko za najlepszym wykonawcą (Pascari X200P,które przekroczyły 1.6M IOPS na szczycie). Kingston DC3000ME odnotował przyzwoite liczby w obciążeniach średniego zakresu: 879K IOPS na 8/16, 944K IOPS na 16/16, a 745K IOPS na 16/4.
4K Random Write Latency
W przypadku losowego opóźnienia zapisu, Kingston DC3000ME rozpoczął się z 11 μs poniżej 1/1, pozostał około 20 ‰ 50 μs, aż do osiągnięcia głębokości 8/8 i skalował do 261 μs przy 32/8 i 522 μs przy 32/16.Chociaż nie najniższy w opóźnieniu, Kingston DC3000ME utrzymywał przewidywalne, umiarkowane skalowanie bez szczytów obserwowanych w napędach takich jak Solidigm i Pascari, które wykazywały większą zmienność powyżej 16 wątków.
Przechowywanie bezpośrednie GPU
Jednym z testów, które przeprowadziliśmy na tym stanowisku, był test GDS (Magnum IO GPU Direct Storage).GDS to funkcja opracowana przez NVIDIA, która pozwala GPU obejść procesor podczas dostępu do danych przechowywanych na napędach NVMe lub innych urządzeniach pamięci masowej.Zamiast przesyłać dane przez procesor i pamięć systemową, GDS umożliwia bezpośrednią komunikację między procesorem graficznym a urządzeniem pamięci masowej, znacząco zmniejszając opóźnienie i poprawiając przepustowość danych.
Jak działa bezpośrednie przechowywanie GPU
Tradycyjnie, gdy GPU przetwarza dane przechowywane na napędzie NVMe, dane muszą najpierw przejść przez procesor i pamięć systemową, zanim dotrą do GPU.ponieważ procesor działa jako pośrednik, dodając opóźnienie i zużywając cenne zasoby systemu. GPU Direct Storage eliminuje tę nieefektywność, umożliwiając GPU dostęp do danych bezpośrednio z urządzenia pamięci masowej za pośrednictwem szlaku PCIe.umożliwiające szybciej, bardziej efektywne transfery.
W przypadku dużych sieci neuronowych potrzebne jest przetwarzanie terabajtów danych.i każde opóźnienie w transferze danych może prowadzić do niedostatecznie wykorzystanych GPU i dłuższych czasów szkoleniowych. GPU Direct Storage rozwiązuje to wyzwanie, zapewniając dostarczanie danych do GPU tak szybko, jak to możliwe, minimalizując czas bezczynności i maksymalizując wydajność obliczeniową.
Ponadto GDS jest szczególnie korzystny dla obciążeń roboczych obejmujących strumieniowanie dużych zestawów danych (np. przetwarzanie wideo, przetwarzanie języka naturalnego lub wnioskowanie w czasie rzeczywistym).Dzięki zmniejszeniu zależności od procesora, GDS przyspiesza przepływ danych i uwalnia zasoby CPU na inne zadania, zwiększając ogólną wydajność systemu.
Przepustowość odczytu
W naszych testach GDSIO, Kingston DC3000ME wykazał spójne, wydajne skalowanie przepustowości w 16K, 128K,i wielkości bloków 1MB, chociaż tendencje w zakresie wydajności nieznacznie różniły się w zależności od wielkości transferu. W przypadku bloków 16K przepustowość stale wzrastała wraz ze wzrostem liczby wątków, osiągając szczyt 3,70GiB/s przez 32 wątki, zanim stopniowo zmniejszała się do 3,41GiB/s przy 128 wątkach./Przejazd osiągnął swój najlepszy wynik /z 50,88 GiB/s przy 16 wątkach, utrzymując ten poziom przez 32 wątki przed spadkiem do ~ 5,35 GiB/s przez 128 wątków.54GiB/s przy 16 nitkach i zmniejsza się nieznacznie do 5.91 GiB/s przy 128 nitkach.
Odczytywanie opóźnienia
W zakresie opóźnienia DC3000ME wykazał przewidywalną skalowalność (w zgodzie ze wszystkimi testowanymi napędami): niższa liczba wątków dała niższe czasy reakcji we wszystkich rozmiarach bloków,z latencją wzrastającą wraz ze zwiększaniem skali wątkówW 16K, opóźnienie rozpoczęło się od 504μs i stopniowo zwiększało się do 582μs przez 128 wątków.W wyniku większego ładunku użytkowego, opóźnienie wykazało większy skok, począwszy od 2,609 μs przy jednym nitku i wzrasta do 2,703 μs przy 128 nitkach.
Wypis przepustowości
W przypadku operacji odczytu średni czas opóźnienia z blokiem 16K rozpoczął się od 2247 μs przy jednym wątku i zmniejszył się do 504 μs przy 128 wątkach, co wykazało efektywne skalowanie w warunkach równoległości.początkowo rozpoczęła się w 4Z blokiem 1M, Kingston DC3000ME miał najniższy ogólny opóźnienie, począwszy od 2,609 μs z jednym węzłem i pozostając w 2500700 μs w zakresie 128 nitek, wykazując stałą zdolność reagowania na duże odczyty sekwencyjne.
Zapisz opóźnienie
Średni czas opóźnienia pozostał stosunkowo stabilny w liczbie wątków od 1 do 16, wahając się wokół 12,234 do 14,247 μs. Przy 32 wątkach czas opóźnienia nieznacznie wzrósł do 15,559 μs i wzrósł do 20,0 μm.944 μs przy 64 nitkachZnaczący wzrost nastąpił na 128 wątkach, gdzie opóźnienie Kingstona DC3000ME wzrosło do 28 725 μs, ponad dwukrotnie większe niż poprzednio.
Wniosek
Kingston DC3000ME jest pozycjonowany jako praktyczne rozwiązanie dla głównego nurtu przedsiębiorstw i wdrożeń centrów danych, gdzie niezawodność, spójna wydajność,i solidny zestaw cech przedsiębiorstwa są kluczowymi wymaganiamiDziałalność ta służy integratorom systemów, sprzedawcom wartości dodanej (VAR) oraz zespołom informatycznym w środowiskach MŚP i MŚP, które budują i zarządzają własną infrastrukturą.2 i wsparcie PCIe Gen5 zapewniają szeroką kompatybilność i gotową dla przyszłości szerokość pasma, co czyni go silnym kandydatem do wdrożeń opartych na kanałach.
kąt Kingston DC3000ME
Z punktu widzenia wydajności DC3000ME zapewnia konkurencyjną przepustowość i wydajność w różnych obciążeniach roboczych.i konsekwentne skalowanie opóźnienia w przypadku mieszanych i losowych obciążeń pracPodczas gdy czasami wyprzedza najlepszych graczy z generacji 5 (np. Micron i SanDisk) w niektórych ciężkich CDN lub benchmarkach kontrolnych, pozostaje konkurencyjny.