Kluczowe wnioski
- Bezprecedensowa przepustowość w jednym węzle:R7725xd utrzymywał ponad 300 GB/s wewnętrznej szerokości pasma i 160 GB/s przez NVMe-oF RDMA, rywalizując z wielowęzłowymi klastrami pamięci masowej wewnątrz podwozia 2U.
- Prawdziwa architektura 5 generacji, bez przełączników, bez fan-out:Wszystkie 24 Micron 9550 PRO SSD otrzymują dedykowane pasy x4 PCIe Gen5 bezpośrednio z kompleksu procesora, umożliwiając skalowanie szybkości linii bez kontrowersji.
- Wykorzystuje AMD EPYC serii 9005:Podwójne procesory AMD EPYC 9575F zapewniają liczbę pasów, przepustowość pamięci i topologię NUMA niezbędną do trwałego wysokiego współczynnika W/W.
- Zaprojektowane do AI, analityki i ciężkich obciążeń roboczych z punktami kontrolnymi:System eliminuje wąskie gardła I/O, które zatrzymują nowoczesne rurociągi GPU, umożliwiając ciągłe dostarczanie danych o dużej przepustowości.
- AIO otwiera pełne równoległości:PEAK: AIO's stack oprogramowania utrzymuje struktury kolejki nasycone pod obciążeniem, zapewniając wydajność przedsiębiorstwa w przekonującym stosunku dolara na GB.
Sekcja pamięci masowej w iDRAC 10 przedstawia pełny przegląd wszystkich fizycznych dysków zainstalowanych w R7725xd. Panel podsumowujący wyświetla liczbę wszystkich podłączonych dysków,wraz z wizualnym wykresem tortowym ilustrującym stan napęduW tej konfiguracji 24 SSD NVMe są aktywne i zgłaszają się jako gotowe, z dwoma dodatkowymi urządzeniami do uruchamiania w systemie, oddzielonymi od podstawowego przedniego banku NVMe.
Po prawej stronie panel Podsumowanie dysków rozkłada je na dyski fizyczne i wszelkie powiązane dyski wirtualne.,Wszystkie napędy są zgłaszane jako nie-RAID i indywidualnie adresowalne, zgodnie z projektem systemu dla dużych platform NVMe i platform SDS.
Poniżej podsumowania stanu, obszar Ostatnio zalogowane zdarzenia pamięci masowej zawiera listę dzienników wprowadzania dla każdego dysku SSD PCIe, zorganizowanych według zatoki i miejsca.Ten zapis potwierdza prawidłowe wykrycie we wszystkich przedziałach napędowych i pomaga zidentyfikować wszelkie problemy z siedzeniaW przypadku dużych instalacji dzienniki te są przydatne do śledzenia dostarczania napędu lub weryfikacji, czy pojemność została wypełniona zgodnie z oczekiwaniami.
Ostatni zrzut ekranu pokazuje szczegółowy widok urządzenia NVMe w systemie iDRAC10. Każdy napęd NVMe zainstalowany w systemie jest wymieniony z jego statusem, pojemnością i położeniem.Wybór pojedynczego napędu otwiera pełny podział jego cech.
W tym przykładzie panel informacji o napędzie wyświetla pełny ciąg modelu, protokół urządzenia, czynnik kształtu i negocjowane ustawienia PCIe.Urządzenia NVMe działają z prędkością połączenia 32 GT / s z negocjowanym połączeniem x4, potwierdzające, że napędy działają z pełną przepustowością na systemie PCIe Gen5. Sekcja informacyjna informuje również o procentach wytrzymałości, dostępnym stanie rezerwowym i typie protokołu,pomoc administratorom w monitorowaniu oczekiwań dotyczących zdrowia i cyklu życia pojazdów.
To szczegółowe raportowanie napędu jest cenne w konfiguracjach NVMe o wysokiej gęstości, w których szerokość łącza, szybkość negocjacji i stan mediów bezpośrednio wpływają na zachowanie obciążenia i wydajność pamięci masowej.
Ogólnie rzecz biorąc, interfejs iDRAC 10 zapewnia jasny, skoncentrowany na sprzęcie widok architektury pamięci masowej NVMe R7725xd, umożliwiając łatwe sprawdzanie stanu połączenia, stanu napędu,i integralności systemu na pierwszy rzut oka.
Dell PowerEdge R7725xd Wydajność
Przed testami nasz system został skonfigurowany z zrównoważonym, ale wydajnym ładowaniem.i sparowane z 24 32GB DDR5 DIMM działającymi przy 6400 MT/sW celu przechowywania danych, podwozie jest w pełni wypełnione 24 15,36TB Micron 9550 PRO U.2 NVMe SSD, z których każda jest podłączona przez dedykowane łącze PCIe Gen5 x4.i napędy Micron 9550 PRO zapewniają sekwencyjne prędkości odczytu do 14,000 MB/s i sekwencyjne prędkości zapisu do 10 000 MB/s. Sieć obsługiwana jest przez cztery adaptery Broadcom BCM57608, które dostarczają łącznie osiem portów 200Gb,wraz z BCM57412 OCP NIC oferującym dwa dodatkowe porty 10-gigabit.
Specyfikacje systemu badawczego
- Procesor:2x procesory wysokiej częstotliwości AMD EPYC 9575F 64-core
- Pamięć:24x 32GB DDR5 @ 6400MT/s
- Przechowywanie:24x 15,36TB napędy Micron 9550 PRO U.2 (połączone na 4 pasach PCIe Gen5 każdy); obsługuje do 128TB napędów dzisiaj z większymi pojemnościami na horyzoncie
- Sieć:4x Broadcom BCM57608 2x200G NIC, 1x BCM57412 2x10Gb OCP NIC
- /Switch:Dell PowerSwitch Z9664
Wskaźnik wydajności FIO
Aby zmierzyć wydajność pamięci masowej PowerEdge R7725xd, wykorzystaliśmy metryki standardowe w branży i narzędzie FIO.
- Random 4K 1M
- Sekwencyjna 4K 1M
FIO lokalna szerokość pasma
Podczas testowania lokalnego dostępu do 24 napędów PCIe Gen5 NVMe wewnątrz Dell PowerEdge R7725xd,System pokazuje dokładnie to, czego można się spodziewać od platformy, gdzie każdy napęd jest podłączony do procesorów przy użyciu pełnego x4 pas PCIe Gen5 linkBez warstwy sieciowej, czysto wewnętrzna przepustowość układu pamięci masowej Dell'a Gen5 i szerokość pasma PCIe platformy AMD EPYC działają bez ograniczeń.
Odczyty sekwencyjne rozpoczynają się od 184 GB/s z blokami 4K i skalują się szybko wraz ze wzrostem wielkości bloku.co jest silnym wskaźnikiem tego, jak dobrze system może agregować wszystkie pasy 24 × 4 Gen5 w trwałą przepustowość odczytu bez żadnych wąskich gardła na etapie kontrolera.
Począwszy od 149 GB/s, wyniki wzrastają do połowy stuleci i osiągają 182 GB/s przy 1 miliona.Jest to zgodne z zachowaniem pisania na dyskach SSD Micron 9550 PRO i kosztami związanymi z wysokim równoległym zapisaniem NVMe na wielu niezależnych urządzeniach.
System osiąga prędkość prawie 300 GB/s przy najmniejszych rozmiarach bloków, nieznacznie spada w średnim zakresie,a następnie odzyskuje się do górnych 200 i dolnych 300 w większych rozmiarach blokówW 1M, przypadkowe odczyty osiągają maksymalną prędkość 318 GB/s, co pokazuje zdolność platformy do równomiernego rozkładania operacji mieszanych na wszystkich 24 napędach.
Random writes przychodzą z niższą szybkością, co jest typowe dla rozproszonych metadanych i zadań alokacji zapisu w szerokim zestawie NVMe.Wyniki utrzymują się w zakresie od 140 do 160 GB/s przez większość badania i kurczą się do nieco poniżej 100 GB/s przy 1 M.
FIO lokalne IOPS
Przy badaniu strony IOPS, R7725xd wykazuje solidną wydajność w małych blokach,z częstotliwością żądań osiągających nawet dziesiątki milionów, zanim większe rozmiary bloków przesuną obciążenie do profilu sterowanego przepustowością.
W 4K odczyty osiągnęły 44,9 miliona IOPS, a zapisy 36,3 miliona.wykazanie zdolności systemu do skutecznego rozprowadzania obciążeń roboczych z dużą liczbą kolejek na wszystkie napędyWartości te naturalnie kurczą się wraz ze wzrostem wielkości bloków, ale postęp pozostaje spójny w zakresie 8K, 16K i 32K.
W blokach 16K i 32K odczyty sięgają 17,4 miliona i 8,35 miliona IOPS, z przypadkowymi odczytami zbliżonymi się do 16,5 miliona i 8,15 miliona.śledzenie niższe, ale pozostaje stabilne zarówno w sekwencyjnych, jak i losowych modelach dostępu.
Gdy przechodzimy do 64K i powyżej, testy przechodzą od czystego IOPS do bardziej ograniczonego szerokości pasma scenariusza.Przy wielkości bloku 1M, odczytuje IOPS około 300K, pisze około 174K, a losowe operacje kończą się w tej samej okolicy.
Ogólnie rzecz biorąc, wyniki lokalnych IOPS wyraźnie pokazują zdolność systemu do utrzymania bardzo dużych obciążeń roboczych w małych blokach,Z przewidywalną skalowalnością w miarę wzrostu transferów i przepustowości staje się dominującym czynnikiem.
Dlaczego Dell PowerEdge R7725xd pasuje do tego obciążenia
PEAK: AIO jest zaprojektowany dla środowisk wymagających niezwykle szybkiego, niskiego opóźnienia dostępu do dużych zestawów danych, zazwyczaj do szkolenia AI, rurociągów wnioskowych, modelowania finansowego i analizy w czasie rzeczywistym.Platforma rozwija się na gęstej pamięci NVMeAby spełnić te wymagania, wprowadzono nowe rozwiązania, które mają na celu zapewnienie równoważnej przepustowości PCIe i przewidywalnego opóźnienia w skali.podstawowy sprzęt musi zapewniać trwałą przepustowość przy jednoczesnym utrzymaniu stałej i powtarzalnej wydajności w warunkach jednoczesnych ciężkich obciążeń;.
Architektura systemu jest zaprojektowana tak, aby zmaksymalizować zasoby PCIe Gen5, wystawiając pełną przepustowość 24 przednich urządzeń U.2 płyny NVMe bezpośrednio do CPUTen układ daje PEAK:AIO profil równoległości i opóźnienia, którego oczekuje od nowoczesnych rurociągów danych opartych na NVMe.Konfiguracja systemu podzieliła SSD NVMe na dwie grupy RAID0.
W testowanym scenariuszu, użyliśmy dwóch systemów klientów podłączonych do R7725xd, każdy wyposażony w Broadcom BCM57608 2x 200G NIC.Przesunięcie R7725xd do realistycznej konfiguracji o wysokiej wydajności, która odzwierciedla to, co PEAKTen poziom przepustowości sieci dał nam możliwość pełnego wykorzystania podsystemu NVMe, topologii PCIe,a procesor łączy się bez wąskich gardła na warstwie NIC.
W rezultacie powstała platforma, która skutecznie dostosowuje się do obciążeń roboczych PEAK:AIO.i zdolność sieciową do utrzymania wieloklientowego przechowywania danych w setkach gigabajtów na klientaWszystkie te cechy są podstawowe dla osiągnięcia oczekiwań w zakresie wydajności PEAK:AIO.
PEAK:AIO ️ NVMe-of RDMA ️ Szerokość pasma
Badanie wyników przepustowości NVMe-oF RDMA na PowerEdge R7725xd z PEAK: AIO, ogólny trend jest dokładnie tym, czego oczekujemy od systemu o tak dużej przepustowości PCIe i sieci.W miarę wzrostu wielkości bloku, przepustowość gwałtownie wzrasta, aż wyrówna się w pobliżu praktycznego limitu platformy.
W przypadku małych rozmiarów bloków wydajność zaczyna się w przedziale 20 GB/s zarówno dla odczytu, jak i zapisu, co jest normalne, ponieważ transfery 4K i 8K zmuszają ścieżkę IOPS znacznie trudniej niż ścieżkę przepustową.Gdy wejdziemy do bloków 16K i 32KOdczyty skaczą do około 154 GB/s przy 32K i nadal wspinają się do zakresu 160 GB/s, gdzie spodziewalibyśmy się konfiguracji dual-klienta na czterech linkach 200 Gb/s do lądu.
Random reading performance mirrors sequential almost perfect.Więc przypadkowa przepustowość odczytu zasadniczo śledzi sekwencyjną przepustowość odczytu aż do, osadzając się przy prędkości około 159 do 161 GB/s od 32K do 1M.a topologia PCIe R7725xd ̇s równomiernie rozprowadza obciążenie na 24 napędy NVMe Gen5.
Wydajność zapisu jest podobna, choć jest nieco niższa od odczytu.zmniejsza się do około 117 GB/s przy 128K, ale odzyskuje się wraz ze wzrostem wielkości bloku. Random writes zachowują się inaczej i spłaszczają się bliżej 110-117 GB/s, co jest normalne dla obciążeń pracy z mieszaną kolejką, które wprowadzają dodatkowe koszty.
Kluczowym wnioskiem z tej sekcji jest to, że R7725xd nie ma problemu z utrzymaniem niezwykle wysokiej przepustowości w NVMe-oF, nawet przy wielu klientach prowadzących system do jego granic.Gdy rozmiar bloku osiągnie 32K lub wyższy, serwer konsekwentnie nasyca swoją dostępną sieć i przepustowość pamięci masowej.wprowadzenie tych wyników jako silnego potwierdzenia zdolności platformy do skalowania w warunkach rzeczywistych.
PEAK AIO ️ NVMe-of RDMA IOPS
Po stronie IOPS, PowerEdge R7725xd wykazuje silną wydajność w małych blokach, chociaż początkowo zaobserwowaliśmy niższe niż oczekiwano liczby;Oczekuje się, że w przyszłości ten problem zostanie rozwiązany poprzez ulepszone wsparcie sterowników sieci.Nawet z tym w grze, ogólny trend skalowania pojawia się dokładnie tak, jak NVMe-of RDMA zazwyczaj zachowuje się, gdy rozmiar bloku wzrasta.
Przy najmniejszym rozmiarze bloku, system może dostarczyć ponad 6 milionów IOPS zarówno w sekwencyjnych jak i losowych obciążeniach.i losowo pisać wszystkie siedzą w mniej więcej tym samym zakresie w 4K i 8K, co wskazuje, że klienci front-end, infrastruktura PCIe i same napędy NVMe nie mają problemu z utrzymaniem się w tempie żądań.
Jak rozmiary bloków rosną, spodziewany spadek w IOPS zaczyna. w 32K, czyta lądują około 4,7 miliona IOPS, podczas gdy pisze ślad nieco za około 4,4 miliona.,Oznacza to, że liczba użytkowników, którzy mają dostęp do urządzeń z systemem międzysystemowym, może wzrosnąć do około 3,3 mln IOPS, co jest zgodne z dodatkowymi kosztami kolejkowymi i CPU wprowadzonymi przez wzory mieszanego dostępu.
Kiedy osiągniemy 256K i 512K transferów, przepustowość staje się dominującą miarą,i IOPS naturalnie spada do połowy setek tysięcyPrzy wielkości bloku 1M, wszystkie obciążenia pracy zbiegają się do 140K-153K IOPS, zgodnie z liczbami przepustowości, które widzieliśmy w poprzedniej sekcji.
Wydajność GPUDirect Storage
Jednym z testów, które przeprowadziliśmy na R7725xd był test Magnum IO GPUDirect Storage (GDS).GDS to funkcja opracowana przez NVIDIA, która pozwala GPU obejść procesor podczas dostępu do danych przechowywanych na napędach NVMe lub innych urządzeniach pamięci masowej.Zamiast przesyłać dane przez procesor i pamięć systemową, GDS umożliwia bezpośrednią komunikację między GPU a urządzeniem pamięci masowej, znacznie zmniejszając opóźnienie i poprawiając przepustowość danych.
Jak działa GPUDirect
Tradycyjnie, gdy GPU przetwarza dane przechowywane na napędzie NVMe, dane muszą najpierw przejść przez procesor i pamięć systemową, zanim dotrą do GPU.CPU staje się pośrednikiemGPUDirect Storage eliminuje tę nieefektywność, umożliwiając GPU dostęp do danych bezpośrednio z urządzenia pamięci masowej za pośrednictwem szlaku PCIe.Ta bezpośrednia ścieżka zmniejsza przepływ danych, umożliwiające szybsze i bardziej wydajne przekazywanie danych.
Obciążenia sztucznej inteligencji, zwłaszcza te związane z uczeniem głębokim, są bardzo intensywne w zakresie wykorzystania danych.i każde opóźnienie w transferze danych może prowadzić do niedostatecznie wykorzystanych GPU i dłuższych czasów szkoleniowychGPUDirect Storage rozwiązuje to wyzwanie, zapewniając, że dane są dostarczane do GPU tak szybko, jak to możliwe, minimalizując czas bezczynności i maksymalizując wydajność obliczeniową.
Ponadto GDS jest szczególnie korzystny dla obciążeń roboczych, które obejmują strumieniowanie dużych zestawów danych, takich jak przetwarzanie wideo, przetwarzanie języka naturalnego lub wnioskowanie w czasie rzeczywistym.Zmniejszając zależność od procesora, GDS przyspiesza przepływ danych i uwalnia zasoby procesora do innych zadań, co jeszcze bardziej zwiększa ogólną wydajność systemu.
Oprócz surowej przepustowości GPUDirect z NVMe-oF (TCP/RDMA) zapewnia również ultra niskie opóźnienie w wprowadzaniu i wyprowadzaniu. Dzięki temu procesory graficzne nigdy nie będą głodne danych, co czyni system idealnym do inferencji AI w czasie rzeczywistym,przewody analityczne, i odtwarzanie wideo.
GDSIO odczytywane sekwencyjnie
Podczas badania PEAK:AIO z jednym klientem używającym GDSIO przepustowość odczytu wykazuje wyraźny wzór skalowania, ponieważ wzrasta zarówno wielkość bloku, jak i liczba wątków.Ten pojedynczy klient był połączony przez dwa połączenia 400G, ograniczając jego całkowitą moc do 90 GB/s.
Przy najmniejszych rozmiarach bloków i niskiej liczbie wątków, wydajność jest skromna, z odczytami 4K rozpoczynającymi się od około 189 MiB / s w pojedynczym wątku.System reaguje natychmiast., wciskając 691 MiB/s na cztery wątki i przełamując się w zakresie wielo-GiB/s, gdy wchodzimy w większe bloki.
Wielkość blokowa średniego zakresu wykazuje największą wrażliwość na liczbę wątków.z tylko niewielkim skurczem poza tymPodobny wzór występuje na 64K i 128K, gdzie system przechodzi z niskiej jednomierzowej liczby GiB/s przy niskim równoległości do ponad 30 GiB/s w miarę skalowania obciążenia.
Gdy osiągniemy większe rozmiary bloków, przepustowość zaczyna się wyrównując, gdy system zbliża się do pułapu wydajności dla jednego klienta.wydajność wzrasta z 11GiB/s przy jednej nitce do około 88GiB/s przy dużej liczbie nitekPrzesyłki 5 MiB i 10 MiB wykazują ten sam płaskowyż, osiągając wysokość około 89 ‰ 90 GiB/s, niezależnie od tego, czy test jest uruchamiany przy 64, 128 lub 256 wątkach.
GDSIO Write Sequential
Po stronie zapisu zachowanie skalowania jest podobne do odczytu, ale z nieco niższą wydajnością w większości rozmiarów bloków, co jest oczekiwane w przypadku sekwencyjnych obciążeń zapisu.W najmniejszych rozmiarach bloków, przepustowość zaczyna się od 165 MiB/s dla pojedynczego wątku w 4K i stale rośnie wraz ze wzrostem równoległości.
Wielkość blokowa średniego zakresu wykazuje silniejsze zyski wraz ze wzrostem liczby wątków.64K i 128K kontynuują trend, przesuwając się z niskiego jednocyfrowego GiB/s do średniego poziomu 30 GiB/s i 50 GiB/s, gdy obciążenie pracą staje się bardziej równoległe.
Większe transfery występują, gdy system osiąga swój naturalny pułap przepustowości zapisu.Testy 5 MiB i 10 MiB mają podobny wzór, z wynikami osiągającymi szczyt około 90 GiB/s, niezależnie od tego, czy system działa z prędkością 64, 128 lub 256 wątków.
Definicja wydajności w erze 5 pokolenia
Sandy Yang, dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storagesserver.com
Skoncentruj się na biznesie:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami w celu dostarczania niezawodnych produktów i profesjonalnych usług.
Używanie technologii do budowy inteligentnego świata•Twój zaufany dostawca usług produktów ICT!



