Dom Przypadki

Skalowanie punktów kontrolnych AI: wpływ dysków SSD o dużej pojemności na trenowanie modeli

Wszystkie produkty

Serwer pamięci masowej w szafie
(165)

Serwer Huawei Fusion
(31)

Serwer Dell Poweredge
(59)

Serwer H3C
(30)

Przełączniki Datacom
(97)

Urządzenie WLAN
(21)

Inteligentny router bezprzewodowy
(10)

Dysk twardy HDD
(24)

Wewnętrzny dysk twardy SSD
(16)

Karta graficzna GeForce
(27)

Procesor procesora INTEL
(20)

Pamięć RAM serwera
(6)

Odnowiony serwer pamięci masowej
(6)

Moduł nadawczo-odbiorczy SFP
(4)

przełącznik kanału światłowodowego
(42)

Orzecznictwo

Chiny Beijing Qianxing Jietong Technology Co., Ltd. Certyfikaty

Opinie klientów

Pracownicy sprzedaży Beijing Qianxing Jietong Technology Co., Ltd są bardzo profesjonalni i cierpliwi. Mogą szybko dostarczyć wyceny. Jakość i opakowanie produktów są również bardzo dobre. Nasza współpraca przebiega bardzo sprawnie.

—— 《Festfing DV》LLC

Kiedy pilnie szukałem procesora Intel i dysku SSD firmy Toshiba, Sandy z Beijing Qianxing Jietong Technology Co., Ltd udzieliła mi dużej pomocy i szybko dostarczyła mi potrzebne produkty. Naprawdę ją doceniam.

—— Kitty Jen

Sandy z Beijing Qianxing Jietong Technology Co.,Ltd jest bardzo uważnym sprzedawcą, który przy zakupie serwera potrafi przypomnieć mi o błędach konfiguracyjnych. Inżynierowie są również bardzo profesjonalni i mogą szybko zakończyć proces testowania.

—— Strelkin Michaił Władimirowicz

Jesteśmy bardzo zadowoleni z naszej współpracy z firmą Beijing Qianxing Jietong. Jakość produktu jest doskonała, a dostawy zawsze na czas. Ich zespół sprzedaży jest profesjonalny, cierpliwy i bardzo pomocny we wszystkich naszych pytaniach. Naprawdę doceniamy ich wsparcie i oczekujemy długoterminowej współpracy. Gorąco polecamy!

—— Ahmad Navid

Jakość: Wielkie doświadczenie z moim dostawcą. MikroTik RB3011 był już używany, ale był w bardzo dobrym stanie i wszystko działa doskonale.i wszystkie moje obawy zostały szybko rozwiązaneBardzo niezawodny dostawca.

—— Geran Colesio

Im Online Czat teraz

Skalowanie punktów kontrolnych AI: wpływ dysków SSD o dużej pojemności na trenowanie modeli

March 13, 2026

Tworzenie punktów kontrolnych jest kluczowe dla trenowania modeli AI, ponieważ zapewnia odporność, wydajność operacyjną oraz możliwość wznowienia lub dostrojenia treningu z zapisanych stanów. Jednak wymagania nowoczesnych obciążeń AI – charakteryzujących się coraz bardziej złożonymi modelami i obszernymi zbiorami danych treningowych – doprowadzają systemy pamięci masowej do granic możliwości.

Rola punktów kontrolnych w przepływach pracy AI

Tworzenie punktów kontrolnych w treningu AI to kluczowy proces polegający na okresowym zapisywaniu pełnego stanu modelu podczas cyklu treningowego. Stan ten obejmuje wagi i parametry modelu, stany optymalizatora, harmonogramy szybkości uczenia oraz metadane treningowe. Tworząc kompleksowy zrzut procesu treningowego w określonych odstępach czasu, tworzenie punktów kontrolnych gwarantuje ciągłość treningu i umożliwia odzyskanie danych w przypadku przerw.

Punkty kontrolne są zazwyczaj tworzone w odstępach opartych na iteracjach (np. co tysiąc kroków treningowych). Trening nowoczesnych dużych modeli językowych (LLM) – który może trwać tygodnie lub nawet miesiące i pochłaniać ogromne zasoby obliczeniowe – w dużym stopniu opiera się na tych punktach kontrolnych jako siatce bezpieczeństwa przed potencjalnymi awariami. Na przykład, trening modelu klasy GPT-4 może generować punkty kontrolne o rozmiarze od kilkuset gigabajtów do kilku terabajtów, w zależności od rozmiaru modelu i konfiguracji treningowej.

Proces treningowy wygenerowany przez DALL-E

Głównym celem tworzenia punktów kontrolnych jest coś więcej niż tylko funkcja kopii zapasowej. Służy on jako krytyczny mechanizm zapewniający odporność treningu, pozwalając na wznowienie treningu od ostatniego zapisanego stanu zamiast ponownego uruchamiania od zera w przypadku awarii systemu, przerw w dostawie prądu lub problemów ze sprzętem. Ponadto punkty kontrolne są nieocenione w analizie modelu: umożliwiają badaczom analizę ewolucji modelu na różnych etapach treningu i potencjalne cofnięcie się do poprzednich stanów, jeśli wykryte zostanie pogorszenie wydajności.

Z perspektywy pamięci masowej, wzorce zapisu podczas tworzenia punktów kontrolnych są szczególnie godne uwagi. Gdy wyzwalany jest punkt kontrolny, system musi zapisać ogromne ilości danych w trybie impulsowym. Tworzy to wyraźny profil I/O: okresy względnie niskiej aktywności pamięci masowej podczas obliczeń treningowych, po których następują intensywne operacje zapisu o dużej przepustowości podczas tworzenia punktów kontrolnych. Operacje zapisu są zazwyczaj sekwencyjne i mogą znacząco skorzystać z systemów pamięci masowej zoptymalizowanych pod kątem sekwencyjnych zapisów o dużej przepustowości.

Różne strategie równoległości w treningu rozproszonym mogą mieć znaczący wpływ na zachowanie tworzenia punktów kontrolnych. Strategie te wpływają na to, kiedy tworzenie punktów kontrolnych odbywa się podczas treningu i która część modelu jest zapisywana. W nowoczesnych konfiguracjach treningu rozproszonego wiele procesorów GPU może jednocześnie zapisywać różne części tej samej warstwy, tworząc złożone wzorce I/O. Ta równoległa zdolność zapisu jest kluczem do wydajności, ale wymaga starannej koordynacji i solidnych systemów pamięci masowej, które mogą obsługiwać współbieżne operacje zapisu przy jednoczesnym zachowaniu spójności danych. Wszelkie wąskie gardła w tym procesie mogą prowadzić do szeroko zakrojonych opóźnień w treningu.

Powolne tworzenie punktów kontrolnych może powodować znaczące wąskie gardła w treningu, ponieważ cały proces treningowy musi zostać wstrzymany podczas zapisu punktu kontrolnego do pamięci masowej. Na przykład, w dużej skali konfiguracji treningowej, jeśli tworzenie punktów kontrolnych zajmuje 30 minut co kilka godzin, może to spowodować kilka godzin skumulowanego przestoju w całym okresie treningowym. Bezpośrednio wpływa to na wydajność treningu i zwiększa koszty operacyjne – zwłaszcza w środowiskach chmurowych, gdzie zasoby obliczeniowe są rozliczane godzinowo.

Szybsze tworzenie punktów kontrolnych pozwala również zespołom na częstsze tworzenie punktów kontrolnych, zmniejszając maksymalną potencjalną utratę danych w przypadku awarii. Umożliwia to bardziej agresywne podejścia do treningu i usprawnienie cykli iteracji eksperymentalnych. Ponadto, szybkie czasy ładowania punktów kontrolnych ułatwiają szybsze eksperymentowanie z różnymi konfiguracjami treningowymi i architekturami modeli, ponieważ badacze mogą łatwiej przywracać poprzednie stany, aby testować alternatywne podejścia.

Zdolność systemu pamięci masowej do efektywnego obsługiwania tych operacji tworzenia punktów kontrolnych staje się kluczowym czynnikiem w całej infrastrukturze treningowej. Wysokowydajne rozwiązania pamięci masowej, które mogą zarządzać zarówno impulsowymi wzorcami zapisu podczas tworzenia punktów kontrolnych, jak i ciągłymi operacjami odczytu/zapisu podczas treningu, mogą znacząco skrócić całkowity czas i koszt treningu dużych modeli językowych. W związku z tym charakterystyka wydajności podsystemu pamięci masowej – zwłaszcza jego zdolność do obsługi dużych sekwencyjnych zapisów i utrzymania spójnej wysokiej przepustowości – są kluczowymi czynnikami przy projektowaniu infrastruktury treningowej LLM.

W niniejszym raporcie oceniliśmy wydajność dysków SSD w zakresie tworzenia punktów kontrolnych AI, oceniając korzyści płynące z najnowszych dysków SSD Gen5, gdy szybkość tworzenia punktów kontrolnych jest krytyczna, w porównaniu do największych dysków SSD QLC dostępnych na rynku – które mogą przechowywać ogromną liczbę punktów kontrolnych, jeśli jest to bardziej korzystne dla trenowanego modelu.

Wydajność punktów kontrolnych – testy porównawcze z DLIO

Aby ocenić rzeczywistą wydajność dysków SSD Solidigm w środowiskach treningowych AI, użyliśmy narzędzia do testów porównawczych Data and Learning Input/Output (DLIO). Opracowany przez Argonne National Laboratory, DLIO jest specjalnie zaprojektowany do testowania wzorców I/O w obciążeniach uczenia głębokiego, dostarczając informacji o tym, jak systemy pamięci masowej radzą sobie z tworzeniem punktów kontrolnych, pobieraniem danych i wyzwaniami związanymi z treningiem modeli.

Korzystając z DLIO, dążyliśmy do zmierzenia przepustowości, opóźnień i niezawodności dysku w intensywnych scenariuszach tworzenia punktów kontrolnych. Chociaż testy te przeprowadzono na dysku D5-P5336 o pojemności 61,44 TB, wstępne dane dotyczące wydajności wskazują, że wersja Solidigm D5-P5336 o pojemności 122 TB oferuje podobny profil wydajności. Uwzględniliśmy również wyniki z dysku D7-PS1010 opartego na TLC, aby zademonstrować zalety PCIe Gen5 w tym teście. Wybraliśmy te dwa dyski, aby przedstawić obie perspektywy dotyczące punktów kontrolnych: jedną skupiającą się na najszybszym możliwym czasie tworzenia punktów kontrolnych, a drugą na przechowywaniu maksymalnej liczby punktów kontrolnych na jednym dysku SSD.

Platformą wybraną do tej pracy był nasz Dell PowerEdge R760 z systemem Ubuntu 22.04.02 LTS. Użyliśmy narzędzia DLIO benchmark w wersji 2.0 z wydania z 13 sierpnia 2024 r. Nasza konfiguracja systemu jest przedstawiona poniżej:

2 x Intel Xeon Gold 6430 (32 rdzenie, 2,1 GHz)
16 x 64 GB DDR5-4400
480 GB Dell BOSS SSD
Kable szeregowe Gen5 JBOF
- 7,68 TB Solidigm D7-PS1010
- 61,44 TB Solidigm D5-P5336

Aby zapewnić, że nasze testy porównawcze odzwierciedlają rzeczywiste scenariusze, oparliśmy nasze testy na architekturze modelu LLAMA 3.1 405B, implementując tworzenie punktów kontrolnych za pomocą torch.save(), aby przechwycić parametry modelu, stany optymalizatora i stany warstw. Nasza konfiguracja symulowała system 8-GPU, implementując hybrydową strategię równoległości z 4-kierunkowym równoległością tensorową i 2-kierunkowym równoległością potokową przetwarzaną na ośmiu procesorach GPU. Ta konfiguracja zaowocowała rozmiarami punktów kontrolnych wynoszącymi 1636 GB, co jest reprezentatywne dla wymagań nowoczesnego treningu dużych modeli językowych.

Nasz proces testowania obciążenia tworzenia punktów kontrolnych DLIO polegał na wypełnieniu każdego dysku do podobnego poziomu wykorzystania. Dla 61,44 TB Solidigm D5-P5336, każda przepustka obejmowała 33 interwały punktów kontrolnych, o łącznej wielkości 54 TB. Mniejszy 7,68 TB D7-PS1010 komfortowo pomieścił trzy interwały punktów kontrolnych, o łącznej powierzchni 4,9 TB. Jeden dodatkowy punkt kontrolny mógł zmieścić się na D7-PS1010, chociaż spowodowałoby to nieco wyższe wykorzystanie niż chcieliśmy.

Obciążenie tworzenia punktów kontrolnych DLIO przyniosło interesujące wyniki, gdy porównaliśmy oparty na QLC dysk Gen4 o pojemności 61,44 TB D5-P5536 z opartym na TLC dyskiem Gen5 o pojemności 7,68 TB D7-PS1010. Podczas pierwszej przepustki, gdy dyski się zapełniały, zaobserwowaliśmy większą różnicę w wydajności między dwoma modelami SSD. Szybszy PS1010 Gen5 ukończył każdy punkt kontrolny średnio w 464 sekundy, w porównaniu do 623 sekund z P5336 Gen4. W drugiej i trzeciej przepustce różnica zmniejszyła się do 579 i 587 sekund dla PS1010 oraz 676 i 680 sekund dla P5336.

Firmy, które chcą uzyskać jak najmniejszą przerwę między interwałami tworzenia punktów kontrolnych, skorzystają z opartego na TLC PS1010 Gen5, który oferuje przewagę w najszybszym czasie ukończenia. Jeśli celem jest ekonomiczne przechowywanie wielu punktów kontrolnych, oparty na QLC P5336 Gen4 może to zapewnić. Zmierzyliśmy różnicę w średnich czasach tworzenia punktów kontrolnych wynoszącą mniej niż 17% między oboma dyskami podczas drugiej i trzeciej przepustki.

Przepustowość GPU Direct Storage

Chociaż DLIO pokazuje wydajność pamięci flash w przepływie pracy AI, obciążenie jest całkowicie oparte na zapisie, dopóki punkt kontrolny nie zostanie przywrócony. Aby uzyskać pełniejszy obraz dysków Solidigm D7-PS1010 i D5-P5336 w obciążeniach AI, uwzględniliśmy pomiary przepustowości odczytu za pomocą GDSIO.

Jak działa GPU Direct Storage

Tradycyjnie, gdy procesor GPU przetwarza dane przechowywane na dysku NVMe, dane muszą najpierw przejść przez procesor CPU i pamięć systemową, zanim dotrą do procesora GPU. Proces ten wprowadza wąskie gardła, ponieważ procesor CPU staje się pośrednikiem, zwiększając opóźnienia i zużywając cenne zasoby systemowe. GPU Direct Storage eliminuje tę nieefektywność, umożliwiając procesorowi GPU bezpośredni dostęp do danych z urządzenia pamięci masowej za pośrednictwem magistrali PCIe. Ta bezpośrednia ścieżka zmniejsza narzut związany z ruchem danych, umożliwiając szybsze i bardziej wydajne transfery danych.

Obciążenia AI, zwłaszcza te związane z uczeniem głębokim, są bardzo intensywne pod względem danych. Trening dużych sieci neuronowych wymaga przetwarzania terabajtów danych, a wszelkie opóźnienia w transferze danych mogą prowadzić do niedostatecznego wykorzystania procesorów GPU i dłuższych czasów treningu. GPU Direct Storage rozwiązuje ten problem, zapewniając, że dane są dostarczane do procesora GPU tak szybko, jak to możliwe, minimalizując czas bezczynności i maksymalizując wydajność obliczeniową.

Podobnie jak w teście DLIO, celem jest lepsze zrozumienie i scharakteryzowanie różnic między szybkimi dyskami SSD Gen5 a dyskami QLC o dużej pojemności. Nie każde obciążenie AI jest takie samo, a każdy dysk oferuje odrębne zalety, w zależności od potrzeb.

Macierz konfiguracji testowej

Systematycznie testowaliśmy każdą kombinację następujących parametrów z kartą NVIDIA L4 na naszej platformie testowej:

Rozmiary bloków: 1M, 128K, 64K, 16K, 8K
Liczba wątków: 128, 64, 32, 16, 8, 4, 1
Liczba zadań: 16
Rozmiary paczek: 16

Nasze pierwsze spojrzenie dotyczyło opartego na QLC dysku D5-P5336, który osiągnął maksymalnie 4,2 GiB/s przy rozmiarze transferu 1M i głębokości I/O 128. Efekt rozmiarów bloków spowodował znaczący wzrost przepustowości, przechodząc z 8K do 1M. Przewaga zwiększonej głębokości I/O zaczęła się zmniejszać przy 32, gdzie obciążenia zaczęły się stabilizować.

Następnie przyglądamy się opartemu na Gen5 PS-1010, który może skalować się do 6,2 GiB/s przy rozmiarze bloku 1M i głębokości I/O 128. Ogólnie rzecz biorąc, przewyższał on oparty na Gen4 P5336, z konkretnymi obciążeniami wykazującymi znaczący wzrost. Jednym z zauważalnych obszarów poprawy był rozmiar bloku 128K, gdzie przy głębokości I/O 64 i 128, PS1010 oferował dwukrotnie większą przepustowość odczytu niż P5336.

Warto zauważyć, że oba dyski SSD były testowane przy użyciu NVIDIA L4. Chociaż Gen4 D5-P5336 jest na swoim maksymalnym poziomie lub blisko niego, karty NVIDIA GPU wyższej klasy, takie jak H100, wykazały wyższą wydajność z D7-PS1010. Szybkość dysku jest ostatecznym czynnikiem decydującym dla niektórych klientów, podczas gdy inni priorytetowo traktują ogólną gęstość.Solidigm oferuje rozwiązania dla obu, dzięki swoim ofertom dysków SSD QLC i TLC.

Wnioski

W miarę jak skala i złożoność treningu AI stale rosną, podstawowa infrastruktura pamięci masowej musi nie tylko nadążać, ale także wyznaczać tempo. Nasze testy z dwoma wyraźnie różnymi dyskami SSD podkreślają znaczenie dopasowania rozwiązań pamięci masowej do konkretnych priorytetów treningowych – niezależnie od tego, czy oznacza to minimalizację opóźnień w tworzeniu punktów kontrolnych, czy maksymalizację gęstości punktów kontrolnych dla opłacalnej skalowalności.

W naszej ocenie przetestowaliśmy dyski Solidigm D5-P5336 (61,44 TB) i D7-PS1010 (7,68 TB) w realistycznych warunkach treningu AI, wykorzystując benchmark DLIO i rozbudowany przepływ pracy tworzenia punktów kontrolnych LLM z hybrydową równoległością. Zebraliśmy metryki odzwierciedlające wydajność zapisu punktów kontrolnych w wielu przebiegach testowych w miarę zapełniania się dysków, podkreślając różnice w wydajności czasów ukończenia między opartym na QLC dyskiem Gen4 D5-P5336 a opartym na TLC dyskiem Gen5 D7-PS1010.

Podczas gdy D7-PS1010 zapewniał najszybsze możliwe zapisy punktów kontrolnych, D5-P5336 wykazywał przekonujące zalety pod względem opłacalności i pojemności, z jedynie niewielkim kompromisem w wydajności. Dodatkowo zbadaliśmy przepustowość odczytu GPU Direct Storage (GDS) za pomocą GDSIO z procesorem GPU NVIDIA L4. Nasze wyniki pokazały, że Solidigm D5-P5336 zapewniał przepustowość odczytu do 4,2 GiB/s przy rozmiarze transferu 1M, podczas gdy D7-PS1010 zapewniał znaczący wzrost do 6,2 GiB/s. Wydajność byłaby jeszcze bardziej imponująca przy wykorzystaniu mocniejszego procesora GPU, takiego jak NVIDIA L40s lub H100/H200.

Patrząc w przyszłość, bezprecedensowa pojemność dysku SSD Solidigm D5-P5336 o pojemności 122 TB ma potencjał do przekształcenia treningu i wdrażania AI. W miarę wzrostu rozmiarów modeli i wymagań dotyczących tworzenia punktów kontrolnych, te dyski o dużej pojemności odblokowują nowe poziomy wydajności i elastyczności, umożliwiając strategie treningowe, które były wcześniej nieosiągalne. Liderstwo Solidigm w rozwiązaniach SSD o dużej pojemności umożliwia organizacjom przechowywanie większej ilości danych i punktów kontrolnych na mniejszej liczbie dysków, jednocześnie pomagając w przyszłościowym zabezpieczeniu ich infrastruktury przed kolejną falą złożoności AI.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storagesserver.com

Fokus biznesowy:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT, współpracujemy z wiodącymi globalnymi markami, dostarczając niezawodne produkty i profesjonalne usługi.
„Wykorzystując technologię do budowania inteligentnego świata” Twój zaufany dostawca usług produktów ICT!

PREV: Dysk SSD Micron 6550 ION: Wydajność Gen5, Efektywność Energetyczna i Duża Pojemność w Jednym Napędzie

NEXT: Chłodzenie cieczą nadchodzi do Twojego centrum danych: Dell Tech World podkreśla dostępne opcje

Szczegóły kontaktu

Beijing Qianxing Jietong Technology Co., Ltd.

Osoba kontaktowa: Ms. Sandy Yang

Tel: 13426366826

Skalowanie punktów kontrolnych AI: wpływ dysków SSD o dużej pojemności na trenowanie modeli

Serwer pamięci masowej w szafie

Serwer Huawei Fusion

Serwer Dell Poweredge

Serwer H3C

Przełączniki Datacom

Urządzenie WLAN

Inteligentny router bezprzewodowy

Dysk twardy HDD

Wewnętrzny dysk twardy SSD

Karta graficzna GeForce

Procesor procesora INTEL

Pamięć RAM serwera

Odnowiony serwer pamięci masowej

Moduł nadawczo-odbiorczy SFP

przełącznik kanału światłowodowego

Skalowanie punktów kontrolnych AI: wpływ dysków SSD o dużej pojemności na trenowanie modeli

Przepustowość GPU Direct Storage

Jak działa GPU Direct Storage

Macierz konfiguracji testowej

Wnioski

Serwer pamięci masowej w szafie

12 wnęk Serwer do montażu w szafie serwerowej 1U Lenovo ThinkSystem SR630 Serwer do montażu w szafie serwerowej

Think System SR250 V2 4SFF Rack Storage Server Procesor Intel Xeon E-2378G

Serwer pamięci masowej Intel C621A do montażu w szafie serwerowej Inspur NF5180M6 1U do montażu w szafie serwerowej

Serwer Huawei Fusion

FusionServer 5288 V6 4U serwer do montażu w szafie serwerowej 32 moduły DIMM DDR4 44 3,5-calowe dyski twarde

Sieciowy serwer pamięci masowej o ultra wysokiej gęstości Huawei Fusion Server 1U 1288H V5

Nowa generacja OceanStor 5310 Hybrydowa pamięć flash do serwerów stelażowych Huawei