Tworzenie punktów kontrolnych jest kluczowe dla trenowania modeli AI, ponieważ zapewnia odporność, wydajność operacyjną oraz możliwość wznowienia lub dostrojenia treningu z zapisanych stanów. Jednak wymagania nowoczesnych obciążeń AI – charakteryzujących się coraz bardziej złożonymi modelami i obszernymi zbiorami danych treningowych – doprowadzają systemy pamięci masowej do granic możliwości.
Rola punktów kontrolnych w przepływach pracy AI
Tworzenie punktów kontrolnych w treningu AI to kluczowy proces polegający na okresowym zapisywaniu pełnego stanu modelu podczas cyklu treningowego. Stan ten obejmuje wagi i parametry modelu, stany optymalizatora, harmonogramy szybkości uczenia oraz metadane treningowe. Tworząc kompleksowy zrzut procesu treningowego w określonych odstępach czasu, tworzenie punktów kontrolnych gwarantuje ciągłość treningu i umożliwia odzyskanie danych w przypadku przerw.
Punkty kontrolne są zazwyczaj tworzone w odstępach opartych na iteracjach (np. co tysiąc kroków treningowych). Trening nowoczesnych dużych modeli językowych (LLM) – który może trwać tygodnie lub nawet miesiące i pochłaniać ogromne zasoby obliczeniowe – w dużym stopniu opiera się na tych punktach kontrolnych jako siatce bezpieczeństwa przed potencjalnymi awariami. Na przykład, trening modelu klasy GPT-4 może generować punkty kontrolne o rozmiarze od kilkuset gigabajtów do kilku terabajtów, w zależności od rozmiaru modelu i konfiguracji treningowej.
Proces treningowy wygenerowany przez DALL-E
Głównym celem tworzenia punktów kontrolnych jest coś więcej niż tylko funkcja kopii zapasowej. Służy on jako krytyczny mechanizm zapewniający odporność treningu, pozwalając na wznowienie treningu od ostatniego zapisanego stanu zamiast ponownego uruchamiania od zera w przypadku awarii systemu, przerw w dostawie prądu lub problemów ze sprzętem. Ponadto punkty kontrolne są nieocenione w analizie modelu: umożliwiają badaczom analizę ewolucji modelu na różnych etapach treningu i potencjalne cofnięcie się do poprzednich stanów, jeśli wykryte zostanie pogorszenie wydajności.
Z perspektywy pamięci masowej, wzorce zapisu podczas tworzenia punktów kontrolnych są szczególnie godne uwagi. Gdy wyzwalany jest punkt kontrolny, system musi zapisać ogromne ilości danych w trybie impulsowym. Tworzy to wyraźny profil I/O: okresy względnie niskiej aktywności pamięci masowej podczas obliczeń treningowych, po których następują intensywne operacje zapisu o dużej przepustowości podczas tworzenia punktów kontrolnych. Operacje zapisu są zazwyczaj sekwencyjne i mogą znacząco skorzystać z systemów pamięci masowej zoptymalizowanych pod kątem sekwencyjnych zapisów o dużej przepustowości.
Różne strategie równoległości w treningu rozproszonym mogą mieć znaczący wpływ na zachowanie tworzenia punktów kontrolnych. Strategie te wpływają na to, kiedy tworzenie punktów kontrolnych odbywa się podczas treningu i która część modelu jest zapisywana. W nowoczesnych konfiguracjach treningu rozproszonego wiele procesorów GPU może jednocześnie zapisywać różne części tej samej warstwy, tworząc złożone wzorce I/O. Ta równoległa zdolność zapisu jest kluczem do wydajności, ale wymaga starannej koordynacji i solidnych systemów pamięci masowej, które mogą obsługiwać współbieżne operacje zapisu przy jednoczesnym zachowaniu spójności danych. Wszelkie wąskie gardła w tym procesie mogą prowadzić do szeroko zakrojonych opóźnień w treningu.
Powolne tworzenie punktów kontrolnych może powodować znaczące wąskie gardła w treningu, ponieważ cały proces treningowy musi zostać wstrzymany podczas zapisu punktu kontrolnego do pamięci masowej. Na przykład, w dużej skali konfiguracji treningowej, jeśli tworzenie punktów kontrolnych zajmuje 30 minut co kilka godzin, może to spowodować kilka godzin skumulowanego przestoju w całym okresie treningowym. Bezpośrednio wpływa to na wydajność treningu i zwiększa koszty operacyjne – zwłaszcza w środowiskach chmurowych, gdzie zasoby obliczeniowe są rozliczane godzinowo.
Szybsze tworzenie punktów kontrolnych pozwala również zespołom na częstsze tworzenie punktów kontrolnych, zmniejszając maksymalną potencjalną utratę danych w przypadku awarii. Umożliwia to bardziej agresywne podejścia do treningu i usprawnienie cykli iteracji eksperymentalnych. Ponadto, szybkie czasy ładowania punktów kontrolnych ułatwiają szybsze eksperymentowanie z różnymi konfiguracjami treningowymi i architekturami modeli, ponieważ badacze mogą łatwiej przywracać poprzednie stany, aby testować alternatywne podejścia.
Zdolność systemu pamięci masowej do efektywnego obsługiwania tych operacji tworzenia punktów kontrolnych staje się kluczowym czynnikiem w całej infrastrukturze treningowej. Wysokowydajne rozwiązania pamięci masowej, które mogą zarządzać zarówno impulsowymi wzorcami zapisu podczas tworzenia punktów kontrolnych, jak i ciągłymi operacjami odczytu/zapisu podczas treningu, mogą znacząco skrócić całkowity czas i koszt treningu dużych modeli językowych. W związku z tym charakterystyka wydajności podsystemu pamięci masowej – zwłaszcza jego zdolność do obsługi dużych sekwencyjnych zapisów i utrzymania spójnej wysokiej przepustowości – są kluczowymi czynnikami przy projektowaniu infrastruktury treningowej LLM.
W niniejszym raporcie oceniliśmy wydajność dysków SSD w zakresie tworzenia punktów kontrolnych AI, oceniając korzyści płynące z najnowszych dysków SSD Gen5, gdy szybkość tworzenia punktów kontrolnych jest krytyczna, w porównaniu do największych dysków SSD QLC dostępnych na rynku – które mogą przechowywać ogromną liczbę punktów kontrolnych, jeśli jest to bardziej korzystne dla trenowanego modelu.
Wydajność punktów kontrolnych – testy porównawcze z DLIO
Aby ocenić rzeczywistą wydajność dysków SSD Solidigm w środowiskach treningowych AI, użyliśmy narzędzia do testów porównawczych Data and Learning Input/Output (DLIO). Opracowany przez Argonne National Laboratory, DLIO jest specjalnie zaprojektowany do testowania wzorców I/O w obciążeniach uczenia głębokiego, dostarczając informacji o tym, jak systemy pamięci masowej radzą sobie z tworzeniem punktów kontrolnych, pobieraniem danych i wyzwaniami związanymi z treningiem modeli.

Korzystając z DLIO, dążyliśmy do zmierzenia przepustowości, opóźnień i niezawodności dysku w intensywnych scenariuszach tworzenia punktów kontrolnych. Chociaż testy te przeprowadzono na dysku D5-P5336 o pojemności 61,44 TB, wstępne dane dotyczące wydajności wskazują, że wersja Solidigm D5-P5336 o pojemności 122 TB oferuje podobny profil wydajności. Uwzględniliśmy również wyniki z dysku D7-PS1010 opartego na TLC, aby zademonstrować zalety PCIe Gen5 w tym teście. Wybraliśmy te dwa dyski, aby przedstawić obie perspektywy dotyczące punktów kontrolnych: jedną skupiającą się na najszybszym możliwym czasie tworzenia punktów kontrolnych, a drugą na przechowywaniu maksymalnej liczby punktów kontrolnych na jednym dysku SSD.
Platformą wybraną do tej pracy był nasz Dell PowerEdge R760 z systemem Ubuntu 22.04.02 LTS. Użyliśmy narzędzia DLIO benchmark w wersji 2.0 z wydania z 13 sierpnia 2024 r. Nasza konfiguracja systemu jest przedstawiona poniżej:
- 2 x Intel Xeon Gold 6430 (32 rdzenie, 2,1 GHz)
- 16 x 64 GB DDR5-4400
- 480 GB Dell BOSS SSD
- Kable szeregowe Gen5 JBOF
- 7,68 TB Solidigm D7-PS1010
- 61,44 TB Solidigm D5-P5336
Aby zapewnić, że nasze testy porównawcze odzwierciedlają rzeczywiste scenariusze, oparliśmy nasze testy na architekturze modelu LLAMA 3.1 405B, implementując tworzenie punktów kontrolnych za pomocą torch.save(), aby przechwycić parametry modelu, stany optymalizatora i stany warstw. Nasza konfiguracja symulowała system 8-GPU, implementując hybrydową strategię równoległości z 4-kierunkowym równoległością tensorową i 2-kierunkowym równoległością potokową przetwarzaną na ośmiu procesorach GPU. Ta konfiguracja zaowocowała rozmiarami punktów kontrolnych wynoszącymi 1636 GB, co jest reprezentatywne dla wymagań nowoczesnego treningu dużych modeli językowych.
Nasz proces testowania obciążenia tworzenia punktów kontrolnych DLIO polegał na wypełnieniu każdego dysku do podobnego poziomu wykorzystania. Dla 61,44 TB Solidigm D5-P5336, każda przepustka obejmowała 33 interwały punktów kontrolnych, o łącznej wielkości 54 TB. Mniejszy 7,68 TB D7-PS1010 komfortowo pomieścił trzy interwały punktów kontrolnych, o łącznej powierzchni 4,9 TB. Jeden dodatkowy punkt kontrolny mógł zmieścić się na D7-PS1010, chociaż spowodowałoby to nieco wyższe wykorzystanie niż chcieliśmy.
Obciążenie tworzenia punktów kontrolnych DLIO przyniosło interesujące wyniki, gdy porównaliśmy oparty na QLC dysk Gen4 o pojemności 61,44 TB D5-P5536 z opartym na TLC dyskiem Gen5 o pojemności 7,68 TB D7-PS1010. Podczas pierwszej przepustki, gdy dyski się zapełniały, zaobserwowaliśmy większą różnicę w wydajności między dwoma modelami SSD. Szybszy PS1010 Gen5 ukończył każdy punkt kontrolny średnio w 464 sekundy, w porównaniu do 623 sekund z P5336 Gen4. W drugiej i trzeciej przepustce różnica zmniejszyła się do 579 i 587 sekund dla PS1010 oraz 676 i 680 sekund dla P5336.
Firmy, które chcą uzyskać jak najmniejszą przerwę między interwałami tworzenia punktów kontrolnych, skorzystają z opartego na TLC PS1010 Gen5, który oferuje przewagę w najszybszym czasie ukończenia. Jeśli celem jest ekonomiczne przechowywanie wielu punktów kontrolnych, oparty na QLC P5336 Gen4 może to zapewnić. Zmierzyliśmy różnicę w średnich czasach tworzenia punktów kontrolnych wynoszącą mniej niż 17% między oboma dyskami podczas drugiej i trzeciej przepustki.
Przepustowość GPU Direct Storage
Chociaż DLIO pokazuje wydajność pamięci flash w przepływie pracy AI, obciążenie jest całkowicie oparte na zapisie, dopóki punkt kontrolny nie zostanie przywrócony. Aby uzyskać pełniejszy obraz dysków Solidigm D7-PS1010 i D5-P5336 w obciążeniach AI, uwzględniliśmy pomiary przepustowości odczytu za pomocą GDSIO.
Jak działa GPU Direct Storage
Tradycyjnie, gdy procesor GPU przetwarza dane przechowywane na dysku NVMe, dane muszą najpierw przejść przez procesor CPU i pamięć systemową, zanim dotrą do procesora GPU. Proces ten wprowadza wąskie gardła, ponieważ procesor CPU staje się pośrednikiem, zwiększając opóźnienia i zużywając cenne zasoby systemowe. GPU Direct Storage eliminuje tę nieefektywność, umożliwiając procesorowi GPU bezpośredni dostęp do danych z urządzenia pamięci masowej za pośrednictwem magistrali PCIe. Ta bezpośrednia ścieżka zmniejsza narzut związany z ruchem danych, umożliwiając szybsze i bardziej wydajne transfery danych.
Obciążenia AI, zwłaszcza te związane z uczeniem głębokim, są bardzo intensywne pod względem danych. Trening dużych sieci neuronowych wymaga przetwarzania terabajtów danych, a wszelkie opóźnienia w transferze danych mogą prowadzić do niedostatecznego wykorzystania procesorów GPU i dłuższych czasów treningu. GPU Direct Storage rozwiązuje ten problem, zapewniając, że dane są dostarczane do procesora GPU tak szybko, jak to możliwe, minimalizując czas bezczynności i maksymalizując wydajność obliczeniową.
Podobnie jak w teście DLIO, celem jest lepsze zrozumienie i scharakteryzowanie różnic między szybkimi dyskami SSD Gen5 a dyskami QLC o dużej pojemności. Nie każde obciążenie AI jest takie samo, a każdy dysk oferuje odrębne zalety, w zależności od potrzeb.
Macierz konfiguracji testowej
Systematycznie testowaliśmy każdą kombinację następujących parametrów z kartą NVIDIA L4 na naszej platformie testowej:
- Rozmiary bloków: 1M, 128K, 64K, 16K, 8K
- Liczba wątków: 128, 64, 32, 16, 8, 4, 1
- Liczba zadań: 16
- Rozmiary paczek: 16
Nasze pierwsze spojrzenie dotyczyło opartego na QLC dysku D5-P5336, który osiągnął maksymalnie 4,2 GiB/s przy rozmiarze transferu 1M i głębokości I/O 128. Efekt rozmiarów bloków spowodował znaczący wzrost przepustowości, przechodząc z 8K do 1M. Przewaga zwiększonej głębokości I/O zaczęła się zmniejszać przy 32, gdzie obciążenia zaczęły się stabilizować.
Następnie przyglądamy się opartemu na Gen5 PS-1010, który może skalować się do 6,2 GiB/s przy rozmiarze bloku 1M i głębokości I/O 128. Ogólnie rzecz biorąc, przewyższał on oparty na Gen4 P5336, z konkretnymi obciążeniami wykazującymi znaczący wzrost. Jednym z zauważalnych obszarów poprawy był rozmiar bloku 128K, gdzie przy głębokości I/O 64 i 128, PS1010 oferował dwukrotnie większą przepustowość odczytu niż P5336.
Warto zauważyć, że oba dyski SSD były testowane przy użyciu NVIDIA L4. Chociaż Gen4 D5-P5336 jest na swoim maksymalnym poziomie lub blisko niego, karty NVIDIA GPU wyższej klasy, takie jak H100, wykazały wyższą wydajność z D7-PS1010. Szybkość dysku jest ostatecznym czynnikiem decydującym dla niektórych klientów, podczas gdy inni priorytetowo traktują ogólną gęstość.Solidigm oferuje rozwiązania dla obu, dzięki swoim ofertom dysków SSD QLC i TLC.
Wnioski
W miarę jak skala i złożoność treningu AI stale rosną, podstawowa infrastruktura pamięci masowej musi nie tylko nadążać, ale także wyznaczać tempo. Nasze testy z dwoma wyraźnie różnymi dyskami SSD podkreślają znaczenie dopasowania rozwiązań pamięci masowej do konkretnych priorytetów treningowych – niezależnie od tego, czy oznacza to minimalizację opóźnień w tworzeniu punktów kontrolnych, czy maksymalizację gęstości punktów kontrolnych dla opłacalnej skalowalności.
W naszej ocenie przetestowaliśmy dyski Solidigm D5-P5336 (61,44 TB) i D7-PS1010 (7,68 TB) w realistycznych warunkach treningu AI, wykorzystując benchmark DLIO i rozbudowany przepływ pracy tworzenia punktów kontrolnych LLM z hybrydową równoległością. Zebraliśmy metryki odzwierciedlające wydajność zapisu punktów kontrolnych w wielu przebiegach testowych w miarę zapełniania się dysków, podkreślając różnice w wydajności czasów ukończenia między opartym na QLC dyskiem Gen4 D5-P5336 a opartym na TLC dyskiem Gen5 D7-PS1010.

Podczas gdy D7-PS1010 zapewniał najszybsze możliwe zapisy punktów kontrolnych, D5-P5336 wykazywał przekonujące zalety pod względem opłacalności i pojemności, z jedynie niewielkim kompromisem w wydajności. Dodatkowo zbadaliśmy przepustowość odczytu GPU Direct Storage (GDS) za pomocą GDSIO z procesorem GPU NVIDIA L4. Nasze wyniki pokazały, że Solidigm D5-P5336 zapewniał przepustowość odczytu do 4,2 GiB/s przy rozmiarze transferu 1M, podczas gdy D7-PS1010 zapewniał znaczący wzrost do 6,2 GiB/s. Wydajność byłaby jeszcze bardziej imponująca przy wykorzystaniu mocniejszego procesora GPU, takiego jak NVIDIA L40s lub H100/H200.
Patrząc w przyszłość, bezprecedensowa pojemność dysku SSD Solidigm D5-P5336 o pojemności 122 TB ma potencjał do przekształcenia treningu i wdrażania AI. W miarę wzrostu rozmiarów modeli i wymagań dotyczących tworzenia punktów kontrolnych, te dyski o dużej pojemności odblokowują nowe poziomy wydajności i elastyczności, umożliwiając strategie treningowe, które były wcześniej nieosiągalne. Liderstwo Solidigm w rozwiązaniach SSD o dużej pojemności umożliwia organizacjom przechowywanie większej ilości danych i punktów kontrolnych na mniejszej liczbie dysków, jednocześnie pomagając w przyszłościowym zabezpieczeniu ich infrastruktury przed kolejną falą złożoności AI.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storagesserver.com
Fokus biznesowy:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT, współpracujemy z wiodącymi globalnymi markami, dostarczając niezawodne produkty i profesjonalne usługi.
„Wykorzystując technologię do budowania inteligentnego świata” Twój zaufany dostawca usług produktów ICT!