logo
Dom Przypadki

Recenzja klastra NVIDIA DGX Spark: wnioskowanie rozproszone w firmach Dell, GIGABYTE i HP

Orzecznictwo
Chiny Beijing Qianxing Jietong Technology Co., Ltd. Certyfikaty
Chiny Beijing Qianxing Jietong Technology Co., Ltd. Certyfikaty
Opinie klientów
Pracownicy sprzedaży Beijing Qianxing Jietong Technology Co., Ltd są bardzo profesjonalni i cierpliwi. Mogą szybko dostarczyć wyceny. Jakość i opakowanie produktów są również bardzo dobre. Nasza współpraca przebiega bardzo sprawnie.

—— 《Festfing DV》LLC

Kiedy pilnie szukałem procesora Intel i dysku SSD firmy Toshiba, Sandy z Beijing Qianxing Jietong Technology Co., Ltd udzieliła mi dużej pomocy i szybko dostarczyła mi potrzebne produkty. Naprawdę ją doceniam.

—— Kitty Jen

Sandy z Beijing Qianxing Jietong Technology Co.,Ltd jest bardzo uważnym sprzedawcą, który przy zakupie serwera potrafi przypomnieć mi o błędach konfiguracyjnych. Inżynierowie są również bardzo profesjonalni i mogą szybko zakończyć proces testowania.

—— Strelkin Michaił Władimirowicz

Jesteśmy bardzo zadowoleni z naszej współpracy z firmą Beijing Qianxing Jietong. Jakość produktu jest doskonała, a dostawy zawsze na czas. Ich zespół sprzedaży jest profesjonalny, cierpliwy i bardzo pomocny we wszystkich naszych pytaniach. Naprawdę doceniamy ich wsparcie i oczekujemy długoterminowej współpracy. Gorąco polecamy!

—— Ahmad Navid

Jakość: “Wielkie doświadczenie z moim dostawcą. MikroTik RB3011 był już używany, ale był w bardzo dobrym stanie i wszystko działa doskonale.i wszystkie moje obawy zostały szybko rozwiązaneBardzo niezawodny dostawca.

—— Geran Colesio

Im Online Czat teraz

Recenzja klastra NVIDIA DGX Spark: wnioskowanie rozproszone w firmach Dell, GIGABYTE i HP

May 15, 2026
Dwie definiujące cechy wyróżniają kartę NVIDIA DGX Spark: 128 GB zunifikowanej pamięci w jednostce stacjonarnej o wartości 4000 USD oraz wbudowana sieć klasy 200 Gb dla centrów danych. Szybka struktura odróżnia ją od zwykłych stacji roboczych, umożliwiając klastrowanie wielu węzłów, niegdyś dostępne wyłącznie dla serwerów montowanych w szafie. W tej recenzji porównano rozproszone wnioskowanie w wariantach Dell, GIGABYTE i HP Spark w dwuwęzłowych klastrach 200GbE w różnych modelach i obciążeniach. Analizuje także równoległość potoku (PP), alternatywną metodę podziału, która przewyższa domyślną równoległość tensorową (TP) firmy NVIDIA.

najnowsza sprawa firmy na temat Recenzja klastra NVIDIA DGX Spark: wnioskowanie rozproszone w firmach Dell, GIGABYTE i HP  0

Sieć szkieletowa 200 Gb


Każdy Spark jest wyposażony w dwie klatki QSFP56 sparowane ze zintegrowaną kartą ConnectX-7 SmartNIC. Ograniczona przepustowością PCIe Gen5 x4, użyteczna prędkość sieci jest ograniczona do 200 Gb, z jednym portem wystarczającym do obsługi pełnej przepustowości; drugi port zapewnia elastyczność topologii. Dostępne są trzy popularne konfiguracje: bezpośrednie łącza Spark-to-Spark 200 Gb, topologia pierścieniowa bez przełączników za pośrednictwem dwóch portów 100 Gb oraz klaster hybrydowy z szybkim dostępem do pamięci masowej NVMe-oF. NVIDIA sprzedaje jednojednostkowe komputery stacjonarne, sprawdzone klastry dwuwęzłowe i nowo wprowadzone konfiguracje czterowęzłowe. Konfiguracja z podwójną iskrą jest najbardziej praktyczna pod względem wnioskowania w stylu produkcyjnym i jest przedmiotem tego testu.

najnowsza sprawa firmy na temat Recenzja klastra NVIDIA DGX Spark: wnioskowanie rozproszone w firmach Dell, GIGABYTE i HP  1

Uzasadnienie klastrowania Spark


Podstawową korzyścią jest zwiększenie pojemności modelu: dwie połączone platformy Spark mogą uruchamiać modele o parametrach 120B, które przekraczają limity pamięci pojedynczej jednostki. Co ważniejsze, platforma służy jako niedrogie narzędzie edukacyjne. NVIDIA projektuje Sparka dla początkujących, aby mogli uczyć się przepływów pracy AI, korzystając z oficjalnych przewodników obejmujących wdrażanie modeli, dostrajanie i rozwój PyTorch/JAX. Klastry dwuwęzłowe dodatkowo uczą równoległości wielu węzłów i analizy wąskich gardeł sieci bez kosztownego sprzętu w centrum danych. Warto zauważyć, że Spark nie jest zoptymalizowany pod kątem wnioskowania produkcyjnego. Ograniczone przepustowością pamięci i opóźnieniami między węzłami, łącze 200 GbE jest wolniejsze niż wewnętrzne połączenia PCIe. Większe klastry charakteryzują się poważnym spadkiem wydajności i niską przepustowością tokenów, co ogranicza je do celów edukacyjnych, a nie komercyjnych.

Testowanie wydajności: PP vs TP


Wybór strategii równoległości


NVIDIA domyślnie korzysta z protokołu TP, który dzieli każdą warstwę transformatora na dwa procesory graficzne z częstą wymianą danych typu all-reduce. Natomiast PP dzieli modele według warstw, przenosząc aktywacje tylko raz pomiędzy węzłami. W przypadku łączy 200GbE PP minimalizuje komunikację między węzłami. W przypadku dużych modeli i dużych partii PP znacznie przewyższa TP; Firma TP przoduje jedynie w scenariuszach czatu z jednym żądaniem i niskim opóźnieniem.
Testy przeprowadzone na GPT-OSS-120B potwierdzają tę lukę. Przy wielkości partii 128 PP osiąga 554,69 tok/s (2,20 razy szybciej niż TP) przy zrównoważonych obciążeniach, 310,63 tok/s w porównaniu do 164,99 tok/s w zadaniach wymagających dużego wstępnego wypełnienia. TP prowadzi tylko w partii o wielkości 1. W przypadku małych modeli, takich jak Llama-3.1-8B, TP dominuje w większości wielkości partii ze względu na obliczenia lekkich warstw, przy czym PP wyprzedza TP jedynie przy dużej współbieżności.

Wyniki testów porównawczych wielu modeli (PP=2)


Seria GPT-OSS


W przypadku GPT-OSS-120B, HP osiągnął najwyższą szczytową przepustowość przy obciążeniach zrównoważonych (504,88 tok/s) i dużych obciążeniach wstępnych (441,63 tok/s); Testy GIGABYTE doprowadziły do ​​​​ciężkiego dekodowania (494,37 tok/s). W przypadku GPT-OSS-20B Dell dominował w scenariuszach zrównoważonych (976,77 tok/s) i wymagających wstępnego wypełnienia (852,39 tok/s), podczas gdy GIGABYTE prowadził zadania dekodowania (945,55 tok/s).

Warianty Lamy 3.1 8B


Przy precyzji BF16 firma Dell przeprowadziła zrównoważone (689,53 tok/s) i wymagające dużego dekodowania (581,43 tok/s) obciążenia; GIGABYTE wygrał testy wymagające wstępnego wypełnienia (539,27 tok/s). Optymalizacja 4PR znacznie zwiększyła przepustowość: zadania GIGABYTE LED zrównoważone (1458,86 tok/s) i wymagające wstępnego napełniania (954,23 tok/s). W przypadku 8PR firma Dell utrzymała niewielką przewagę w scenariuszach zrównoważonych (1105,42 tok/s) i wymagających dużego dekodowania (862,33 tok/s).

Modele Mistral i Qwen


Mistral Small 3.1 24B odnotował minimalne luki: GIGABYTE osiągnął szczyt przy 255,09 tok/s przy zrównoważonym obciążeniu. W przypadku Qwen3 Coder 30B (baza A3B) GIGABYTE prowadził zadania wymagające wstępnego wypełnienia (1862,40 tok/s); Firma Dell przodowała w scenariuszach dekodowania. W przypadku kwantyzacji FB8, GIGABYTE osiągnął najwyższą przepustowość przy dużym obciążeniu przed napełnieniem (3088,62 tok/s), podczas gdy Dell kierował zadaniami dekodowania (705,77 tok/s).

Podsumowanie mocy szczytowej systemów Dual Spark


Model
Scenariusz (BS – 64)
Szczytowa wydajność firmy Dell
Szczytowa moc wyjściowa GIGABYTE
Szczytowa moc wyjściowa HP
GPT-OSS-120B
Równy ISL/OSL
463,97 tok/s
497,26 tok/s
504,88 tok/s
GPT-OSS-120B
Wstępnie napełnij Ciężki
419,56 tok/s
417,34 tok/s
441,63 tok/s
GPT-OSS-120B
Odszyfruj Gruby
451,18 tok/s
494,37 tok/s
474,85 tok/s
GPT-OSS-20B
Równy ISL/OSL
976,77 tok/s
952,31 tok/s
915,72 tok/s
GPT-OSS-20B
Wstępnie napełnij Ciężki
852,39 tok/s
802,37 tok/s
757,05 tok/s
GPT-OSS-20B
Odszyfruj Gruby
938,65 tok/s
945,55 tok/s
865,78 tok/s
Lama-3.1-8B-Instruktaż
Równy ISL/OSL
689,53 tok/s
687,48 tok/s
618,87 tok/s
Lama-3.1-8B-Instruktaż
Wstępnie napełnij Ciężki
515,45 tok/s
539,27 tok/s
463,39 tok/s
Lama-3.1-8B-Instruktaż
Odszyfruj Gruby
581,43 tok/s
576,91 tok/s
531,07 tok/s
Lama-3.1-8B-FP4
Równy ISL/OSL
1427,39 tok/s
1458,86 tok/s
1413,51 tok/s
Lama-3.1-8B-FP4
Wstępnie napełnij Ciężki
884,22 tok/s
954,23 tok/s
843,57 tok/s
Lama-3.1-8B-FP4
Odszyfruj Gruby
1008,98 tok/s
1007,23 tok/s
943,73 tok/s
Lama-3.1-8B-FP8
Równy ISL/OSL
1105,42 tok/s
1089,85 tok/s
1076,68 tok/s
Lama-3.1-8B-FP8
Wstępnie napełnij Ciężki
759,50 tok/s
827,40 tok/s
725,51 tok/s
Lama-3.1-8B-FP8
Odszyfruj Gruby
862,33 tok/s
855,81 tok/s
800,78 tok/s
Mistral-Mały-3.1-24B
Równy ISL/OSL
249,77 tok/s
255,09 tok/s
239,09 tok/s
Mistral-Mały-3.1-24B
Wstępnie napełnij Ciężki
216,01 tok/s
214,38 tok/s
197,92 tok/s
Mistral-Mały-3.1-24B
Odszyfruj Gruby
238,44 tok/s
237,97 tok/s
221,41 tok/s


Wniosek


Jednostki Dell, GIGABYTE i HP Spark charakteryzują się znikomymi różnicami w wydajności, z niewielkimi wyprzedzeniami specyficznymi dla partii. W decyzjach o zakupie należy priorytetowo traktować konstrukcję obudowy, wydajność cieplną, gwarancję i wsparcie posprzedażowe, a nie trywialne różnice w benchmarkach. Strategia równoległości wywiera znacznie większy wpływ niż odmiany OEM: PP przewyższa TP w przypadku wnioskowania wsadowego, podczas gdy TP nadaje się do interakcji w pojedynczym strumieniu z niskim opóźnieniem. Zalecenie NVIDIA dotyczące TP jest zgodne z pozycjonowaniem Sparka jako interaktywnego urządzenia do nauki, a nie infrastruktury produkcyjnej. Dwuwęzłowy klaster Spark służy jako niedroga platforma dydaktyczna dla rozproszonej sztucznej inteligencji. Przyszłe testy obejmą większe klastry i kompleksowe szkolenie na temat małych modeli w oczekiwaniu na wdrożenie przełącznika 800 Gb w laboratorium.

Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang/dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
E-mail: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storageserver.com
Koncentracja biznesowa:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami, aby dostarczać niezawodne produkty i profesjonalne usługi.
„Wykorzystanie technologii do budowy inteligentnego świata”Twój zaufany dostawca usług produktów ICT!
Szczegóły kontaktu
Beijing Qianxing Jietong Technology Co., Ltd.

Osoba kontaktowa: Ms. Sandy Yang

Tel: 13426366826

Wyślij zapytanie bezpośrednio do nas (0 / 3000)