Dom Przypadki

AMD Instinct MI355X osiąga wyniki MLPerf Inference v6.0 z ponad 1 milionem tokenów na sekundę i obsługuje skalowalny ROC

Wszystkie produkty

Serwer pamięci masowej w szafie
(179)

Serwer Huawei Fusion
(31)

Serwer Dell Poweredge
(59)

Serwer H3C
(31)

Przełączniki Datacom
(96)

Urządzenie WLAN
(21)

Inteligentny router bezprzewodowy
(17)

Dysk twardy HDD
(78)

Wewnętrzny dysk twardy SSD
(16)

Karta graficzna GeForce
(27)

Procesor procesora INTEL
(20)

Pamięć RAM serwera
(6)

Odnowiony serwer pamięci masowej
(6)

Moduł nadawczo-odbiorczy SFP
(4)

przełącznik kanału światłowodowego
(125)

Orzecznictwo

Chiny Beijing Qianxing Jietong Technology Co., Ltd. Certyfikaty

Opinie klientów

Pracownicy sprzedaży Beijing Qianxing Jietong Technology Co., Ltd są bardzo profesjonalni i cierpliwi. Mogą szybko dostarczyć wyceny. Jakość i opakowanie produktów są również bardzo dobre. Nasza współpraca przebiega bardzo sprawnie.

—— 《Festfing DV》LLC

Kiedy pilnie szukałem procesora Intel i dysku SSD firmy Toshiba, Sandy z Beijing Qianxing Jietong Technology Co., Ltd udzieliła mi dużej pomocy i szybko dostarczyła mi potrzebne produkty. Naprawdę ją doceniam.

—— Kitty Jen

Sandy z Beijing Qianxing Jietong Technology Co.,Ltd jest bardzo uważnym sprzedawcą, który przy zakupie serwera potrafi przypomnieć mi o błędach konfiguracyjnych. Inżynierowie są również bardzo profesjonalni i mogą szybko zakończyć proces testowania.

—— Strelkin Michaił Władimirowicz

Jesteśmy bardzo zadowoleni z naszej współpracy z firmą Beijing Qianxing Jietong. Jakość produktu jest doskonała, a dostawy zawsze na czas. Ich zespół sprzedaży jest profesjonalny, cierpliwy i bardzo pomocny we wszystkich naszych pytaniach. Naprawdę doceniamy ich wsparcie i oczekujemy długoterminowej współpracy. Gorąco polecamy!

—— Ahmad Navid

Jakość: Wielkie doświadczenie z moim dostawcą. MikroTik RB3011 był już używany, ale był w bardzo dobrym stanie i wszystko działa doskonale.i wszystkie moje obawy zostały szybko rozwiązaneBardzo niezawodny dostawca.

—— Geran Colesio

Im Online Czat teraz

AMD Instinct MI355X osiąga wyniki MLPerf Inference v6.0 z ponad 1 milionem tokenów na sekundę i obsługuje skalowalny ROC

April 15, 2026

AMD ogłosiło wyniki testów porównawczych MLPerf Inference v6.0, pozycjonując kartę graficzną Instinct MI355X jako wysoce skalowalną platformę wnioskowania, zdolną do obsługi wdrożeń jedno-, wielowęzłowych i heterogenicznych. Oprócz stopniowych wzrostów wydajności, zgłoszenie wprowadza nowe obciążenia, demonstruje przepustowość w skali klastra przekraczającą 1 milion tokenów na sekundę i potwierdza spójną powtarzalność wyników w rozszerzającym się ekosystemie partnerów.

Architektura CDNA 4 Celuje w Wnioskowanie o Wysokiej Pojemności

Instinct MI355X jest zbudowany na architekturze CDNA 4 firmy AMD, wykorzystując dwuprocesowy projekt chipletów TSMC: rdzenie obliczeniowe (XCD) wykorzystują węzeł 3 nm, podczas gdy rdzenie I/O wykorzystują technologię FinFET 6 nm. Wielochipletowy pakiet integruje 185 miliardów tranzystorów i obsługuje formaty danych FP4 i FP6 — kluczowe dla wydajnego wnioskowania na dużych modelach. Każda karta graficzna jest wyposażona w maksymalnie 288 GB pamięci HBM3E (zapewniającej przepustowość pamięci 8 TB/s), co umożliwia obsługę modeli z maksymalnie 520 miliardami parametrów na jednym urządzeniu. AMD podkreśla, że to połączenie gęstości obliczeniowej i pojemności pamięci eliminuje potrzebę nadmiernego partycjonowania modeli, co jest kluczową zaletą w przypadku obciążeń wnioskowania na dużą skalę.

Dostępna w konfiguracjach UBB8, platforma oferuje opcje chłodzenia powietrzem i bezpośredniego chłodzenia cieczą, zgodnie z różnymi wymaganiami wdrożeń w centrach danych. Warto zauważyć, że MI355X ma 1400 W TBP (Thermal Design Power) z chłodzeniem cieczą, zapewniając wyższą wydajność niż jego odpowiednik chłodzony powietrzem, MI350X.

Przepustowość Wielowęzłowa Przekracza 1 Milion Tokenów na Sekundę

Wybitnym osiągnięciem z rundy MLPerf v6.0 jest przepustowość w skali klastra AMD przekraczająca 1 milion tokenów na sekundę. Używając kart graficznych Instinct MI355X, AMD osiągnęło ten kamień milowy z Llama 2 70B zarówno w scenariuszach Server, jak i Offline, a także z GPT-OSS-120B w trybie Offline.

Grafika AMD MLPerf 1M tokenów na sekundę

Wyniki te odzwierciedlają rosnący trend w branży w kierunku oceny wydajności wnioskowania na poziomie klastra, a nie na pojedynczym akceleratorze. Zagregowana przepustowość i czas odpowiedzi stały się głównymi metrykami określającymi gotowość produkcyjną we wdrożeniach AI na dużą skalę.

AMD zademonstrowało również wyjątkową efektywność skalowania. W przypadku Llama 2 70B, konfiguracja 11-węzłowa, 87-GPU osiągnęła ponad 1 milion tokenów na sekundę we wszystkich scenariuszach: Offline, Server i Interactive, z wydajnością skalowania w zakresie od 93% do 98%. W przypadku GPT-OSS-120B, klaster 12-węzłowy, 94-GPU zapewnił podobną przepustowość z ponad 90% wydajnością skalowania — udowadniając, że wydajność skutecznie przekłada się na rozszerzanie wdrożeń poza pojedynczy system.

Generacyjne Zyski i Konkurencyjna Wydajność Jednowęzłowa

AMD zgłosiło znaczące ulepszenia generacyjne, a Instinct MI355X zapewnił 3,1-krotnie lepszą wydajność w Llama 2 70B Server w porównaniu do poprzedniej generacji Instinct MI325X, osiągając 100 282 tokenów na sekundę. Ta poprawa wynika zarówno z ulepszeń architektury CDNA 4, jak i optymalizacji oprogramowania ROCm. Wyniki Offline poprawiły się 4,4-krotnie, a wyniki Server 4,8-krotnie w porównaniu do poprzednich rund MLPerf, głównie dzięki kwantyzacji FP4 — kluczowej funkcji MI355X, która odblokowuje wyższą przepustowość dla obciążeń AI.

Grafika wyników wnioskowania AMD w porównaniu do poprzedniej generacji

W porównaniach jednowęzłowych z platformami NVIDIA, MI355X wykazał silną konkurencyjność. W przypadku Llama 2 70B, dorównał NVIDIA B200 pod względem przepustowości Offline, osiągnął niemal równość w wydajności Server i przewyższył go w trybie Interactive. W porównaniu do NVIDIA B300, MI355X zapewnił 92% wydajności Offline, 93% wydajności Server i przewyższył go o 4% w trybie Interactive. Warto zauważyć, że MI355X oferuje również lepszą efektywność kosztową, dostarczając o 40% więcej tokenów na dolara w porównaniu do NVIDIA B200.

Pierwsze Włączenie Modelu Rozszerza Zakres

MLPerf Inference v6.0 wprowadziło kilka nowych obciążeń, a AMD wykorzystało tę rundę do zademonstrowania szybkiego włączania modeli. GPT-OSS-120B, model typu mixture-of-experts, zadebiutował w MLPerf z MI355X, osiągając konkurencyjne wyniki w porównaniu do systemów NVIDIA zarówno w scenariuszach Offline, jak i Server.

AMD przedstawiło również wyniki dla generowania tekstu na wideo Wan-2.2, zaznaczając swój debiut w multimodalnym wnioskowaniu wideo i generowaniu wideo. Chociaż oficjalne zgłoszenie skupiało się na opóźnieniu Single Stream, wyniki były porównywalne z istniejącymi platformami. Dostrajanie po zgłoszeniu dodatkowo poprawiło wydajność, wskazując na możliwości optymalizacji w miarę dojrzewania stosu oprogramowania.

Te dodatki podkreślają zaangażowanie AMD w rozszerzanie działalności poza tradycyjne benchmarki LLM w celu wspierania powstających obciążeń AI w różnorodnych zastosowaniach.

Oprogramowanie ROCm Umożliwia Skalowanie i Wnioskowanie Heterogeniczne

AMD przypisuje dużą część wydajności i skalowalności MI355X swojemu stosowi oprogramowania ROCm. Kluczowe ulepszenia obejmują zoptymalizowane wykonanie FP4, ulepszoną komunikację GPU-GPU dla wnioskowania rozproszonego i obsługę dynamicznego rozkładu obciążeń w środowiskach heterogenicznych — kluczowe dla wdrożeń z mieszanymi GPU.

Grafika wyników wnioskowania AMD MLPerf Instinct MI355X

Kamieniem milowym w zgłoszeniu heterogenicznym — opracowanym przez Dell i MangoBoost — wykorzystano trzy modele kart graficznych AMD Instinct: MI300X, MI325X i MI355X. Ta konfiguracja osiągnęła 141 521 tokenów na sekundę w Llama 2 70B Server i 151 843 tokenów na sekundę w Llama 2 70B Offline. Warto zauważyć, że platforma MI355X znajdowała się w laboratorium Dell w USA, podczas gdy systemy MI300X i MI325X znajdowały się w Korei — demonstrując zdolność do koordynowania rozproszonych systemów w lokalizacjach geograficznych.

Wzrost Ekosystemu i Powtarzalność

Ekosystem partnerów AMD znacznie się rozszerzył w tej rundzie MLPerf, a dziewięć firm przedstawiło wyniki dla wielu generacji kart graficznych Instinct. Uczestniczący dostawcy to Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro i Red Hat — odzwierciedlając szerokie przyjęcie rozwiązań wnioskowania AMD w branży.

Zgłoszenia partnerów były ściśle zgodne z wewnętrznymi wynikami AMD, zazwyczaj w granicach 4%, a w niektórych przypadkach w granicach 1%. Ta spójność potwierdza, że wydajność MI355X jest powtarzalna na platformach OEM i chmurowych, zmniejszając ryzyko wdrożenia i zwiększając pewność co do rzeczywistych wyników wydajności.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Fokus Biznesowy:
Dystrybucja Produktów ICT/Integracja Systemów i Usługi/Rozwiązania Infrastrukturalne
Z ponad 20-letnim doświadczeniem w dystrybucji IT, współpracujemy z wiodącymi globalnymi markami, dostarczając niezawodne produkty i profesjonalne usługi.
„Wykorzystując technologię do budowania inteligentnego świata” Twój Niezawodny Dostawca Usług Produktów ICT!

PREV: VDURA wprowadza RDMA i kontekstowo świadome stopniowanie dla platform danych sztucznej inteligencji na GTC 2026

NEXT: Supermicro zaprezentowało trzy nowe systemy sztucznej inteligencji oparte na AMD EPYC 4005

Szczegóły kontaktu

Beijing Qianxing Jietong Technology Co., Ltd.

Osoba kontaktowa: Ms. Sandy Yang

Tel: 13426366826

AMD Instinct MI355X osiąga wyniki MLPerf Inference v6.0 z ponad 1 milionem tokenów na sekundę i obsługuje skalowalny ROC

Serwer pamięci masowej w szafie

Serwer Huawei Fusion

Serwer Dell Poweredge

Serwer H3C

Przełączniki Datacom

Urządzenie WLAN

Inteligentny router bezprzewodowy

Dysk twardy HDD

Wewnętrzny dysk twardy SSD

Karta graficzna GeForce

Procesor procesora INTEL

Pamięć RAM serwera

Odnowiony serwer pamięci masowej

Moduł nadawczo-odbiorczy SFP

przełącznik kanału światłowodowego

AMD Instinct MI355X osiąga wyniki MLPerf Inference v6.0 z ponad 1 milionem tokenów na sekundę i obsługuje skalowalny ROC

Architektura CDNA 4 Celuje w Wnioskowanie o Wysokiej Pojemności

Przepustowość Wielowęzłowa Przekracza 1 Milion Tokenów na Sekundę

Generacyjne Zyski i Konkurencyjna Wydajność Jednowęzłowa

Pierwsze Włączenie Modelu Rozszerza Zakres

Oprogramowanie ROCm Umożliwia Skalowanie i Wnioskowanie Heterogeniczne

Wzrost Ekosystemu i Powtarzalność

Serwer pamięci masowej w szafie

12 wnęk Serwer do montażu w szafie serwerowej 1U Lenovo ThinkSystem SR630 Serwer do montażu w szafie serwerowej

Think System SR250 V2 4SFF Rack Storage Server Procesor Intel Xeon E-2378G

Serwer pamięci masowej Intel C621A do montażu w szafie serwerowej Inspur NF5180M6 1U do montażu w szafie serwerowej

Serwer Huawei Fusion

FusionServer 5288 V6 4U serwer do montażu w szafie serwerowej 32 moduły DIMM DDR4 44 3,5-calowe dyski twarde

Sieciowy serwer pamięci masowej o ultra wysokiej gęstości Huawei Fusion Server 1U 1288H V5

Nowa generacja OceanStor 5310 Hybrydowa pamięć flash do serwerów stelażowych Huawei