logo
Dom Przypadki

AMD Instinct MI355X osiąga wyniki MLPerf Inference v6.0 z ponad 1 milionem tokenów na sekundę i obsługuje skalowalny ROC

Orzecznictwo
Chiny Beijing Qianxing Jietong Technology Co., Ltd. Certyfikaty
Chiny Beijing Qianxing Jietong Technology Co., Ltd. Certyfikaty
Opinie klientów
Pracownicy sprzedaży Beijing Qianxing Jietong Technology Co., Ltd są bardzo profesjonalni i cierpliwi. Mogą szybko dostarczyć wyceny. Jakość i opakowanie produktów są również bardzo dobre. Nasza współpraca przebiega bardzo sprawnie.

—— 《Festfing DV》LLC

Kiedy pilnie szukałem procesora Intel i dysku SSD firmy Toshiba, Sandy z Beijing Qianxing Jietong Technology Co., Ltd udzieliła mi dużej pomocy i szybko dostarczyła mi potrzebne produkty. Naprawdę ją doceniam.

—— Kitty Jen

Sandy z Beijing Qianxing Jietong Technology Co.,Ltd jest bardzo uważnym sprzedawcą, który przy zakupie serwera potrafi przypomnieć mi o błędach konfiguracyjnych. Inżynierowie są również bardzo profesjonalni i mogą szybko zakończyć proces testowania.

—— Strelkin Michaił Władimirowicz

Jesteśmy bardzo zadowoleni z naszej współpracy z firmą Beijing Qianxing Jietong. Jakość produktu jest doskonała, a dostawy zawsze na czas. Ich zespół sprzedaży jest profesjonalny, cierpliwy i bardzo pomocny we wszystkich naszych pytaniach. Naprawdę doceniamy ich wsparcie i oczekujemy długoterminowej współpracy. Gorąco polecamy!

—— Ahmad Navid

Jakość: “Wielkie doświadczenie z moim dostawcą. MikroTik RB3011 był już używany, ale był w bardzo dobrym stanie i wszystko działa doskonale.i wszystkie moje obawy zostały szybko rozwiązaneBardzo niezawodny dostawca.

—— Geran Colesio

Im Online Czat teraz

AMD Instinct MI355X osiąga wyniki MLPerf Inference v6.0 z ponad 1 milionem tokenów na sekundę i obsługuje skalowalny ROC

April 15, 2026
AMD ogłosiło wyniki testów porównawczych MLPerf Inference v6.0, pozycjonując kartę graficzną Instinct MI355X jako wysoce skalowalną platformę wnioskowania, zdolną do obsługi wdrożeń jedno-, wielowęzłowych i heterogenicznych. Oprócz stopniowych wzrostów wydajności, zgłoszenie wprowadza nowe obciążenia, demonstruje przepustowość w skali klastra przekraczającą 1 milion tokenów na sekundę i potwierdza spójną powtarzalność wyników w rozszerzającym się ekosystemie partnerów.

Architektura CDNA 4 Celuje w Wnioskowanie o Wysokiej Pojemności


Instinct MI355X jest zbudowany na architekturze CDNA 4 firmy AMD, wykorzystując dwuprocesowy projekt chipletów TSMC: rdzenie obliczeniowe (XCD) wykorzystują węzeł 3 nm, podczas gdy rdzenie I/O wykorzystują technologię FinFET 6 nm. Wielochipletowy pakiet integruje 185 miliardów tranzystorów i obsługuje formaty danych FP4 i FP6 — kluczowe dla wydajnego wnioskowania na dużych modelach. Każda karta graficzna jest wyposażona w maksymalnie 288 GB pamięci HBM3E (zapewniającej przepustowość pamięci 8 TB/s), co umożliwia obsługę modeli z maksymalnie 520 miliardami parametrów na jednym urządzeniu. AMD podkreśla, że to połączenie gęstości obliczeniowej i pojemności pamięci eliminuje potrzebę nadmiernego partycjonowania modeli, co jest kluczową zaletą w przypadku obciążeń wnioskowania na dużą skalę.

Dostępna w konfiguracjach UBB8, platforma oferuje opcje chłodzenia powietrzem i bezpośredniego chłodzenia cieczą, zgodnie z różnymi wymaganiami wdrożeń w centrach danych. Warto zauważyć, że MI355X ma 1400 W TBP (Thermal Design Power) z chłodzeniem cieczą, zapewniając wyższą wydajność niż jego odpowiednik chłodzony powietrzem, MI350X.

Przepustowość Wielowęzłowa Przekracza 1 Milion Tokenów na Sekundę


Wybitnym osiągnięciem z rundy MLPerf v6.0 jest przepustowość w skali klastra AMD przekraczająca 1 milion tokenów na sekundę. Używając kart graficznych Instinct MI355X, AMD osiągnęło ten kamień milowy z Llama 2 70B zarówno w scenariuszach Server, jak i Offline, a także z GPT-OSS-120B w trybie Offline.

najnowsza sprawa firmy na temat AMD Instinct MI355X osiąga wyniki MLPerf Inference v6.0 z ponad 1 milionem tokenów na sekundę i obsługuje skalowalny ROC  0

Grafika AMD MLPerf 1M tokenów na sekundę

Wyniki te odzwierciedlają rosnący trend w branży w kierunku oceny wydajności wnioskowania na poziomie klastra, a nie na pojedynczym akceleratorze. Zagregowana przepustowość i czas odpowiedzi stały się głównymi metrykami określającymi gotowość produkcyjną we wdrożeniach AI na dużą skalę.

AMD zademonstrowało również wyjątkową efektywność skalowania. W przypadku Llama 2 70B, konfiguracja 11-węzłowa, 87-GPU osiągnęła ponad 1 milion tokenów na sekundę we wszystkich scenariuszach: Offline, Server i Interactive, z wydajnością skalowania w zakresie od 93% do 98%. W przypadku GPT-OSS-120B, klaster 12-węzłowy, 94-GPU zapewnił podobną przepustowość z ponad 90% wydajnością skalowania — udowadniając, że wydajność skutecznie przekłada się na rozszerzanie wdrożeń poza pojedynczy system.

Generacyjne Zyski i Konkurencyjna Wydajność Jednowęzłowa


AMD zgłosiło znaczące ulepszenia generacyjne, a Instinct MI355X zapewnił 3,1-krotnie lepszą wydajność w Llama 2 70B Server w porównaniu do poprzedniej generacji Instinct MI325X, osiągając 100 282 tokenów na sekundę. Ta poprawa wynika zarówno z ulepszeń architektury CDNA 4, jak i optymalizacji oprogramowania ROCm. Wyniki Offline poprawiły się 4,4-krotnie, a wyniki Server 4,8-krotnie w porównaniu do poprzednich rund MLPerf, głównie dzięki kwantyzacji FP4 — kluczowej funkcji MI355X, która odblokowuje wyższą przepustowość dla obciążeń AI.

Grafika wyników wnioskowania AMD w porównaniu do poprzedniej generacji

W porównaniach jednowęzłowych z platformami NVIDIA, MI355X wykazał silną konkurencyjność. W przypadku Llama 2 70B, dorównał NVIDIA B200 pod względem przepustowości Offline, osiągnął niemal równość w wydajności Server i przewyższył go w trybie Interactive. W porównaniu do NVIDIA B300, MI355X zapewnił 92% wydajności Offline, 93% wydajności Server i przewyższył go o 4% w trybie Interactive. Warto zauważyć, że MI355X oferuje również lepszą efektywność kosztową, dostarczając o 40% więcej tokenów na dolara w porównaniu do NVIDIA B200.

Pierwsze Włączenie Modelu Rozszerza Zakres


MLPerf Inference v6.0 wprowadziło kilka nowych obciążeń, a AMD wykorzystało tę rundę do zademonstrowania szybkiego włączania modeli. GPT-OSS-120B, model typu mixture-of-experts, zadebiutował w MLPerf z MI355X, osiągając konkurencyjne wyniki w porównaniu do systemów NVIDIA zarówno w scenariuszach Offline, jak i Server.

AMD przedstawiło również wyniki dla generowania tekstu na wideo Wan-2.2, zaznaczając swój debiut w multimodalnym wnioskowaniu wideo i generowaniu wideo. Chociaż oficjalne zgłoszenie skupiało się na opóźnieniu Single Stream, wyniki były porównywalne z istniejącymi platformami. Dostrajanie po zgłoszeniu dodatkowo poprawiło wydajność, wskazując na możliwości optymalizacji w miarę dojrzewania stosu oprogramowania.

Te dodatki podkreślają zaangażowanie AMD w rozszerzanie działalności poza tradycyjne benchmarki LLM w celu wspierania powstających obciążeń AI w różnorodnych zastosowaniach.

Oprogramowanie ROCm Umożliwia Skalowanie i Wnioskowanie Heterogeniczne


AMD przypisuje dużą część wydajności i skalowalności MI355X swojemu stosowi oprogramowania ROCm. Kluczowe ulepszenia obejmują zoptymalizowane wykonanie FP4, ulepszoną komunikację GPU-GPU dla wnioskowania rozproszonego i obsługę dynamicznego rozkładu obciążeń w środowiskach heterogenicznych — kluczowe dla wdrożeń z mieszanymi GPU.

Grafika wyników wnioskowania AMD MLPerf Instinct MI355X
Kamieniem milowym w zgłoszeniu heterogenicznym — opracowanym przez Dell i MangoBoost — wykorzystano trzy modele kart graficznych AMD Instinct: MI300X, MI325X i MI355X. Ta konfiguracja osiągnęła 141 521 tokenów na sekundę w Llama 2 70B Server i 151 843 tokenów na sekundę w Llama 2 70B Offline. Warto zauważyć, że platforma MI355X znajdowała się w laboratorium Dell w USA, podczas gdy systemy MI300X i MI325X znajdowały się w Korei — demonstrując zdolność do koordynowania rozproszonych systemów w lokalizacjach geograficznych.

Wzrost Ekosystemu i Powtarzalność


Ekosystem partnerów AMD znacznie się rozszerzył w tej rundzie MLPerf, a dziewięć firm przedstawiło wyniki dla wielu generacji kart graficznych Instinct. Uczestniczący dostawcy to Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro i Red Hat — odzwierciedlając szerokie przyjęcie rozwiązań wnioskowania AMD w branży.

Zgłoszenia partnerów były ściśle zgodne z wewnętrznymi wynikami AMD, zazwyczaj w granicach 4%, a w niektórych przypadkach w granicach 1%. Ta spójność potwierdza, że wydajność MI355X jest powtarzalna na platformach OEM i chmurowych, zmniejszając ryzyko wdrożenia i zwiększając pewność co do rzeczywistych wyników wydajności.

Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Fokus Biznesowy:
Dystrybucja Produktów ICT/Integracja Systemów i Usługi/Rozwiązania Infrastrukturalne
Z ponad 20-letnim doświadczeniem w dystrybucji IT, współpracujemy z wiodącymi globalnymi markami, dostarczając niezawodne produkty i profesjonalne usługi.
„Wykorzystując technologię do budowania inteligentnego świata” Twój Niezawodny Dostawca Usług Produktów ICT!
Szczegóły kontaktu
Beijing Qianxing Jietong Technology Co., Ltd.

Osoba kontaktowa: Ms. Sandy Yang

Tel: 13426366826

Wyślij zapytanie bezpośrednio do nas (0 / 3000)