AMD ogłosiło wyniki testów porównawczych MLPerf Inference v6.0, pozycjonując kartę graficzną Instinct MI355X jako wysoce skalowalną platformę wnioskowania, zdolną do obsługi wdrożeń jedno-, wielowęzłowych i heterogenicznych. Oprócz stopniowych wzrostów wydajności, zgłoszenie wprowadza nowe obciążenia, demonstruje przepustowość w skali klastra przekraczającą 1 milion tokenów na sekundę i potwierdza spójną powtarzalność wyników w rozszerzającym się ekosystemie partnerów.
Architektura CDNA 4 Celuje w Wnioskowanie o Wysokiej Pojemności
Instinct MI355X jest zbudowany na architekturze CDNA 4 firmy AMD, wykorzystując dwuprocesowy projekt chipletów TSMC: rdzenie obliczeniowe (XCD) wykorzystują węzeł 3 nm, podczas gdy rdzenie I/O wykorzystują technologię FinFET 6 nm. Wielochipletowy pakiet integruje 185 miliardów tranzystorów i obsługuje formaty danych FP4 i FP6 — kluczowe dla wydajnego wnioskowania na dużych modelach. Każda karta graficzna jest wyposażona w maksymalnie 288 GB pamięci HBM3E (zapewniającej przepustowość pamięci 8 TB/s), co umożliwia obsługę modeli z maksymalnie 520 miliardami parametrów na jednym urządzeniu. AMD podkreśla, że to połączenie gęstości obliczeniowej i pojemności pamięci eliminuje potrzebę nadmiernego partycjonowania modeli, co jest kluczową zaletą w przypadku obciążeń wnioskowania na dużą skalę.
Dostępna w konfiguracjach UBB8, platforma oferuje opcje chłodzenia powietrzem i bezpośredniego chłodzenia cieczą, zgodnie z różnymi wymaganiami wdrożeń w centrach danych. Warto zauważyć, że MI355X ma 1400 W TBP (Thermal Design Power) z chłodzeniem cieczą, zapewniając wyższą wydajność niż jego odpowiednik chłodzony powietrzem, MI350X.
Przepustowość Wielowęzłowa Przekracza 1 Milion Tokenów na Sekundę
Wybitnym osiągnięciem z rundy MLPerf v6.0 jest przepustowość w skali klastra AMD przekraczająca 1 milion tokenów na sekundę. Używając kart graficznych Instinct MI355X, AMD osiągnęło ten kamień milowy z Llama 2 70B zarówno w scenariuszach Server, jak i Offline, a także z GPT-OSS-120B w trybie Offline.
Grafika AMD MLPerf 1M tokenów na sekundę
Wyniki te odzwierciedlają rosnący trend w branży w kierunku oceny wydajności wnioskowania na poziomie klastra, a nie na pojedynczym akceleratorze. Zagregowana przepustowość i czas odpowiedzi stały się głównymi metrykami określającymi gotowość produkcyjną we wdrożeniach AI na dużą skalę.
AMD zademonstrowało również wyjątkową efektywność skalowania. W przypadku Llama 2 70B, konfiguracja 11-węzłowa, 87-GPU osiągnęła ponad 1 milion tokenów na sekundę we wszystkich scenariuszach: Offline, Server i Interactive, z wydajnością skalowania w zakresie od 93% do 98%. W przypadku GPT-OSS-120B, klaster 12-węzłowy, 94-GPU zapewnił podobną przepustowość z ponad 90% wydajnością skalowania — udowadniając, że wydajność skutecznie przekłada się na rozszerzanie wdrożeń poza pojedynczy system.
Generacyjne Zyski i Konkurencyjna Wydajność Jednowęzłowa
AMD zgłosiło znaczące ulepszenia generacyjne, a Instinct MI355X zapewnił 3,1-krotnie lepszą wydajność w Llama 2 70B Server w porównaniu do poprzedniej generacji Instinct MI325X, osiągając 100 282 tokenów na sekundę. Ta poprawa wynika zarówno z ulepszeń architektury CDNA 4, jak i optymalizacji oprogramowania ROCm. Wyniki Offline poprawiły się 4,4-krotnie, a wyniki Server 4,8-krotnie w porównaniu do poprzednich rund MLPerf, głównie dzięki kwantyzacji FP4 — kluczowej funkcji MI355X, która odblokowuje wyższą przepustowość dla obciążeń AI.
Grafika wyników wnioskowania AMD w porównaniu do poprzedniej generacji
W porównaniach jednowęzłowych z platformami NVIDIA, MI355X wykazał silną konkurencyjność. W przypadku Llama 2 70B, dorównał NVIDIA B200 pod względem przepustowości Offline, osiągnął niemal równość w wydajności Server i przewyższył go w trybie Interactive. W porównaniu do NVIDIA B300, MI355X zapewnił 92% wydajności Offline, 93% wydajności Server i przewyższył go o 4% w trybie Interactive. Warto zauważyć, że MI355X oferuje również lepszą efektywność kosztową, dostarczając o 40% więcej tokenów na dolara w porównaniu do NVIDIA B200.
Pierwsze Włączenie Modelu Rozszerza Zakres
MLPerf Inference v6.0 wprowadziło kilka nowych obciążeń, a AMD wykorzystało tę rundę do zademonstrowania szybkiego włączania modeli. GPT-OSS-120B, model typu mixture-of-experts, zadebiutował w MLPerf z MI355X, osiągając konkurencyjne wyniki w porównaniu do systemów NVIDIA zarówno w scenariuszach Offline, jak i Server.
AMD przedstawiło również wyniki dla generowania tekstu na wideo Wan-2.2, zaznaczając swój debiut w multimodalnym wnioskowaniu wideo i generowaniu wideo. Chociaż oficjalne zgłoszenie skupiało się na opóźnieniu Single Stream, wyniki były porównywalne z istniejącymi platformami. Dostrajanie po zgłoszeniu dodatkowo poprawiło wydajność, wskazując na możliwości optymalizacji w miarę dojrzewania stosu oprogramowania.
Te dodatki podkreślają zaangażowanie AMD w rozszerzanie działalności poza tradycyjne benchmarki LLM w celu wspierania powstających obciążeń AI w różnorodnych zastosowaniach.
Oprogramowanie ROCm Umożliwia Skalowanie i Wnioskowanie Heterogeniczne
AMD przypisuje dużą część wydajności i skalowalności MI355X swojemu stosowi oprogramowania ROCm. Kluczowe ulepszenia obejmują zoptymalizowane wykonanie FP4, ulepszoną komunikację GPU-GPU dla wnioskowania rozproszonego i obsługę dynamicznego rozkładu obciążeń w środowiskach heterogenicznych — kluczowe dla wdrożeń z mieszanymi GPU.
Grafika wyników wnioskowania AMD MLPerf Instinct MI355X
Kamieniem milowym w zgłoszeniu heterogenicznym — opracowanym przez Dell i MangoBoost — wykorzystano trzy modele kart graficznych AMD Instinct: MI300X, MI325X i MI355X. Ta konfiguracja osiągnęła 141 521 tokenów na sekundę w Llama 2 70B Server i 151 843 tokenów na sekundę w Llama 2 70B Offline. Warto zauważyć, że platforma MI355X znajdowała się w laboratorium Dell w USA, podczas gdy systemy MI300X i MI325X znajdowały się w Korei — demonstrując zdolność do koordynowania rozproszonych systemów w lokalizacjach geograficznych.
Wzrost Ekosystemu i Powtarzalność
Ekosystem partnerów AMD znacznie się rozszerzył w tej rundzie MLPerf, a dziewięć firm przedstawiło wyniki dla wielu generacji kart graficznych Instinct. Uczestniczący dostawcy to Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro i Red Hat — odzwierciedlając szerokie przyjęcie rozwiązań wnioskowania AMD w branży.
Zgłoszenia partnerów były ściśle zgodne z wewnętrznymi wynikami AMD, zazwyczaj w granicach 4%, a w niektórych przypadkach w granicach 1%. Ta spójność potwierdza, że wydajność MI355X jest powtarzalna na platformach OEM i chmurowych, zmniejszając ryzyko wdrożenia i zwiększając pewność co do rzeczywistych wyników wydajności.
Beijing Qianxing Jietong Technology Co., Ltd.
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Fokus Biznesowy:
Dystrybucja Produktów ICT/Integracja Systemów i Usługi/Rozwiązania Infrastrukturalne
Z ponad 20-letnim doświadczeniem w dystrybucji IT, współpracujemy z wiodącymi globalnymi markami, dostarczając niezawodne produkty i profesjonalne usługi.
„Wykorzystując technologię do budowania inteligentnego świata” Twój Niezawodny Dostawca Usług Produktów ICT!
Sandy Yang/Global Strategy Director
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
Fokus Biznesowy:
Dystrybucja Produktów ICT/Integracja Systemów i Usługi/Rozwiązania Infrastrukturalne
Z ponad 20-letnim doświadczeniem w dystrybucji IT, współpracujemy z wiodącymi globalnymi markami, dostarczając niezawodne produkty i profesjonalne usługi.
„Wykorzystując technologię do budowania inteligentnego świata” Twój Niezawodny Dostawca Usług Produktów ICT!



