Podczas Google Cloud Next Google zaprezentował swoje ośmiorodzinne akceleratory AI: TPU v8t Sunfish do treningu i TPU v8i Zebrafish do wnioskowania, obok nowej tkaniny centrum danych Virgo.Dostosowany do ery agentycznej sztucznej inteligencji., te chipy są zoptymalizowane do szkolenia modeli dużej mieszanki ekspertów (MoE) i tokena o niskim opóźnieniu obsługującego kosztowo efektywną cenę.V8t i V8i różnią się pamięcią, SRAM, topologia i specjalizacja sprzętowa.
Superpod v8t obsługuje 9600 chipów z 2 PB HBM i dostarcza 121 EFLOPS obliczeń FP4, prawie trzykrotnie więcej niż poprzednia generacja Ironwood.152 układów z 288 GB HBM i 384 MB SRAM na układzieTkanina Virgo łączy się z ponad 134 000 V8t chipami,zapewniając 47 Pb/s bezblokowania szerokości pasma z 4x wyższą przepustowością na przyspieszacz i 40% niższą opóźnieniem.
Podstawowa architektura TPU vs GPU
TPU są niestandardowymi ASIC charakteryzującymi się dużymi jednostkami mnożenia macierzy (MXU), zarządzaną oprogramowaniem SRAM i kompilacją przed czasem.TPU posiadają deterministyczny przepływ danych z układami skurczowymi, wyeliminując ruchy pamięci podręcznej i koszty planowania warp dla większego wykorzystania FLOPS na obciążeniach gęstej matrycy.Nieregularna rzadkość i złożone sieci graficzne, oferując jednocześnie ograniczoną obsługę ekosystemu oprogramowania zdominowanego przez JAX i XLA.
Różnica strukturalna w obsłudze rzadkości wyraźnie odróżnia TPU i GPU.TPU systoliczne macierzy działają w sztywnym lockstepAWS Trainium2 przyjmuje środkową drogę z dedykowanymi rzadkimi dekompresorami w celu utrzymania przepustowości szeregu.
TPU integrują SparseCores do obsługi nieregularnych zadań zbierania-rozrzucania do wbudowy tabeli i routingu MoE.obejmujące obciążenia pracą zalecającą i wysyłanie znaków eksperckich, których standardowe MXU nie mogą skutecznie przetwarzać.
TPU v8t: Akcelerator szkoleniowy
Szczegółowe informacje na ten temat można znaleźć na stronie internetowej firmy Microsoft.Utrzymuje trójwymiarowe torus połączenia i zmodernizowane 19.2 Tb/s przepustowości ICI, idealna do komunikacji zbiorowej w ramach szkoleń na dużą skalę.
Dziedziczone SparseCores optymalizują nieprawidłową transmisję danych od wszystkich do wszystkich.TPUDirect RDMA i TPUDirect Storage omijają procesor hosta w celu umożliwienia bezpośredniego dostępu do pamięci TPUDodatkowo v8t wykorzystuje procesory Axion firmy Google jako procesory hosta.izolowanie drgawek gospodarza i zwiększenie stabilności przedprzetwarzania dla zsynchronizowanego szkolenia wieloczpu.
TPU v8i: Akcelerator wnioskowy
Zbudowany dla obciążeń inferencyjnych związanych z przepustowością pamięci, v8i priorytetowo wykorzystuje generowanie tokenów o niskim opóźnieniu.Zawiera 384 MB SRAM, trzy razy więcej niż Ironwood, aby przechowywać pamięć KV na chipie i zmniejszyć powtarzające się odczyty HBM. Z dwoma TensorCores i 288 GB HBM3e, osiąga 10,1 PFLOPS FP4 obliczeń, nakładających się krótkich partii zadań inferencji dla wyższego trwałego wykorzystania.
Zastępując SparseCores, dedykowany Collectives Acceleration Engine (CAE) obniża opóźnienie synchronizacji na układzie nawet o 5 razy, optymalizując częste małe operacje zbiorowe.V8i porzuca torus 3D dla topologii Boardfly opartej na Dragonfly, zmniejszając maksymalną liczbę hopów chip-to-chip z 16 do 7 i obniżając opóźnienie MoE all-to-all o 50%.
Hierarchia tkanin Dziewicy i Jowisza
Virgo służy jako struktura skalowalna wewnątrz centrum danych, przyjmując dwuskalową architekturę bez blokowania, aby wyeliminować nadpłaty za ruch sztucznej inteligencji wschód-zachód.Umożliwia on przekierowanie błędów na poziomie milisekund i utrzymuje 97% dobrej wydajności dla superpodów V8tW połączeniu z Jupiterem Google's long-distance cross-data-center fabric 7 ZFLOPS całkowite obliczenia FP4.
Wydajność, TCO i pozycja rynkowa
Wysoka wydajność i stabilne wykorzystanie modeli FLOP (MFU) zapewniają TPU przekonujące korzyści kosztowe.w8t wydajność FP4 w gęstości pomiędzy GB200 a GB300, podczas gdy Google dominuje w dużych klastrach z pojedynczym pod 9,600 chipów, znacznie przekraczając domenę NVLink 72-GPU NVIDIA.
W przyszłości Vera Rubin, Rubin Ultra i Kyber będą zmniejszać lukę w wydajności TPU od 2026 do 2027 roku.brak rzadkości sprzętu i ograniczona kompatybilność z ekosystememNiemniej jednak Google utrzymuje mocne strony w zakresie masowego klasterowania, deterministycznego opóźnienia i efektywności kosztowej obciążeń pracy w Ministerstwie Edukacji.
Google rozszerza infrastrukturę zarówno TPU, jak i NVIDIA GPU. Meta planuje wielomiliardową umowę o przyjęciu TPU rozpoczynającą się w 2027 roku.TPU v8 zabezpiecza konkurencyjność Google'a w stosunku do NVIDIA Grace-Blackwell w zakresie rozwoju sztucznej inteligencji na dużą skalę.
Pekin Qianxing Jietong Technology Co., Ltd.
Sandy Yang, dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storagesserver.com
Skoncentruj się na biznesie:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami w celu dostarczania niezawodnych produktów i profesjonalnych usług.
Używanie technologii do budowy inteligentnego świata•Twój zaufany dostawca usług produktów ICT!
Sandy Yang, dyrektor ds. strategii globalnej
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Strona internetowa: www.qianxingdata.com/www.storagesserver.com
Skoncentruj się na biznesie:
Dystrybucja produktów ICT/Integracja systemów i usługi/Rozwiązania infrastrukturalne
Dzięki ponad 20-letniemu doświadczeniu w dystrybucji IT współpracujemy z wiodącymi światowymi markami w celu dostarczania niezawodnych produktów i profesjonalnych usług.
Używanie technologii do budowy inteligentnego świata•Twój zaufany dostawca usług produktów ICT!



