Aktualizacja Ray Serve LLM firmy Anyscale umożliwia odporność na awarie grupy DP dla wdrożeń vLLM WideEP, zmniejszając ryzyko przestojów w rozproszonych systemach wnioskowania AI. (CzytajAktualizacja Ray Serve LLM firmy Anyscale umożliwia odporność na awarie grupy DP dla wdrożeń vLLM WideEP, zmniejszając ryzyko przestojów w rozproszonych systemach wnioskowania AI. (Czytaj

Ray 2.55 dodaje odporność na awarie dla wdrożeń modeli AI na dużą skalę

2026/04/03 02:35
3 min. lektury
W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem [email protected]

Ray 2.55 Dodaje Tolerancję Awarii dla Wdrożeń Modeli AI na Dużą Skalę

Joerg Hiller 02 kwi 2026 18:35

Aktualizacja Ray Serve LLM firmy Anyscale umożliwia tolerancję awarii grupy DP dla wdrożeń vLLM WideEP, zmniejszając ryzyko przestoju dla rozproszonych systemów wnioskowania AI.

Ray 2.55 Dodaje Tolerancję Awarii dla Wdrożeń Modeli AI na Dużą Skalę

Anyscale wydało znaczącą aktualizację swojego frameworka Ray Serve LLM, która odpowiada na krytyczne wyzwanie operacyjne dla organizacji prowadzących obciążenia wnioskowania AI na dużą skalę. Ray 2.55 wprowadza tolerancję awarii grupy równoległej danych (DP) dla wdrożeń vLLM Wide Expert Parallelism — funkcję, która zapobiega sytuacji, w której awaria pojedynczego GPU powoduje wyłączenie całych klastrów obsługujących model.

Aktualizacja dotyczy konkretnego problemu w obsłudze modeli Mixture of Experts (MoE). W przeciwieństwie do tradycyjnych wdrożeń modeli, gdzie każda replika działa niezależnie, architektury MoE, takie jak DeepSeek-V3, dzielą warstwy ekspertów na grupy GPU, które muszą działać wspólnie. Gdy jeden GPU w tych konfiguracjach ulega awarii, cała grupa — potencjalnie obejmująca od 16 do 128 GPU — staje się niefunkcjonalna.

Problem Techniczny

Modele MoE dystrybuują wyspecjalizowane sieci neuronowe „ekspertów" na wiele GPU. DeepSeek-V3, na przykład, zawiera 256 ekspertów na warstwę, ale aktywuje tylko 8 na token. Tokeny są kierowane do GPU przechowujących potrzebnych ekspertów za pomocą operacji wysyłania i łączenia, które wymagają, aby wszystkie uczestniczące rangi były sprawne.

Wcześniej awaria pojedynczej rangi przerywała te operacje zbiorowe. Zapytania nadal byłyby kierowane do pozostałych replik w dotkniętej grupie, ale każde żądanie kończyłoby się niepowodzeniem. Odzyskanie wymagało ponownego uruchomienia całego systemu.

Jak Ray To Rozwiązuje

Ray Serve LLM traktuje teraz każdą grupę DP jako jednostkę atomową poprzez szeregowanie grupowe. Gdy jedna ranga ulega awarii, system oznacza całą grupę jako niesprawną, zatrzymuje kierowanie ruchu do niej, rozmontowuje uszkodzoną grupę i odbudowuje ją jako całość. Inne sprawne grupy nadal obsługują żądania przez cały czas.

Funkcja jest domyślnie włączona w Ray 2.55. Istniejące wdrożenia DP nie wymagają zmian w kodzie — framework automatycznie obsługuje kontrole stanu na poziomie grupy, szeregowanie i odzyskiwanie.

Autoskalowanie również respektuje te granice. Operacje skalowania w górę i w dół odbywają się w przyrostach wielkości grupy, a nie pojedynczych replik, zapobiegając tworzeniu częściowych grup, które nie mogą obsługiwać ruchu.

Implikacje Operacyjne

Aktualizacja wprowadza ważną kwestię projektową: szerokość grupy w porównaniu z liczbą grup. Według testów porównawczych vLLM cytowanych przez Anyscale, przepustowość na GPU pozostaje względnie stabilna przy równoległych rozmiarach ekspertów wynoszących 32, 72 i 96. Oznacza to, że operatorzy mogą dostroić się w kierunku mniejszych grup bez poświęcania wydajności — a mniejsze grupy oznaczają mniejsze promienie wybuchu w przypadku awarii.

Anyscale zauważa, że ta odporność na poziomie orkiestracji uzupełnia pracę nad elastycznością na poziomie silnika odbywającą się w społeczności vLLM. RFC vLLM Elastic Expert Parallelism dotyczy tego, jak środowisko uruchomieniowe może dynamicznie dostosowywać topologię w obrębie grupy, podczas gdy Ray Serve LLM zarządza tym, które grupy istnieją i otrzymują ruch.

Dla organizacji wdrażających modele w stylu DeepSeek na dużą skalę praktyczna korzyść jest prosta: awarie GPU stają się incydentami zlokalizowanymi, a nie przestojami obejmującymi cały system. Przykłady kodu i kroki reprodukcji są dostępne w repozytorium GitHub firmy Anyscale.

Źródło obrazu: Shutterstock
  • ray
  • vllm
  • infrastruktura ai
  • uczenie maszynowe
  • obliczenia rozproszone
Okazja rynkowa
Logo Raydium
Cena Raydium(RAY)
$0.615
$0.615$0.615
-0.51%
USD
Raydium (RAY) Wykres Ceny na Żywo
Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z [email protected] w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.

Trade GOLD, Share 1,000,000 USDT

Trade GOLD, Share 1,000,000 USDTTrade GOLD, Share 1,000,000 USDT

0 fees, up to 1,000x leverage, deep liquidity