Mellanox (NVIDIA) MQM9790-NS2F InfiniBand Switch in Action. تحسين اتصالات التأخير المنخفض لـ RDMA/HPC/AI.

May 28, 2026

Mellanox (NVIDIA) MQM9790-NS2F InfiniBand Switch in Action. تحسين اتصالات التأخير المنخفض لـ RDMA/HPC/AI.

وبما أن مجموعات تدريب الذكاء الاصطناعي واسعة النطاق ومراكز الحوسبة عالية الأداء (HPC) تدفع متطلبات نطاق النطاق الترددي للشبكة ومستويات التأخير إلى مستويات غير مسبوقة،حلول Ethernet التقليدية تكافح بشكل متزايد مع السيطرة على الازدحام وعدم التنبؤ بتأخير الذيل تحت أحمال العمل RDMAوقد واجه مركز محوسبة فائقة وطني رائد مؤخراً هذا التحدي بالضبط عند ترقية مجموعة GPU من الجيل التالي. بعد تقييم خيارات متعددة للاتصال، اختار الفريقميلانوكس (NVIDIA) MQM9790-NS2Fكما تغيير النسيج الأساسي ‬ قرار الذي غير جذريا ملف أداء مجموعة ‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬‬

الخلفية والتحدي: جدار التوسع

مركز الحوسبة الفائقة الحالي HDR InfiniBand كان يعمل بالقرب من التشبععمليات الاتصالات الجماعية مثل الحد من كل شيء وكل شيء للجميع كانت تعاني من ارتفاعات كبيرة في تأخير الذيلالشبكة أصبحت العقبة الرئيسية، مما تسبب في فترة التوقف من GPU الذي يضيع كل من الموارد الحاسوبية والطاقة.تقدّر المهندسون أنّ ما يقرب من 30% من دورات الحوسبة قد فقدت بسبب تكاليف الاتصالات خلال عمليات التدريب الموزعة على نطاق واسع.

ما كان يحتاجه الفريق هو مفتاح قادر على تقديم400 جيجابايت/ثانية لكل منفذ، دعم RDMA الأصلي، وتسريع الحوسبة في الشبكة مع الحفاظ على التوافق مع البنية التحتية القائمة HDR.ورقة بيانات MQM9790-NS2Fومواصفات MQM9790-NS2Fلقد قرروا أنMQM9790-NS2F مفتاح InfiniBandقدمت التوازن المثالي بين الكثافة والأداء ومجموعة الميزات.

الحل والتنفيذ: ترقية نسيج NDR 64 منفذًا

المركز نشر أربعةMQM9790-NS2F 400Gb / s NDR OSFP 64 منفذالمفاتيح في طوبولوجيا العمود الفقري، والربط بين 2048 GPU عبر 64 عقدة حاسوبية. كل عقدة تتصل عبر كابل مفرق OSFP إلى 4x100Gb / s،توفير عرض النطاق الترددي الإجمالي 400 جيجابايت / ثانية لكل خادم مع تحسين كثافة إدارة الكابلات.

معايير النشر التكوين
نموذج التبديل NVIDIA Mellanox MQM9790-NS2F(4 وحدات)
تكوين الميناء 64x OSFP ، 400Gb / s NDR لكل منفذ
مجموع وحدات المعالجة الفورية 2،048 (NVIDIA H100)
ميزات الشبكة شارب3، التوجيه التكيفي، التحكم في الازدحام

كان مفتاح النشر هو ضمانمتوافق مع MQM9790-NS2Fالتشغيل مع محولات HDR الحالية. The switch’s automatic speed negotiation and link-layer translation allowed a phased migration strategy — legacy nodes operate at HDR speeds while new NDR-capable servers leverage full 400Gb/s bandwidthكما استخدم المركز تجميع SHARPv3 داخل الشبكة، مما خفض حركة المرور بأكثر من 65٪ لحجم الرسائل الكبيرة التي توجد عادة في تدريب LLM.

بالنسبة لأولئك الذين يقومون بتقييم عمليات ترقية مماثلةسعر MQM9790-NS2FالاستفساراتMQM9790-NS2F للبيعوقد ازدادت المتاحة بشكل كبير بين عملاء المؤسسات والبحوث.يجعلها خيارًا جذابًا لكل من مشاريع البناء الجديد والتحديث.

النتائج والفوائد: مكاسب أداء قابلة للقياس

  • الحد الكامل لفترة التأخير (رسالة 1 جيجابايت):انخفض من 48μs إلى 19μs (تحسن 60٪)
  • الاستخدام الفعال لـ GPU:ارتفاع من 71% إلى 93% خلال التدريب على نطاق واسع
  • وقت الانتهاء من المهمة (ما يعادل GPT-3 175B):تم اختصاره بنسبة 41%
  • فترة تأخير الذيل الناجمة عن الشبكة (الدرجة المئوية 99):قطع من 210μs إلى أقل من 35μs

كـMQM9790-NS2F حل مفتاح InfiniBand، أظهر هذا النشر أن أنسجة NDR 400Gb / s يمكن أن تحقق وعودها النظرية.قام مزيج من خوارزميات التحكم في الازدحام والتوجيه التكيفي بالقضاء على أنماط الانهيار "المضمنة" التي عانت من نسيج HDR السابق خلال مراحل الاتصال بين الجميع.

ملخص وتوقعات: مؤسسة للذكاء الاصطناعي على نطاق واسع

نجاح مركز الحوسبة الفائقةMQM9790-NS2Fلقد سرعت خارطة طريقها نحو قدرات الذكاء الاصطناعي على نطاق واسع.MQM9790-NS2F 400Gb / s NDR OSFP 64 منفذالمفاتيح في طبقة شجرة الدهون من ثلاثة مستويات. وقد مكنت ميزات قياس المفاتيح عن بعد وإدارة خارج النطاق أيضًا من تجنب الازدحام التنبؤي.تقليل التكاليف العملية للفرقة الشبكة.

بالنسبة لمهندسي شبكات ومديري تكنولوجيا المعلومات الذين يقومون بتقييم الأقمشة من الجيل التالي، فإنNVIDIA Mellanox MQM9790-NS2Fيمثل حلًا ناضجًا ومثبتًا في الإنتاج. سواء كنت تبني مجموعة بحثية جديدة عن الذكاء الاصطناعي أو ترقية منشأة HPC الحالية ، يوفر هذا التبديلأساس واسع النطاق الترددي المطلوب لحملات العمل المتوازية الحديثة.