الحل الفني لمفتاح NVIDIA Mellanox MQM9790-NS2F InfiniBand

April 13, 2026

الحل الفني لمفتاح NVIDIA Mellanox MQM9790-NS2F InfiniBand

تم تصميم هذه الورقة البيضاء التقنية لمهندسي شبكة، مهندسي ما قبل المبيعات، وقادة العمليات.MQM9790-NS2F- مفتاح NDR 400Gb / s InfiniBand و يوفر إرشادات مفصلة حول تصميم الهندسة المعمارية والتكنولوجيات الرئيسية والنشر والتوسيع ، وكذلك العمليات والرصد ،خصيصًا لتحسين RDMA/HPC/AI cluster low-latency interconnect.

1خلفية المشروع وتحليل المتطلبات

تدريب الذكاء الاصطناعي الحديث وأحمال عمل الحوسبة العالية تدفع المجموعات من الآلاف إلى عشرات الآلاف من وحدات المعالجة المركزية. في مثل هذه البيئات ، أصبح ربط الشبكة أحد الحواجز الرئيسية.النسيج التقليدي إيثيرنت تكافح مع تأخير الذيل ومتطلبات المعالجة المركزية، في حين أن عمليات نشر InfiniBand القديمة قد تفتقر إلى الكثافة الكافية للموانئ وعرض النطاق الترددي. تتضمن المتطلبات الرئيسية تأخير التبديل تحت الميكرو ثانية ، وإعادة توجيه معدل الخط الكامل دون فقدان الحزم ،دعم RDMA الفعال، والقدرة على التوسع بسلاسة لمئات المفاتيح.NVIDIA Mellanox MQM9790-NS2Fتلبي هذه الاحتياجات مباشرة مع قدرة NDR 400Gb / s وخصائص الحوسبة المتقدمة في الشبكة.

2تصميم بنية الشبكة والنظام بشكل عام

تعتمد الهندسة المعمارية الموصى بها توبولوجيا Fat-Tree ذات الطبقتين (المعروفة أيضًا باسم Clos المطوية) ، والتي توازن بين عرض النطاق الترددي للقطع الثنائي والتكلفة والقدرة على التوسع.خادمات GPU مجهزة بمحولات ConnectX-7 NDR تتصل بمفتاحات الأوراقفي طبقة العمود الفقريMQM9790-NS2F مفتاح InfiniBandتوفر الوحدات اتصالًا غير مسدود بين الأوراق. يضمن هذا التصميم عرض النطاق الترددي الكامل: يمكن لأي مفتاح ورقة التواصل مع أي ورقة أخرى بسرعة السلك.يمكن نشر طوبولوجيا ثلاثية الطبقات (الورقة العمود الفقري العمود الفقري)، تدعم ما يصل إلى عشرات الآلاف من عقد GPU.

  • مفاتيح الأوراق:نماذج OSFP ذات 64 منفذًا ، يتصل كل منها بـ 32 خادمًا (منفذ مزدوج) بالإضافة إلى الروابط العليا إلى العمود الفقري.
  • طبقة العمود الفقري: MQM9790-NS2F 400Gb / s NDR OSFP 64 منفذالمفاتيح، حيث تعمل كل منفذ كصلة صعودية من ورقة. يتطلب التصميم غير المقفل بالكامل منافذ العمود الفقري مساوية لعدد مفاتيح الورقة.
  • إدارة الشبكة الفرعية:يقوم مدير شبكة فرعية مخصصة أو زائدة بالمعالجة بحساب المسار والتوجيه التكيفي والتحويل الفعلي.

3الدور والميزات الرئيسية لـ NVIDIA Mellanox MQM9790-NS2F في الحل

كما العمود الفقري الأساسي والجهاز الورقية اختياري،MQM9790-NS2Fيوفر العديد من القدرات الحاسمة:

  • أداء معدل الخط NDR 400Gb / s:تعمل كل من منافذ OSFP 64 بمعدل مزدوج كامل 400Gb / s ، مما يوفر قدرة التبديل الإجمالية 51.2Tb / s.
  • فترة تأخير منخفضة جداً وتوجيه متكيف:يحتفظ التبديل عبر القطع بتأخير من منفذ إلى منفذ أقل من 130ns. يوازن التوجيه التكيفي بشكل ديناميكي حركة المرور عبر مسارات متعددة ، وتجنب النقاط الساخنة.
  • الحوسبة داخل الشبكة (SHARPv3):يدعم تجميع وتقليل هرميات قابلة للتطوير ، ويقلل من عمليات الجماعية من وحدة المعالجة المركزية / وحدة المعالجة المركزية ويقلل من حركة البيانات بنسبة تصل إلى 10 ×.
  • تصميم RDMA الأصلي:تمكن RDMA المتسارعة بالأجهزة من الوصول المباشر إلى ذاكرة GPU ، مما يلغي مشاركة وحدة المعالجة المركزية ويقلل بشكل كبير من تكاليف الاتصال العامة.
  • تقييم المعلومات عن بعد شامل & QoS:يضمن التحكم الدقيق في الازدحام ومراقبة العازل وتصنيف التدفق أداءً محددًا لأحمال العمل المختلطة.

وفقًاورقة بيانات MQM9790-NS2F، يدعم المفتاح أيضًا إمدادات الطاقة والمروحة القابلة للتبادل الساخن ، ومنافذ الإدارة الزائدة ، ومجموعة كاملة من التشخيصات ، مما يجعله مناسبًا لبيئات الإنتاج 7 × 24.

4توصيات النشر والتوسيع (مع الطوبولوجيا النموذجية)

يمكن بناء مجموعة نموذجية من 2048 GPU باستخدام 64 مفاتيح ورقة و 32 مفاتيح العمود الفقري. يتصل كل ورقة بـ 32 خادم GPU (منفذ مزدوج) ويوفر 32 رابطًا صعوديًا إلى العمود الفقري. تتكون الطبقة العمود الفقري من:متوافق مع MQM9790-NS2Fالوحدات التي تعمل بأجهزة NDR أو كابلات DAC. للتوسع إلى 8،192 GPU ، يتم إضافة طبقة عمود فقري فائقة ، مما يربط بينها العديد من الغلافات.

عند تحديد المقياس، ضع في اعتبارك ما يلي:

  • الكابلات والنور:استخدم OSFP إلى OSFP DACs للاتصالات القصيرة داخل الرف ، و OSFP إلى 4xOSFP كابلات اختراق أو وحدات بصرية لمسافات أطول.مواصفات MQM9790-NS2Fفيما يتعلق بالوصول وميزانية الطاقة.
  • حجم الشبكة الفرعية:يمكن لمدير شبكة فرعية واحد التعامل مع ما يصل إلى 2000 عقدة ؛ بعد ذلك ، قم بنشر شبكات فرعية متعددة أو استخدم تصميم مدير شبكة فرعية موزعة.
  • الإفراج:الخوادم المزدوجة الموطن و مفاتيح العمود الفقري الزائدة القضاء على نقاط الفشل الفردية.MQM9790-NS2F حل مفتاح InfiniBandيدعم التحول دون ضرب مع تكوين SM مناسب.

5العمليات، المراقبة، حل المشاكل وتحسين

العمليات الفعالة تتطلب الرؤية والأتمتة.

  • المراقبة:استخدم NVIDIA's Fabric Manager و Telemetry APIs لتتبع أخطاء الموانئ و درجة الحرارة و استهلاك الطاقة و استخدام الرابط. حدد تنبيهات لأخطاء CRC أو أخطاء الرمز التي تتجاوز الحدود.
  • إصلاح الأخطاءالـMQM9790-NS2Fيوفر العدادات لكل ميناء، والهيستوجرامات احتلال العازل، وسجلات الازدحام. في حالة تدهور الأداء، تحقق من تكوين التوجيه التكيفي، وتأكد من جميع روابط النسيج متماثلة،والتحقق من أن تجميع SHARP تم تمكينها للكتائب المدعومة.
  • تحسين:ضبط معايير التوجيه التكيفية بناءً على عبء العمل (على سبيل المثال ، حساسة لفترة تأخير مقابل حساسة للسرعة). بالنسبة لنماذج الذكاء الاصطناعي الكبيرة ، قم بتفعيل التحكم في الازدحام وتعيين حدود العازل لمنع حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوث حدوثمراجعة منتظمةسعر MQM9790-NS2Fمقابل المقايضات في الأداء عند تخطيط إضافات القدرة غالباً ما يعطي ترقية الشوك عائد استثمار أفضل من إضافة المزيد من الأوراق.

للمنظمات التي تقوم بتقييمMQM9790-NS2F للبيع، تأكد من أن كومة البرمجيات الخاصة بك (على سبيل المثال، NCCL، OpenMPI) تدعم ميزات NDR مثل SHARPv3 والحد القائم على الأجهزة.

6ملخص وتقييم القيمة

الـMQM9790-NS2F حل مفتاح InfiniBandيوفر مسارًا واضحًا لبناء أنسجة ذات فترة تأخير منخفضة وعرض نطاق واسع لجمعات RDMA / HPC / AI المطالبة.وقدرات الحوسبة في الشبكة تعالج مباشرة تحديات التوسع والأداء في أحمال العمل الحديثةمن خلال تبني الهندسة المعمارية الموضحة أعلاه ، يمكن للمنظمات تحقيق تنسيق خطي لـ GPU ، وتقليل أوقات إكمال المهمة بأكثر من 30٪.,وتبسيط إدارة الأقمشة.ورقة بيانات MQM9790-NS2Fومرشدات التوافق. لمناقشة تصميم مخصص أو الحصولسعر MQM9790-NS2Fوالتوفر، يرجى الاتصال بشريك NVIDIA المعتمد.