NVIDIA Mellanox MQM8790-HS2F الحل الفني: تحسين اتصالات التراجع المنخفض لمجموعات RDMA / HPC / AI
April 10, 2026
تم تصميم هذا الحل التقني لمهندسي الشبكات، ومهندسي المبيعات المسبقة، وقادة العمليات. يوفر دليلاً شاملاً لتصميم ونشر وتشغيل شبكات InfiniBand عالية الأداء تتمحور حول NVIDIA Mellanox MQM8790-HS2F، وتستهدف مجموعات الحوسبة عالية الأداء (HPC) وتدريب الذكاء الاصطناعي المكثفة لـ RDMA.
تواجه مجموعات تدريب الذكاء الاصطناعي الحديثة والحوسبة العلمية بشكل متزايد شبكة الربط البيني كعنق الزجاجة الرئيسي للأداء. تكافح شبكات Ethernet التقليدية مع التحكم في الازدحام، وزمن الاستجابة المتأخر، وقدرات تفريغ وحدة المعالجة المركزية، وتفشل في تلبية متطلبات أنماط اتصالات التدريب الموزع مثل All-Reduce و All-to-All. تشمل المتطلبات الرئيسية: زمن استجابة من طرف إلى طرف أقل من ميكرو ثانية، نقل خالٍ من الفقدان وعدم إسقاط الحزم، دعم GPU Direct RDMA، والقدرة على التوسع خطيًا إلى آلاف العقد يتطلب بنية تبديل InfiniBand مخصصة لحل تحديات كفاءة الربط البيني هذه بشكل أساسي.
يوصي هذا الحل ببنية شجرة دهنية (Fat-Tree) ذات طبقتين لتحقيق نطاق ترددي كامل غير مانع. تستخدم كل من طبقات الأوراق (leaf) والعمود الفقري (spine) مفتاح InfiniBand MQM8790-HS2F، والذي يوفر 40 منفذًا بسرعة 200 جيجابت/ثانية HDR QSFP56. باستخدام مجموعة مكونة من 512 عقدة كمثال، يكون التصميم كما يلي:
- طبقة الأوراق (Leaf layer): يربط كل MQM8790-HS2F بـ 20 عقدة حوسبة (اتصال مزدوج لأعلى) و 8 اتصالات لأعلى بطبقة العمود الفقري.
- طبقة العمود الفقري (Spine layer): تشكل 8 مفاتيح MQM8790-HS2F مستوى العمود الفقري، مع اتصال شبكي كامل بين كل ورقة وكل مفتاح عمود فقري.
- شبكة التخزين والإدارة: شبكة فرعية InfiniBand منفصلة أو Ethernet خارج النطاق لتجنب التدخل في حركة مرور الحوسبة.
تضمن هذه البنية نطاقًا تردديًا يبلغ 200 جيجابت/ثانية بين أي عقدتين، مع مسارات متعددة متكررة تضمن عدم تأثير نقطة فشل واحدة على الاتصال العالمي. تقلل الكثافة العالية للمنافذ في MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 من عدد المفاتيح المطلوبة بنسبة 50% مقارنة بحلول الجيل السابق EDR، مع تقليل تعقيد الشبكة أيضًا.
يقدم NVIDIA Mellanox MQM8790-HS2F كوحدة التبديل الأساسية في هذا الحل، ويؤدي الأدوار الحيوية التالية:
- محرك تبديل خالٍ من الفقدان: يتحكم تدفق طبقة الارتباط InfiniBand في فقدان الحزم، مما يضمن كفاءة نقل RDMA.
- التوجيه التكيفي: يوازن حركة المرور ديناميكيًا عبر مسارات متعددة، ويتجنب نقاط الازدحام ويحسن الإنتاجية الفعالة.
- الحوسبة داخل الشبكة SHARPv3: يقوم بتفريغ عمليات التخفيض إلى المفتاح، مما يسرع عملية All-Reduce بمقدار 2-3 مرات.
- كثافة عالية واستهلاك طاقة منخفض: 40 منفذًا بسرعة 200 جيجابت/ثانية مع استهلاك طاقة رائد في الصناعة لكل منفذ، مما يقلل من التكلفة الإجمالية للملكية.
وفقًا لـ ورقة بيانات MQM8790-HS2F و مواصفات MQM8790-HS2F، يوفر المفتاح سعة تبديل مجمعة تبلغ 16 تيرابايت/ثانية، وزمن استجابة من منفذ إلى منفذ أقل من 130 نانو ثانية، ويدعم وحدات إمداد الطاقة والمراوح القابلة للتبديل السريع لبيئات الإنتاج على مدار الساعة طوال أيام الأسبوع. علاوة على ذلك، فإن الجهاز متوافق تمامًا مع محولات NVIDIA ConnectX-6/7 HDR ومجموعة واسعة من كابلات HDR البصرية/النحاسية، مما يؤكد نضج النظام البيئي المتوافق مع MQM8790-HS2F.
اتبع هذه الخطوات عند نشر الحل:
- إدارة الشبكة الفرعية: قم بنشر مديري الشبكة الفرعية (SM) النشطين/الاحتياطيين؛ يوصى بمنصة NVIDIA UFM للإدارة المركزية والقياس عن بعد.
- الأقسام ومستويات الخدمة: استخدم مفاتيح الأقسام (P_Key) لعزل المستأجرين أو أعباء العمل؛ قم بتكوين تعيينات SL2VL لإعطاء الأولوية لحركة مرور تدريب الذكاء الاصطناعي.
- اختيار الكابلات: استخدم الكابلات النحاسية السلبية للمسافات القصيرة (≤3 متر)، والكابلات البصرية النشطة أو أجهزة الإرسال والاستقبال للمسافات الأطول للحفاظ على سلامة الإشارة.
بالنسبة للمجموعات الأكبر التي تتجاوز 2000 عقدة، يمكن اعتماد بنية شجرة دهنية ثلاثية المستويات أو Dragonfly+، مع استمرار الطبقة الأساسية في استخدام MQM8790-HS2F كوحدة بناء. عند شراء وحدات إضافية، تحقق من سعر MQM8790-HS2F والتوافر من خلال الموزعين المعتمدين؛ عادةً ما تتضمن قوائم MQM8790-HS2F للبيع المعتمدة أحدث البرامج الثابتة والضمان. يتوسع حل مفتاح InfiniBand MQM8790-HS2F بسلاسة من أبحاث الذكاء الاصطناعي على مستوى الأقسام إلى مراكز الحوسبة الفائقة على نطاق الإكس.
تتطلب العمليات الفعالة لشبكة InfiniBand المراقبة الاستباقية واستكشاف الأخطاء وإصلاحها المنضبط:
- المراقبة: استخدم
ibnetdiscoverللتحقق من الطوبولوجيا، وperfqueryلعدادات المنافذ، وقياسات UFM عن بعد لرؤية الازدحام في الوقت الفعلي. - المشاكل الشائعة والحلول:
- تقلب الارتباط (Link flapping): تحقق من تثبيت الكابلات وقم بتشغيل اختبارات تشخيص الكابلات؛ استبدل البصريات المعيبة.
- فشل مدير الشبكة الفرعية (Subnet manager failover): تأكد من تكوين أولويات SM بشكل صحيح وأن SM الثانوي لديه قاعدة بيانات صالحة.
- توجيه تكيفي غير متساوٍ: اضبط معلمات خوارزمية التوجيه (مثل،
routing_engine=ftree) وقم بتمكين انتشار الحمل.
- نصائح التحسين: قم بتمكين تجميع SHARP لعمليات الجمع؛ اضبط MTU على 4096 بايت لنقل الرسائل الكبيرة؛ استخدم جودة الخدمة (QoS) لفصل حركة مرور التحكم والبيانات والإدارة.
تضمن الترقيات المنتظمة للبرامج الثابتة عبر بوابة دعم NVIDIA تصحيحات الأمان وتحسينات الأداء. ارجع إلى ورقة بيانات MQM8790-HS2F للحصول على خطوط أساس الأداء التفصيلية والقيم المتوقعة للعدادات في الظروف الصحية.
يقدم NVIDIA Mellanox MQM8790-HS2F منصة تبديل InfiniBand جاهزة للمستقبل تعالج التحديات الأساسية لشبكات الربط البيني RDMA/HPC/AI: زمن الاستجابة، والفقدان، وزمن استهلاك وحدة المعالجة المركزية، وقابلية التوسع. من خلال تطبيق بنية الشجرة الدهنية ذات الطبقتين الموضحة أعلاه، يمكن للمؤسسات تحقيق توسع خطي في الأداء، وأوقات إكمال مهام يمكن التنبؤ بها، وتقليل كبير في التكلفة الإجمالية للملكية مقارنة بحلول Ethernet القديمة. إن مزيج المفتاح من سرعة 200 جيجابت/ثانية HDR، وكثافة 40 منفذًا، وقدرات الحوسبة داخل الشبكة يجعله خيارًا مثاليًا للنشر الجديد أو الترقيات التدريجية من شبكات EDR/HDR. بالنسبة لفرق الهندسة المعمارية التي تقيّم مجموعات الجيل التالي، يقدم حل مفتاح InfiniBand MQM8790-HS2F تصميمًا مرجعيًا مثبتًا وجاهزًا للإنتاج.

