NVIDIA Mellanox MQM8790-HS2F في العمل: تحسين اتصالات الإنترنت ذات الكمون المنخفض لمجموعات RDMA / HPC / AI
April 10, 2026
كانت منظمة بحثية سريعة النمو في مجال الذكاء الاصطناعي تواجه مشكلة مألوفة: كانت مجموعة وحدات معالجة الرسومات (GPU) التي تضم أكثر من 200 وحدة، والمستخدمة لتدريب نماذج اللغة الكبيرة ومحاكاة ديناميكيات الجزيئات، تعاني من أوقات إكمال غير متوقعة للمهام. على الرغم من وجود عقد حسابية قوية، إلا أن شبكة الإيثرنت الحالية بسرعة 100 جيجابت في الثانية عانت من ارتفاعات في زمن الاستجابة المتأخر، وفقدان الحزم في أنماط التجميع (incast)، وعبء وحدة المعالجة المركزية (CPU) المرتفع بسبب معالجة مكدس TCP/IP التقليدي. احتاج الفريق إلى حل يمكنه توفير زمن استجابة ثابت أقل من الميكروثانية، ودعم RDMA بالكامل لـ GPU Direct، والتوسع دون الحاجة إلى ترقيات شاملة. بعد تقييم الخيارات المتاحة، اختارواMQM8790-HS2F (NVIDIA Mellanox)كوحدة بناء أساسية لشبكة مجموعتهم من الجيل التالي.
قامت المنظمة بنشرمفتاح InfiniBand MQM8790-HS2Fفي بنية شجرية دهنية ذات مستويين، تربط 128 عقدة حسابية (كل منها مجهز بمحولات NVIDIA ConnectX-6 HDR) و 4 عقد تخزين. بفضل منافذ QSFP56 الـ 40 التي تعمل بسرعة 200 جيجابت في الثانية HDR، وفر مفتاح واحدNVIDIA Mellanox MQM8790-HS2Fقدرة تبديل غير مانعة تبلغ 16 تيرابايت في الثانية - وهو ما يكفي لاستبدال مفتاحي إيثرنت قديمين مع تقليل تعقيد الكابلات. استفاد النشر من الدعم الأصلي لـMQM8790-HS2F 200Gb/s HDR 40-port QSFP56لـ RDMA و GPUDirect، مما يتيح الوصول المباشر إلى الذاكرة بين وحدات معالجة الرسومات عبر خوادم مختلفة دون تدخل وحدة المعالجة المركزية.
شملت تفاصيل التنفيذ الرئيسية:
- التوجيه التكيفي لموازنة حركة المرور تلقائيًا عبر مسارات متعددة، مما يلغي النقاط الساخنة.
- بروتوكول التجميع والاختزال الهرمي القابل للتوسع (SHARPv3) للاختزال داخل الشبكة، مما يسرع عمليات All-Reduce بما يصل إلى 2.5 مرة.
- التحكم في الازدحام على مستوى المفتاح، مما يمنع حظر رأس الخط (head-of-line blocking) الشائع في بيئات الإيثرنت المفقودة للحزم.
قبل الشراء، راجع فريق الهندسةورقة بيانات MQM8790-HS2Fومواصفات MQM8790-HS2Fلتأكيد التوافق مع كابلات ومحولات Mellanox الحالية لديهم. سمح النظام البيئي المتوافق معMQM8790-HS2F- بما في ذلك كابلات HDR البصرية والنحاسية - بإعادة استخدام 40٪ من استثمارات الربط البيني السابقة، مما قلل بشكل كبير من حاجز الترقية.
بعد الانتقال إلى الشبكة القائمة علىMQM8790-HS2F، وثقت المنظمة ثلاث فئات من التحسينات:
- تقليل زمن الاستجابة: انخفض متوسط زمن استجابة MPI ping-pong من 2.1 ميكروثانية (Ethernet RoCE) إلى 0.82 ميكروثانية، مع القضاء فعليًا على زمن الاستجابة المتأخر.
- إنتاجية المهام: اكتملت مهام التدريب الموزع (المعتمدة على NCCL) بشكل أسرع بنسبة 37٪ بسبب تقليل عبء الاتصال وتسريع SHARPv3.
- تفريغ وحدة المعالجة المركزية (CPU): قلل RDMA عبر InfiniBand استخدام وحدة المعالجة المركزية للشبكات من حوالي 15٪ إلى أقل من 2٪، مما أتاح نوى إضافية للحساب.
في معيار اتصال شامل لـ 128 وحدة معالجة رسومات، حافظحل مفتاح InfiniBand MQM8790-HS2Fعلى سرعة 198 جيجابت في الثانية لكل منفذ مع فقدان صفر للحزم، مقارنة بـ 112 جيجابت في الثانية مع فقدان 1.2٪ على شبكة الإيثرنت السابقة. بالنسبة للمحاكاة المالية التي أجراها نفس الفريق، تم تقليل تباين المهام بنسبة 78٪، مما أتاح اتفاقيات مستوى خدمة (SLA) أكثر صرامة ووقت تشغيل يمكن التنبؤ به.
يوضح هذا النشر الواقعي أنMQM8790-HS2Fهو أكثر من مجرد بطل في ورقة المواصفات - فهو يقدم فوائد ملموسة لأعباء عمل الحوسبة عالية الأداء (HPC) والذكاء الاصطناعي في الإنتاج. يغير مزيج إنتاجية 200 جيجابت في الثانية HDR، و 40 منفذًا عالي الكثافة، والحوسبة المتقدمة داخل الشبكة اقتصاديات المجموعة من خلال تقليل كل من وقت إكمال المهام والنفقات التشغيلية. بالنسبة لقادة تكنولوجيا المعلومات الذين يقيمونسعر MQM8790-HS2Fمقابل مكاسب الأداء، تشير دراسة الحالة هذه إلى عائد استثمار (ROI) أقل من 12 شهرًا بناءً على تحسينات كفاءة الحوسبة وحدها.
بينما تخطط المنظمة لمضاعفة عدد وحدات معالجة الرسومات لديها إلى أكثر من 400 عقدة، فقد خصصت بالفعل وحداتMQM8790-HS2F للبيعإضافية للحفاظ على بنية شجرية دهنية غير مانعة. تضمن قدرة المفتاح على مزج سرعات HDR و EDR مسار ترقية سلس مع استبدال المحولات القديمة تدريجيًا. بالنسبة للمهندسين المعماريين الذين يصممون مجموعات الجيل التالي التي تركز على RDMA، يوفرNVIDIA Mellanox MQM8790-HS2Fعمودًا فقريًا مثبتًا وجاهزًا للإنتاج يتوسع من أبحاث الذكاء الاصطناعي على مستوى القسم إلى الحوسبة الفائقة على نطاق الإكساسكيل.

