ميلانوكس (NVIDIA Mellanox) 920-9B210-00FN-0D0 حل تقني لتحويل InfiniBand

April 15, 2026

1. خلفية المشروع وتحليل المتطلبات

تواجه مجموعات تدريب الذكاء الاصطناعي الحديثة وبيئات الحوسبة عالية الأداء (HPC) تحديًا شائعًا في التوسع: مع زيادة عدد وحدات معالجة الرسومات وكثافة الحوسبة، تصبح شبكات الإيثرنت التقليدية هي عنق الزجاجة الأساسي بسبب الحمل الزائد لبروتوكول TCP/IP، وفقدان الحزم، وزمن الاستجابة المتأخر غير المتوقع. بالنسبة للأعباء التي تعتمد على RDMA (الوصول المباشر للذاكرة عن بُعد)، يمكن أن يؤدي حتى الاهتزاز بمستوى الميكروثانية إلى تقليل استخدام وحدة معالجة الرسومات الفعال بنسبة 30-40٪. يقوم مفتاح InfiniBand من Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 بمعالجة هذه التحديات مباشرة من خلال توفير شبكة غير مفقودة وحتمية محسّنة للعمليات الجماعية، وخوارزميات التجميع الشامل، واتصالات MPI عالية التردد.

تشمل المتطلبات الرئيسية لشبكات الذكاء الاصطناعي/HPC من الجيل التالي: زمن استجابة تبديل أقل من الميكروثانية، ودعم لسرعات 400 جيجابت في الثانية NDR، والحوسبة داخل الشبكة المستندة إلى الأجهزة (SHARP v2)، والتوافق التام مع البنية التحتية HDR الحالية. يلبي مفتاح 920-9B210-00FN-0D0 جميع هذه المعايير مع توفير قابلية إدارة واتصالات على مستوى المؤسسات.

2. تصميم بنية الشبكة والنظام الشاملة

تتمحور البنية الموصى بها حول طوبولوجيا شجرة سمينة ذات طبقتين (العمود الفقري - الأوراق)، والتي توفر عرض نطاق ترددي كامل للانقسام وزمن استجابة حتمي لأنماط الاتصال من الكل إلى الكل النموذجية في التدريب الموزع. تتكون طبقة العمود الفقري من مفاتيح NVIDIA Mellanox 920-9B210-00FN-0D0، يعمل كل منها كعمود فقري لشبكة NDR. تتصل مفاتيح الأوراق (مثل سلسلة QM9700) بعقد الحوسبة عبر محولات ConnectX-7 أو BlueField-3، بينما تعمل الوصلات الصاعدة إلى العمود الفقري بسرعات 400 جيجابت في الثانية NDR.

بالنسبة لعمليات النشر واسعة النطاق التي تتجاوز 2000 وحدة معالجة رسومات، يمكن تنفيذ بنية ثلاثية الطبقات (النواة - التجميع - الوصول)، مع وحدات 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR تعمل كمفاتيح للنواة والتجميع على حد سواء. يضمن هذا التصميم قابلية توسع الأداء الخطي ويدعم التوسع المستقبلي إلى NDR200 (800 جيجابت في الثانية) دون الحاجة إلى ترقية شاملة. يبسط 920-9B210-00FN-0D0 InfiniBand switch OPN الرسمي عمليات الشراء متعددة المواقع ويضمن اتساق البرامج الثابتة عبر الشبكة بأكملها.

3. دور وميزات مفتاح 920-9B210-00FN-0D0 الرئيسية في الحل

يمثل مفتاح 920-9B210-00FN-0D0 كعنصر العمود الفقري/النواة عالي الأداء ضمن شبكة InfiniBand. تشمل قدراته الرئيسية:

كثافة منافذ 400 جيجابت في الثانية NDR: يوفر كل مفتاح 920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR ما يصل إلى 32 منفذًا بسرعة 400 جيجابت في الثانية، ويدعم كل من أجهزة الإرسال والاستقبال النحاسية والبصرية للكابلات المرنة حتى 500 متر (أحادية النمط).
الحوسبة داخل الشبكة (SHARP v2): تقلل عمليات التجميع الشامل المعجلة بالأجهزة من وقت الاتصال الجماعي بما يصل إلى 8 مرات لأعباء عمل تدريب الذكاء الاصطناعي، مما يحسن استخدام وحدة معالجة الرسومات بشكل مباشر.
التوجيه التكيفي والتحكم في الازدحام: يتجنب اختيار المسار الديناميكي تكوين النقاط الساخنة ويضمن زمن استجابة حتميًا تحت أنماط حركة المرور المتزامنة.
بديل RDMA عبر الإيثرنت الموحد (RoCE): على عكس RoCE، لا يتطلب InfiniBand الأصلي على مفتاح 920-9B210-00FN-0D0 تكوين PFC ويوفر أداءً ثابتًا حتى عند استخدام 95٪ من سعة الارتباط.

يمكن للمهندسين الرجوع إلى ورقة بيانات 920-9B210-00FN-0D0 و مواصفات 920-9B210-00FN-0D0 للحصول على تفاصيل الطاقة (عادة 350 واط) والحرارة وزمن الاستجابة (تأخير تبديل أقل من 200 نانوثانية). المفتاح متوافق تمامًا 920-9B210-00FN-0D0 مع جميع نقاط نهاية NVIDIA InfiniBand الرئيسية وأجهزة البصريات NDR التابعة لجهات خارجية.

4. توصيات النشر والتوسع (أمثلة على الطوبولوجيا)

مجموعة صغيرة (128-256 وحدة معالجة رسومات): عمود فقري واحد يتكون من مفتاحين 920-9B210-00FN-0D0، يتصل كل منهما بـ 8-16 مفتاح أوراق. يوفر عرض نطاق ترددي كامل للانقسام والتكرار.مجموعة متوسطة (512-1024 وحدة معالجة رسومات): أربعة مفاتيح عمود فقري في تكوين غير مانع، مع كل مفتاح أوراق لديه 4 وصلات صاعدة (2 لكل عمود فقري). تضمن هذه الطوبولوجيا عدم تجاوز أي رابط فردي 80٪ من الاستخدام تحت حركة المرور القصوى.مجموعة كبيرة (2048+ وحدة معالجة رسومات): طبقة نواة تتكون من 8 مفاتيح NVIDIA Mellanox 920-9B210-00FN-0D0، طبقة مجمعة تستخدم نفس الطراز، وطبقة وصول بسلسلة QM9700. جميع الوصلات البينية بسرعة 400 جيجابت في الثانية NDR، مع استعداد اختياري لـ NDR200.

بالنسبة للمؤسسات التي تقيّم التكلفة، فإن سعر 920-9B210-00FN-0D0 يتم وضعه بشكل تنافسي مقارنة بمفاتيح الإيثرنت المتطورة عند احتساب التكلفة الإجمالية للملكية (TCO). الوحدات متاحة كـ 920-9B210-00FN-0D0 للبيع من خلال شبكة التوزيع المعتمدة من NVIDIA، مع أوقات تسليم نموذجية تتراوح من 4 إلى 6 أسابيع.

5. العمليات والمراقبة واستكشاف الأخطاء وإصلاحها والتحسين

تتم الإدارة بشكل مركزي عبر NVIDIA Unified Fabric Manager (UFM)، الذي يوفر اتصالات في الوقت الفعلي، وتحليلًا تنبؤيًا للأعطال، وإصلاحًا تلقائيًا. تشمل الممارسات التشغيلية الرئيسية لـ حل 920-9B210-00FN-0D0 InfiniBand switch OPN ما يلي:

خطوط الأساس للأداء: استخدم خرائط حرارة زمن الاستجابة الخاصة بـ UFM لتحديد الانفجارات الدقيقة. تؤكد مواصفات 920-9B210-00FN-0D0 على عدادات الأجهزة لعلامات ECN واحتلال المخزن المؤقت.
إدارة البرامج الثابتة: حافظ على جميع الوحدات على نفس فرع برامج NDR الثابتة. تتضمن ورقة بيانات 920-9B210-00FN-0D0 مصفوفة توافق لـ ConnectX-7 و BlueField-3.
سيناريوهات الأعطال: تسمح وحدات إمداد الطاقة ووحدات المروحة المتكررة بالتكرار N+1. يمكن لـ UFM إعادة توجيه حركة المرور تلقائيًا حول الروابط أو المفاتيح الفاشلة.
نصائح التحسين: قم بتمكين التوجيه التكيفي على جميع منافذ العمود الفقري؛ قم بتعطيل إطارات الإيقاف العالمية؛ قم بتكوين SHARP لأعباء العمل المكثفة على التجميع؛ استخدم معرفات 920-9B210-00FN-0D0 InfiniBand switch OPN لربط المنافذ المادية بالأدوار المنطقية.

6. الملخص وتقييم القيمة

يمثل مفتاح Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 لبنة أساسية لشبكات الذكاء الاصطناعي والحوسبة عالية الأداء. من خلال توفير عرض نطاق ترددي 400 جيجابت في الثانية NDR، وزمن استجابة تبديل أقل من الميكروثانية، والحوسبة داخل الشبكة SHARP v2، فإنه يزيل اختناقات الشبكة التي تحد عادةً من توسع وحدات معالجة الرسومات. مفتاح 920-9B210-00FN-0D0 ليس مجرد مفتاح - إنه حل 920-9B210-00FN-0D0 InfiniBand switch OPN كامل يتضمن التوافق الكامل مع البنى التحتية HDR الحالية، والإدارة على مستوى المؤسسات من خلال UFM، ومسار ترقية واضح لسرعات NDR200 المستقبلية. بالنسبة لمهندسي الشبكات ومديري تكنولوجيا المعلومات الذين يسعون إلى تحسين أداء الربط البيني لمجموعات RDMA/HPC/AI، يقدم هذا المفتاح عائد استثمار قابل للقياس من خلال زيادة استخدام وحدات معالجة الرسومات، وتقليل أوقات إكمال المهام، وخفض النفقات التشغيلية.

مرجع المواصفات الرئيسية

المعلمة	القيمة
الموديل	NVIDIA Mellanox 920-9B210-00FN-0D0
معدل البيانات	400 جيجابت في الثانية NDR (لكل منفذ)
OPN الأساسي	920-9B210-00FN-0D0 InfiniBand switch OPN
التكوين الكامل	920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDR
زمن استجابة التبديل	<200 نانوثانية
استهلاك الطاقة	~350 واط (نموذجي)