الحل الفني: NVIDIA Mellanox MCX631102AN-ADAT محول الخادم RDMA / RoCE نقل انخفاض الكتلة

April 27, 2026

الحل الفني: NVIDIA Mellanox MCX631102AN-ADAT محول الخادم   RDMA / RoCE نقل انخفاض الكتلة

توفر هذه الورقة التقنية الشاملة مرجعًا معمقًا لمهندسي الشبكات، ومهندسي المبيعات المسبقة، وقادة العمليات الذين يخططون لنشر محولات الخادم من نوع NVIDIA Mellanox MCX631102AN-ADAT في بيئات مراكز البيانات عالية الأداء. يركز الحل على التخلص من الحمل الزائد لمكدس TCP/IP، وتمكين نقل البيانات منخفض الكمون باستخدام RDMA/RoCEv2، وتعظيم إنتاجية الخادم لأعباء العمل الخاصة بالتخزين وقواعد البيانات والذكاء الاصطناعي.

1. خلفية المشروع وتحليل المتطلبات

تواجه معماريات مراكز البيانات الحديثة ثلاث تحديات متقاربة: النمو المتفجر لحركة المرور من الشرق إلى الغرب، والتحول نحو التخزين المفكك (NVMe-oF، vSAN)، والحاجة إلى الحفاظ على دورات وحدة المعالجة المركزية لمنطق التطبيق بدلاً من معالجة الشبكة. تعاني عمليات النشر القديمة لشبكات 25GbE التي تستخدم TCP/IP التقليدي من كمون ذيلي مرتفع (200-500 ميكروثانية لعمليات التخزين)، ومعالجة مفرطة للحزم في النواة، وإنتاجية غير فعالة للحزم الصغيرة. المتطلب الأساسي هو شبكة غير مفقودة ذات كمون منخفض تمكن الوصول المباشر للذاكرة بين الخوادم دون تدخل وحدة المعالجة المركزية، مع الحفاظ على التوافق مع البنية التحتية الحالية لشبكات Ethernet.

2. تصميم بنية الشبكة والنظام الشاملة

يتبنى الحل المقترح بنية طبقتين من نوع Leaf-Spine مع تكوين RoCEv2 غير المفقود. تشمل القرارات المعمارية الرئيسية ما يلي:

  • الطبقة المادية: اتصالات 25GbE SFP28 من كل خادم حوسبة/تخزين إلى مفاتيح Leaf، وصلات علوية 100GbE أو 400GbE من Leaf إلى Spine
  • النسيج الموحد: نسيج Ethernet مشترك يحمل كلاً من حركة مرور TCP القياسية وتدفقات RoCEv2 غير المفقودة، باستخدام تحديد الأولويات المستند إلى DSCP
  • التحكم في التدفق: التحكم في التدفق ذي الأولوية (PFC) على الأولويات غير المفقودة، ووضع علامات ECN لإشعار الازدحام، والتفاوض على DCBX
  • جانب المضيف: فتحات PCIe 4.0 x16 مخصصة لكل بطاقة محول Ethernet من نوع MCX631102AN-ADAT، مع تمكين SR-IOV للبيئات الافتراضية

بالنسبة لعمليات نشر NVMe-oF، يستضيف كل خادم تخزين محولين من نوع MCX631102AN-ADAT ConnectX-6 Lx مزدوج المنفذ 25GbE SFP28 - أحدهما لحركة مرور التطبيقات الأمامية والآخر لحركة مرور النسخ الاحتياطي وإعادة البناء الخلفية، مما يضمن عزل الأخطاء وفصل جودة الخدمة.

3. دور وميزات MCX631102AN-ADAT الرئيسية في الحل

يقدم محول MCX631102AN-ADAT كجهاز نقطة نهاية حاسم يمكّن تسريع RDMA على جانب المضيف. تساهم مساهماته التقنية الرئيسية فيما يلي:

الميزة الفائدة الوظيفية لـ RDMA/الإنتاجية
عمليات نقل النقل في الأجهزة RoCEv2، DCQCN، DCT، مطابقة العلامات - لا تدخل لوحدة المعالجة المركزية لإدارة الاتصال الموثوقة
واجهة PCIe 4.0 x16 نطاق ترددي كافٍ للمضيف لإنتاجية خطية مجمعة تبلغ 50 جيجابت في الثانية (25 جيجابت في الثانية لكل منفذ)
محرك استقبال متجه تجميع وتجزئة الأجهزة وتقسيم الرأس - يحسن إنتاجية الحزم الصغيرة إلى 37 مليون حزمة في الثانية لكل منفذ
تمهيد آمن وجذر الثقة التحقق من سلامة البرامج الثابتة لعمليات النشر الحساسة للأمان في NFV والخدمات المالية
SR-IOV مع ما يصل إلى 256 VF تمرير مباشر لقوائم انتظار RoCE إلى الأجهزة الافتراضية/الحاويات دون حمل زائد على المحاكاة الافتراضية للمشرف

بالإشارة إلى ورقة بيانات MCX631102AN-ADAT، يوفر المحول أيضًا طوابع زمنية في الأجهزة (عداد طوابع زمنية يعمل بحرية بدقة 1 نانوثانية)، مما يتيح PTP/SyncE دقيقًا لتطبيقات التداول المالي أو تطبيقات حافة الاتصالات.

4. توصيات النشر والتوسع (البنية النموذجية)

بالنسبة لعمليات النشر الحالية (brownfield)، يوصى باتباع نهج مرحلي:

  • المرحلة 1 - ترقية مستوى التخزين: نشر MCX631102AN-ADAT على جميع خوادم التخزين التي تشغل برامج NVMe-oF المستهدفة (مثل SPDK، TargeR). تكوين منافذ المفاتيح بأولويات PFC 3 لـ RoCE و 1 لـ CNP، باستخدام التفاوض التلقائي لـ DCBX.
  • المرحلة 2 - تمكين مستوى الحوسبة: تثبيت المحولات على خوادم الحوسبة التي تشغل أطر عمل قواعد البيانات أو الذكاء الاصطناعي (TensorFlow، PyTorch مع NCCL). تمكين مكتبة الأفعال القادرة على RDMA وتكوين فهرس GID لـ RoCEv2.
  • المرحلة 3 - توحيد الشبكة: ترحيل أعباء عمل TCP عالية الحساسية (التحليلات في الوقت الفعلي، ملحقات الخدمات المصغرة) إلى RoCE بأنواع خدمة UC أو RC.

قائمة التحقق من صحة البنية:

  • يجب أن تدعم جميع مفاتيح Leaf شبكة RoCE غير المفقودة (PFC + ECN) مع مساحة تخزين مؤقت كافية
  • MTU من طرف إلى طرف لا يقل عن 2000 بايت (يفضل 9000 للإطارات الكبيرة)
  • قابلية توجيه أحادي الوجهة لحركة مرور RoCEv2 (منفذ UDP 4791)
  • قائمة MCX631102AN-ADAT المتوافقة التي تم التحقق منها: NVIDIA Spectrum (مفضل)، Cisco Nexus 9300-EX/FX، Arista 7050X/7050X3 مع ملفات تعريف DCBX

5. العمليات والصيانة - المراقبة واستكشاف الأخطاء وإصلاحها والتحسين

يعتمد نجاح النشر الإنتاجي على القياس عن بعد المناسب ومعالجة الاستثناءات الاستباقية. تشمل الممارسات التشغيلية الموصى بها ما يلي:

  • اكتشاف الازدحام: مراقبة عدادات إطارات إيقاف PFC لكل منفذ على المفاتيح وإحصائيات حزم ECN المميزة للمحول باستخدام ethtool -S أو mlxlink.
  • ضمان اتفاقية مستوى الخدمة للكمون: نشر مراقبة الكمون ذات الطوابع الزمنية في الأجهزة باستخدام أدوات مثل ucxtrace أو mlx5cmd؛ زمن ذهاب وإياب صحي نموذجي أقل من 10 ميكروثانية داخل الرف، وأقل من 30 ميكروثانية عبر الأسباين.
  • محاذاة البرامج الثابتة وبرامج التشغيل: استخدام حزمة البرامج الثابتة التي تم التحقق منها من NVIDIA (راجع مواصفات MCX631102AN-ADAT لأرقام الأجزاء الدقيقة) وإصدارات برامج التشغيل (mlx5_core ≥ 5.9).
  • إدارة RMA ودورة الحياة: عند تحليل سعر MCX631102AN-ADAT مقابل التكلفة الإجمالية للملكية، قم بتضمين دورة تحديث عقدة مدتها 3-5 سنوات؛ يسرد العديد من الموزعين العالميين MCX631102AN-ADAT للبيع مع دعم ضمان متعدد السنوات.

لحل المشكلات، فإن الأخطاء الأكثر شيوعًا هي: عتبات المخزن المؤقت للمحول غير الصحيحة (مما يؤدي إلى عواصف إطارات الإيقاف)، ونوع GID غير المتطابق (يفضل نوع GID 2 لـ IPv6 RoCEv2)، وعدم تمكين عمليات النقل في الأجهزة في أفعال التطبيق (تأكد من ibv_reg_mr مع وصول الكتابة المحلي).

6. الملخص وتقييم القيمة

يقدم محول NVIDIA Mellanox MCX631102AN-ADAT حلاً جاهزًا للإنتاج من نوع MCX631102AN-ADAT Ethernet adapter card solution للمؤسسات التي تسعى إلى تحقيق أداء حقيقي منخفض الكمون بخط كامل على البنية التحتية الناضجة لشبكات 25GbE. من خلال تمكين عمليات نقل RDMA/RoCEv2 في الأجهزة، يحقق الحل كمون NVMe-oF أقل من 20 ميكروثانية، ويستعيد أكثر من 30٪ من نوى وحدة المعالجة المركزية لأعباء عمل التطبيقات، ويحافظ على إنتاجية مجمعة تبلغ 50 جيجابت في الثانية مع كفاءة حزم صغيرة كانت متاحة سابقًا فقط على محولات 100 جيجابت في الثانية. بالنسبة للمهندسين الذين يخططون لمجموعات تخزين فائقة التقارب أو مجموعات الذكاء الاصطناعي الجديدة، فإن MCX631102AN-ADAT يمثل عامل تمكين استراتيجي - يوفر ملف تعريف الكمون لـ InfiniBand مع بساطة التشغيل لشبكات Ethernet.