ممارسة التطبيق: NVIDIA Mellanox MCX631102AN-ADAT – RDMA/RoCE النقل منخفض زمن الاستجابة وتحسين إنتاجية الخادم
April 27, 2026
في التخزين الموزع، والحوسبة عالية الأداء، ومجموعات تدريب الذكاء الاصطناعي، أصبح زمن انتقال الشبكة والحمل الزائد لوحدة المعالجة المركزية عنق الزجاجة الأساسي الذي يحد من أداء الخادم. قامت إحدى مزودي خدمات السحابة مؤخرًا بترقية الواجهة الخلفية للتخزين NVMe-oF الخاصة بها عن طريق اختيار بطاقة الخادم NVIDIA Mellanox MCX631102AN-ADAT. من خلال نشر RDMA عبر شبكات إيثرنت الموحدة (RoCEv2)، حققوا نقلًا بزمن انتقال منخفض من طرف إلى طرف وزيادات كبيرة في إنتاجية الخادم. تدرس دراسة الحالة هذه كيفية أداء البطاقة في بيئة إنتاجية.
الخلفية والتحدي: عنق الزجاجة لمكدس بروتوكول TCP/IP
تعاملت البنية التحتية الحالية لمزود الخدمة 25GbE مع حركة مرور التخزين باستخدام مكدس برامج TCP/IP التقليدي. في سيناريوهات NVMe/TCP، تجاوز استخدام وحدة المعالجة المركزية لتغليف وفك تغليف الحزم 40٪، مما أدى إلى زمن انتقال تخزين يزيد عن 200 ميكرو ثانية وقلل بشكل كبير من سعة الحوسبة على خوادم التطبيقات. احتاج المهندسون المعماريون بشكل عاجل إلى حل يمكنه تجاوز مكدس شبكة النواة، وتقليل تداخل وحدة المعالجة المركزية، والحفاظ على إنتاجية خطية على روابط 25GbE المزدوجة. بعد تقييم خيارات متعددة، اختاروا MCX631102AN-ADAT ConnectX-6 Lx ثنائية المنافذ 25GbE SFP28 كأجهزة أساسية لتجديد شبكة التخزين الخاصة بهم.
الحل والنشر: RDMA/RoCEv2 مع تفريغ الأجهزة
استبدل النشر جميع الخوادم المواجهة للتخزين ببطاقة محول إيثرنت MCX631102AN-ADAT، تعمل في وضع RoCEv2 غير المفقود (باستخدام ECN و PFC). شملت خطوات النشر الرئيسية:
- تمكين SR-IOV وتخصيص وظائف افتراضية (VFs) لأجهزة التخزين الافتراضية، متجاوزًا مكدس شبكة الهايبرفايزر
- تكوين NVMe عبر الشبكات (NVMe-oF) مع نقل RDMA، مما يلغي حمل TCP تمامًا
- ضبط عتبات مخزن المحولات لحركة مرور RoCE 25GbE غير المفقودة عبر طوبولوجيا الورقة والعمود الفقري
تم استخدام مواصفات MCX631102AN-ADAT— بما في ذلك الطوابع الزمنية للأجهزة، ونقل الاتصال الديناميكي (DCT)، ومحرك الاستقبال المتجهي — بالكامل لضمان زمن انتقال يمكن التنبؤ به أقل من ميكرو ثانية حتى تحت حمل مجمع يبلغ 50 جيجابت في الثانية.
مكاسب الأداء المقاسة والفوائد التشغيلية
بعد الترحيل إلى الشبكة القائمة على NVIDIA Mellanox MCX631102AN-ADAT، تم التقاط المقاييس التالية:
| المقياس | قبل (TCP/IP 25GbE) | بعد (RoCEv2 مع MCX631102AN-ADAT) |
|---|---|---|
| زمن انتقال قراءة NVMe-oF (P99) | 215 ميكرو ثانية | 18 ميكرو ثانية |
| استخدام وحدة المعالجة المركزية (مسار إدخال/إخراج التخزين) | 41٪ (نواة واحدة مشبعة) | 7٪ (موزعة عبر النوى) |
| إنتاجية الخادم المجمعة (RX+TX) | 42 جيجابت في الثانية (محدودة بالبرنامج) | 49.8 جيجابت في الثانية (معدل خطي) |
| إنتاجية الحزم الصغيرة (64B) | 8.1 مليون حزمة في الثانية | 37.5 مليون حزمة في الثانية (توجيه تدفق الأجهزة) |
لاحظ المهندسون أن حل بطاقة محول إيثرنت MCX631102AN-ADAT قدم زمن انتقال ذيل يمكن التنبؤ به مناسب لقواعد بيانات التحليلات في الوقت الفعلي. بالإضافة إلى ذلك، تم إعادة تعيين نوى وحدة المعالجة المركزية المحررة إلى أعباء عمل التطبيقات، مما زاد من كثافة المستأجر الإجمالية بنسبة 24٪ تقريبًا على نفس الخوادم المادية.
التوافق وتكامل النظام البيئي
عند توسيع النشر، تحقق فريق العمليات من أن البطاقة MCX631102AN-ADAT متوافقة مع محولات NVIDIA Spectrum الحالية الخاصة بهم (ملفات تعريف RoCE غير المفقودة)، بالإضافة إلى محولات ToR من جهات خارجية من Arista و Cisco مع تكوين DCBX. لتخطيط المشتريات، أشاروا إلى ورقة بيانات MCX631102AN-ADAT للتحقق من أغلفة الطاقة (حوالي 12 واط نموذجي) والمتطلبات الحرارية. أكدت الاستفسارات المجمعة المبكرة أن سعر MCX631102AN-ADAT لا يزال تنافسيًا مقارنة ببطاقات SmartNICs ذات الفئة المماثلة، مع وجود العديد من الموزعين الذين يسردون MCX631102AN-ADAT للبيع بموجب اتفاقيات حجم قياسية.
الملخص والتوقعات
توضح حالة الإنتاج بوضوح أن MCX631102AN-ADAT تمكن من تحول أساسي من شبكات التخزين المقيدة بـ TCP إلى شبكات مسرعة بـ RDMA دون الحاجة إلى تحديث كامل للبنية التحتية 100GbE. من خلال الاستفادة من تصميم MCX631102AN-ADAT ConnectX-6 Lx ثنائية المنافذ 25GbE SFP28، يمكن للمؤسسات مضاعفة الإنتاجية الفعالة للأعباء الحساسة لزمن الانتقال مع استعادة موارد وحدة المعالجة المركزية الهامة. بالنظر إلى المستقبل، سيمتد نفس نمط النشر إلى أطر التعلم الآلي الموزعة (NCCL عبر RoCE) والتطبيقات ذات الحالة المستندة إلى الخدمات المصغرة. بالنسبة للمهندسين المعماريين الذين يقيمون ترقيات 25GbE، فإن NVIDIA Mellanox MCX631102AN-ADAT تمثل لبنة بناء مثبتة ومُحكمة في الإنتاج لشبكات مراكز البيانات عالية الأداء ومنخفضة زمن الانتقال.

