NVIDIA Mellanox MCX556A-ECAT في العمل: RDMA / RoCE تمكن من التأخير المنخفض للغاية وسرفر ثروبوت اختراقات

April 23, 2026

آخر أخبار الشركة NVIDIA Mellanox MCX556A-ECAT في العمل: RDMA / RoCE تمكن من التأخير المنخفض للغاية وسرفر ثروبوت اختراقات

في وحدات التخزين الموزعة، والحوسبة عالية الأداء (HPC)، ومجموعات تدريب الذكاء الاصطناعي، أدى زمن استجابة الشبكة وعبء وحدة المعالجة المركزية إلى تقييد كفاءة الخادم بشكل عام لفترة طويلة. يوضح النشر الأخير لدى مزود خدمة سحابية واسع النطاق كيفنفيديا ميلانوكس MCX556A-ECATيعالج هذه التحديات من خلال تقنيات RDMA وRoCE، مما يوفر مكاسب قابلة للقياس في كل من الإنتاجية وتقليل زمن الوصول.

الخلفية والتحديات

يقوم العميل بتشغيل مجموعة تخزين Ceph متعددة البيتابايت تدعم آلاف الأجهزة الافتراضية. قبل الترقية، عانت البنية التحتية لشبكة إيثرنت بسرعة 25 جيجابت التي تستخدم بروتوكول TCP/IP القياسي من الاستخدام العالي لوحدة المعالجة المركزية (أكثر من 60% على عقد التخزين) وزمن الاستجابة غير المتسق أثناء فترات الذروة. تجاوزت نوافذ النسخ الاحتياطي في كثير من الأحيان ثماني ساعات، وشهدت وظائف التدريب على الذكاء الاصطناعي توقف الإدخال/الإخراج. كان الفريق بحاجة إلى حل يمكنه تقليل تدخل وحدة المعالجة المركزية وتقليل زمن الوصول والتوسع دون إجراء إصلاح شامل للبنية التحتية. بعد الاطلاع علىورقة بيانات MCX556A-ECATوالمقارنةمواصفات MCX556A-ECAT، اختارواMCX556A-ECATكعنصر الترقية الأساسي.

الحل والنشر

تركزت الهندسة المعمارية علىبطاقة محول إيثرنت MCX556A-ECAT، محول ثنائي المنفذ بسرعة 100 جيجابت يدعم PCIe 3.0/4.0 x16. تم نشره كـبطاقة شبكة PCIe لمحول ConnectX MCX556A-ECAT، فقد مكنت RoCE v2 عبر طوبولوجيا العمود الفقري للأوراق الحالية مع الحد الأدنى من تغييرات التبديل. وشملت خطوات النشر الرئيسية ما يلي:

  • استبدال محولات 25 جيجابت القديمة بـMCX556A-ECATعلى 40 عقدة تخزين و150 عقدة حسابية.
  • تمكين عمليات إلغاء تحميل الأجهزة: NVMe over Fabrics (NVMe-oF)، وGPUDirect RDMA، وT10-DIF لتكامل البيانات.
  • تكوين التحكم في التدفق ذو الأولوية (PFC) واختيار ناقل الحركة المحسن (ETS) لنقل RoCE بدون فقدان.
  • التحققمتوافق مع MCX556A-ECATالحالة مع محولات Mellanox Spectrum الحالية وبصريات QSFP28.

استغرق النشر بالكامل عطلتي نهاية الأسبوع، مع عدم وجود أي توقف عن العمل باستخدام الترحيل المباشر لأحمال عمل الحوسبة.

النتائج والفوائد

كشفت قياسات ما بعد النشر عن تحسينات هائلة عبر المقاييس الرئيسية. ويلخص الجدول التالي المقارنة قبل/بعد:

متري قبل (25 جيجابت TCP/IP) بعد (MCX556A-ECAT مع RoCE) تحسين
استخدام وحدة المعالجة المركزية لعقدة التخزين 62% 18% ↓ 71%
متوسط ​​زمن الوصول (قراءة عشوائية بدقة 4K) 450 ميكرو ثانية 42 ثانية ↓ 90.7%
إجمالي إنتاجية الكتلة 38 جيجابايت/ثانية 172 جيجابايت/ثانية ↑ 353%
مدة النافذة الاحتياطية 8.5 ساعة 1.8 ساعة ↓ 79%

وبعيدًا عن الأرقام، أفاد الفريق الهندسي أن RDMA قلل من الارتعاش بشكل كبير، مما أدى إلى القضاء على طفرات "زمن الاستجابة" التي كانت تعاني منها سابقًا نقاط تفتيش تدريب الذكاء الاصطناعي. كشخص ناضجحل بطاقة محول إيثرنت MCX556A-ECAT، تعمل البطاقة أيضًا على تبسيط عملية استكشاف الأخطاء وإصلاحها من خلال القياس عن بعد المدمج وإشعارات الازدحام. للمنظمات تقييمسعر MCX556A-ECATومقابل مكاسب الأداء، حقق العميل عائدًا على الاستثمار في غضون تسعة أشهر من التوفير الأساسي لوحدة المعالجة المركزية (CPU) وإكمال المهام المجمعة بشكل أسرع. المحول الآنMCX556A-ECAT للبيعمن خلال شركاء قنوات متعددين، مما يجعل هذا المستوى من الأداء في متناول المؤسسات المتوسطة أيضًا.

ملخص والتوقعات

النشر يثبت أنMCX556A-ECATيفي بوعده: زمن استجابة RDMA دون الميكروثانية، وتفريغ جذري لوحدة المعالجة المركزية، وقياس الإنتاجية الخطية. سواء كنت تقوم بتشغيل قواعد بيانات موزعة، أو محاكاة HPC، أو تخزين NVMe-oF، فإننفيديا ميلانوكس MCX556A-ECATيقدم أساسًا مقاومًا للمستقبل. نظرًا لأن شبكة إيثرنت بسرعة 100 جيجابت أصبحت المعيار الجديد لمراكز البيانات، فإن الحلول المبنية حول هذا المحول ستستمر في التفوق على مكدسات TCP/IP القديمة. للحصول على التخطيط التفصيلي، راجع المسؤولورقة بيانات MCX556A-ECATأو التشاور مع مهندسي الحلول للتحقق من صحتهامتوافق مع MCX556A-ECATتكوينات لبيئتك المحددة.