NVIDIA Mellanox MCX653105A-HDAT محول الخادم الحل التقني
June 15, 2026
مع تطور التخزين الموزع وقواعد البيانات المتقاربة ومنصات تدريب الذكاء الاصطناعي نحو شبكات 100GbE / 200GbE ، أصبحت كومة TCP / IP التقليدية هي خنق أداء أساسي.العمليات الحرجة مثل تكرار البيانات ومزامنة السجلات حساسة للغاية لفترة تأخير، ومع ذلك ، فإن كومة شبكة النواة تُقدم عشرات الميكرو ثانية من التأخير وتستهلك موارد CPU كبيرة لمعالجة البروتوكول ، مما يحد بشدة من قابلية توسيع الإنتاجية.مراكز البيانات الحديثة تتطلب حلًا للشبكة يوفر تأخيرًا قريبًا من الذاكرة، معدل التوصيل، وتدخل الحد الأدنى من وحدة المعالجة المركزية
هذا الحل التقني يركز علىNVIDIA Mellanox MCX653105A-HDATمحول الخادم، مصمم لتلبية المتطلبات الرئيسية التالية:
- فترة تأخير بين العقدات تحت الميكرو ثانية للتخزين الموزع وحملات العمل HPC
- استخدام وحدة المعالجة المركزية أقل من 10٪ لمعالجة الشبكة ، وتحرير النواة من أجل منطق التطبيقات
- النقل بدون خسائر مع مكافحة الازدحام لتجنب ارتفاعات تأخر الذيل
- الاندماج السلس مع بنية تحتية Ethernet الحالية
- تحميل الأجهزة لـ NVMe-over-Fabrics (NVMe-oF) و GPUDirect RDMA
تعتمد الهندسة المعمارية المقترحة توبولوجيا CLOS (الورقة العمود الفقري) من مستويين مع نشر RoCE (RDMA عبر Ethernet المتقارب) كبروتوكول نقل أساسي.جميع خوادم الحوسبة والتخزين مجهزةبطاقة MCX653105A-HDAT Ethernetتم تمكين PFC (تحكم التدفق الأولوي) و ECN (إخطار الازدحام الصريح) لإنشاء نطاقات إثنترات غير الخاسرة لحركة المرور RDMA ،في حين أن طوابير الأولوية المنفصلة عزل التخزين، HPC، وتدفقات الإدارة.
تتضمن القرارات المعماريّة الرئيسية:
- RoCEv2عبر UDP-IP للسماح بالتوجيه عبر حدود الطبقة 3
- DCQCN (إشعار الازدحام الكمي لمركز البيانات)لإدارة الازدحام بشكل استباقي
- PCIe مقسمةلتخصيص عرض النطاق الترددي للتخزين مقابل حركة الحساب على نفس المحول
- دعم متعدد المضيفينتمكين ما يصل إلى أربعة خوادم من مشاركة محول واحد (سيناريوهات التخزين الممزقة)
في قلب هذا الحل،NVIDIA Mellanox MCX653105A-HDAT✓ محول ConnectX‐6 Dx مزدوج الموانئ ✓ يعمل كمحرك التخفيض الحرج.ورقة بيانات MCX653105A-HDAT، تتضمن البطاقة مسرعات الأجهزة التي تغير بشكل أساسي كيفية تعامل الخوادم مع إدخال/خروج الشبكة.
يسلط الجدول التالي الضوء على كيفية تلبية الميزات المحددة لمتطلبات الهندسة المعمارية:
| السمة | الوظيفة | الفائدة |
|---|---|---|
| تحميل أجهزة RoCE | كومة RDMA كاملة في المحول | فترة تأخير أقل من 1μs، صفر نسخة من المعالجة المركزية |
| NVMe-oF تحميل الهدف | تسريع الأجهزة لأوامر NVMe | 5 أضعاف سعة التخزين، 90% تخفيض في سعة المعالجة المركزية |
| ASAP2 (التبديل السريع) | افتح vSwitch للتحميل إلى الأجهزة | التداخلات الافتراضية لـ line-rate |
| التمهيد الآمن والعملة الرقمية في الإنترنت | تحميل أجهزة IPsec/TLS | تشفير بدون عقوبة أداء |
الـبطاقة الشبكة PCIe MCX653105A-HDAT ConnectXكما يتضمن تقييمًا عن بعد متقدمًا كل حزمة تحمل طوابع زمنية أجهزة وعدادات تدفق ، مما يوفر رؤية الازدحام في الوقت الحقيقي دون إجراء استطلاع للرأي على وحدة المعالجة المركزية المضيفة.للمنظمات المعنية بالمشتريات،MCX653105A-HDAT السعريوفر عائد استثمارات جذاب مقارنة مع التوسع القائم على وحدة المعالجة المركزية فقط أو البدائل القائمة على FPGA.
بالنسبة لمجموعة نموذجية من 200 عقدة، نوصي بالنهج التالي للتنفيذ:
- طبقة الأوراق:المفاتيح القابلة لـ RoCE (مثل NVIDIA SN3700) مع تمكين PFC / ECN ، تم تكوينها لمعلمات DCQCN تم ضبطها لتفجير حمولة العمل.
- طبقة العمود الفقري:أجهزة التبديل غير الممنوعة ذات نسبة الإفراط في الاشتراك الكافية (بحد أقصى 3: 1 لحركة التخزين).
- جانب الخادم:واحدحل البطاقات المتكاملة MCX653105A-HDAT Ethernetلكل عقدتين لمجموعات التخزين المشتركة، أو عقدة واحدة لكل عقدة للحوسبة العالية.
- عازلات و MTU:تكوين 9000 بايت إطارات جامبو من نهاية إلى نهاية، وتخصيص 10~20% من عازل التبديل لكل مجموعة ذات الأولوية لضمان عدم الخسارة.
عند التحقق من التوافق، معظم منصات الخادم الرئيسيةمتوافق مع MCX653105A-HDATتتضمن أجهزة Dell PowerEdge و HPE ProLiant و Lenovo ThinkSystem و Supermicro. يضمن واجهة PCIe 4.0/5.0 x16 الخاصة بالمحول عرض النطاق الترددي المستقبلي للجيل التالي من وحدة المعالجة المركزية.
إن عمليات نشر RoCE للإنتاج تتطلب رؤية استباقية. نوصي بالممارسات التشغيلية التالية:
- جمع القياسات عن بعد:استخدم NVIDIA
مفت(أدوات البرمجيات الثابتة Melanox) وإيثول -Sلتصدير العدادات في الميناء والصفوف إلى بروميثيوس أو أنظمة مماثلة. - المقاييس الرئيسية للمراقبة:إيقاف PFC الإطارات في الثانية، ECN معلّم معدل الحزم، RoCE إعادة الإرسال، ودرجة حرارة المحول.
- الكشف عن الازدحام:زيادة مفاجئة في توقف PFC غالبا ما يشير إلى جهاز استقبال بطيء؛ تحققمواصفات MCX653105A-HDATلمعلمات ضبط عتبة العازل.
- إدارة البرمجيات الثابتة:جدولة تحديثات البرمجيات الثابتة خلال نوافذ الصيانة؛ يدعم المكيف الهجرة المباشرة لاتصالات RoCE لتقليل وقت التوقف.
- قائمة التحقق من ضبط الأداء:تمكين تجميع IRQ ، وتعيين أحجام حلقات Rx / Tx المناسبة (4096 الموصى بها) ، وقطع الدبوس إلى النوى المخصصة ، والتحقق من عرض رابط PCIe (x16 @ Gen4/5).
الـNVIDIA Mellanox MCX653105A-HDATتوفر أساسًا كاملًا جاهزًا للإنتاج للأنسجة ذات الاختزال المنخفض القائمة على RDMA / RoCE.من خلال إزالة كامل مسار البيانات من أوامر التخزين إلى التبديل الافتراضي وتشفير الأمانيمكن للمنظمات التي تتبنى هذا الحل أن تتوقع:
- فترة تأخير محددة تحت 2μsعبر مئات العقد
- تحسين 5 × 10x في معدل الإنجازلتدفقات العمل NVMe-oF و HPC
- تخفيض من 80 إلى 90%في تكاليف العمليات المركزية ذات الصلة بالشبكة
- قابلية التوسع الخطيةبدون انهيار الازدحام
بالنسبة للمهندسين الذين يقومون بتقييم الخيارات،ورقة بيانات MCX653105A-HDATوالإرشادات الرسمية للتوافق هي المراجع الموثوق بها.MCX653105A-HDAT للبيعمن خلال شركاء قناة NVIDIA، فإن الطريق إلى مستوى بيانات عالية الأداء، منخفضة التأخير واضح ويمكن تحقيقه.يقدم هذا الحل التقني مخططًا لأي منظمة تسعى إلى إطلاق الإمكانات الكاملة لشبكات 100GbE مع RDMA و RoCE.

