NVIDIA Mellanox MCX653106A-HDAT Server Adapter الكتاب الأبيض التقني
April 30, 2026
هذا الكتاب الأبيض التقني مخصص لمهندسي شبكات، مهندسي ما قبل المبيعات، ومديري العمليات.شبكات مراكز البيانات منخفضة الكمون باستخدامNVIDIA Mellanox MCX653106A-HDATخادم NIC ، مع التركيز على نقل RDMA / RoCE ومكاسب معدل خادم قابلة للقياس.
عبء عمل مراكز البيانات الحديثة، بما في ذلك أنسجة تخزين NVMe-oF، وتدريب الذكاء الاصطناعي الموزع، والتجارة عالية التردد، والتحليلات في الوقت الحقيقي، تضع متطلبات شديدة على البنية التحتية للشبكة.المعالجة التقليدية لمجموعات TCP/IP تخلق ثلاثة اختناقات أساسية: ارتفاع تكاليف وحدة المعالجة المركزية (غالبا ما تتجاوز 50٪ من دورات الأساس) ، وفترة تأخير متغيرة بسبب قيود تجاوز النواة ، وتقليل الناتج الفعلي من تكاليف معالجة البروتوكول.تتطلب المنظمات حلًا يوفر عرض النطاق الترددي بمعدل خط مع تأخير أقل من ميكرو ثانية مع تحرير موارد وحدة المعالجة المركزية من أجل منطق التطبيقتتضمن المتطلبات الرئيسية RDMA غير المحمولة بالأجهزة ، ونقل RoCE غير الخاسر ، والتكامل السلس مع أنسجة Ethernet الحالية ،وأدوات تشغيلية شاملة لمراقبة وإصلاح الأخطاء.
تعتمد الهندسة المعمارية المقترحة توبولوجيا Clos ذات مستويين (الورقة العمودية) الأمثل لنقل RoCE. يوفر مفاتيح الورقة اتصال الخادم مع DCB (تحكم تدفق الأولوية ،تحسين اختيار الإرسال) تم تكوينها لضمان سلوك بدون خسائر لحركة المرور RDMA. المفاتيح العمود الفقري تمكن من عدم حظر أي اتصال إلى أي اتصال عبر النسيج. كل عقدة الحوسبة والتخزين تتضمنبطاقة MCX653106A-HDAT Ethernet، والتي تتصل بمفاتيح الورق عبر منفذين 100GbE مزدوج تهيئة في الربط النشط النشط.تقوم الهندسة المعمارية بفصل حركة المرور RDMA (صف الأولوية المخصص مع تمكين PFC) من حركة المرور TCP / IP العادية (صف الجهد الأفضل)، مما يضمن تأخيرًا منخفضًا محددًا للتدفقات الحرجة. يعزل تجزئة VLAN نطاقات RDMA بينما يتعامل التوجيه مع الاتصالات عبر الشبكات الفرعية عند الحاجة.
الـبطاقة الشبكة PCIe MCX653106A-HDAT ConnectXبمثابة أساس لهذا الحل. بنيت على بنية ConnectX-6 مع واجهة PCIe 4.0 x16 المضيف،أنها توفر منفذين 100GbE (أو منفذ واحد 200GbE) مع فترة تأخير أقل من 600ns تحت أحمال العمل RDMAوتشمل الميزات الرئيسية المستخدمة في هذا التصميم:
- أجهزة RDMA و RoCE:تحميل كامل لأفعال RDMA ، مما يلغي مشاركة وحدة المعالجة المركزية المضيفة لنقل البيانات. يدعم كل من RoCE v1 و v2.
- مُسرع NVMe-oF:منطق الأجهزة الذي يسرع أوامر NVMe ، مما يقلل من فترة تأخر الوصول إلى التخزين بأكثر من 80٪ مقارنة بالأهداف البرمجية.
- مسار بيانات قابل للبرمجة (ASAP2):تمكن من معالجة الحزم المرنة وتفريغ الشبكات المتداخلة (VXLAN ، جنيف).
- متعدد المضيفات و GPU RDMA المباشر:الاتصال المباشر بين الجهازين الرقميين عبر العقد دون تدخل وحدة المعالجة المركزية أمر بالغ الأهمية لمجموعات الذكاء الاصطناعي.
- تقييم المدى والسيطرة على الازدحاممراقبة التدفقات القائمة على الأجهزة، وتسجيل ECN، والحد الديناميكي للمعدل.
المهندسون يراجعونورقة بيانات MCX653106A-HDATستلاحظ دعم كل من عوامل الشكل القياسية و OCP 3.0 ، وتغطية شاملة لنظام التشغيل (توزيعات لينكس مع MLNX_OFED ، ويندوز ، ESXi) ، وتوافق الخادم الواسع.مواصفات MCX653106A-HDATكما تؤكد على استهلاك الطاقة القصوى 75W ودرجات حرارة التشغيل من 0 °C إلى 55 °C ، مناسبة للتنفيذات عالية الكثافة.
يتبع النشر نهجًا مرحليًا. يتم توضيح توبولوجية طيار نموذجية ذات رفين أدناه:
| مكون | التكوين | كمية |
|---|---|---|
| عقد الحسابات/التخزين | سوكت مزدوج Intel / AMD ، 256GB + ذاكرة الوصول العشوائي ، محركات NVMe | 16 |
| NIC لكل عقدة | MCX653106A-HDAT(منفذ مزدوج 100GbE) | 16 |
| مفاتيح الأوراق | ميلانوكس SN3700 (32x 100GbE ، DCB فعالة) | 2 |
| تغييرات في العمود الفقري | ميلانوكس SN3700 (100GbE uplinks) | 1 (مقياس إلى 2 للتسريح) |
خطوات النشر:
- الخطوة 1 التحقق من صحة:تأكيدمتوافق مع MCX653106A-HDATالخوادم، وبرمجيات التشغيل المفتوحة، وإصدارات نواة نظام التشغيل. استخدام مصفوفة التوافق منورقة بيانات MCX653106A-HDAT.
- الخطوة الثانية: تثبيت السائقنشر حزمة برامج التشغيل MLNX_OFED (النسخة 5.8 على الأقل) عبر جميع العقد. تمكين وحدات النواة RDMA و RoCE.
- الخطوة الثالثة: تكوين النسيجقم بتشغيل PFC (الأولوية 3 لـ RDMA) و ETS على مفاتيح الأوراق. قم بتكوين MTU 9000 لدعم الإطار الضخم.
- الخطوة الرابعة: إعداد RoCEإعداد كلبطاقة MCX653106A-HDAT Ethernetمع RoCE v2 ( قابل للتوجيه) أو v1 (غير قابل للتوجيه). حدد وضع GID إلى RoCE v2 مع عنوان IPv4.
- الخطوة 5 التحقق:قم بتشغيل اختبارات ib_write_bw و ib_send_lat بين العقد للتحقق من صحة عرض النطاق الترددي والبطء.
البرفكريوmlnx_perf.
للتوسع إلى ما وراء 16 عقدة، الانتقال إلى طوبولوجيا ورقة العمود الفقري مع مفاتيح العمود الفقري الزائدة التي تدعم ما يصل إلى 128 عقدة.حل بطاقة MCX653106A-HDAT Ethernetتتدرج بشكل خطي دون إعادة تكوين النسيج ، حيث أن RoCE تستخدم ECMP لتوزيع الحمل عبر مسارات متعددة.
تتطلب التشغيل الفعال لبيئات RDMA / RoCE أدوات متخصصة. يوصى بالممارسات التالية:
- كشف الازدحام:مراقبة إطار توقف PFC لكل منفذ باستخدام تقنية قياس المفاتيح عن بعد (على سبيل المثال ، Mellanox SHARP). تشير معدلات توقف مرتفعة إلى التداخل أو الانفجارات الدقيقة التي تتطلب ضبط التحكم في التدفق.
- أداء أساسي:الاستخدام
5 ملموإيثول -Sلتجميع عدادات RDMA في كل طابور تتبع الإكمالات والإعادة الإرسال خارج النظام - إك إن و دي سي كيه سي إن:تمكين إشعار الازدحام الصريح (ECN) على المفاتيح وتهيئة معايير التحكم في الازدحام الديناميكي (DCQCN) علىMCX653106A-HDATالسائق (مثل
dcqcn_r_ai=40,dcqcn_r_hai=10) - تحليل السجل:المراجعة
/var/log/رسائلللفشل في اتصال RDMA (على سبيل المثال ، mlx5_core: فشل في إنشاء QP). تحقق من مطابقة مؤشرات GID بين النقاط النهائية. - تحديثات البرمجيات الثابتة:تحديث البرمجيات الثابتة NIC بانتظام عن طريق
مدير المكتب.مواصفات MCX653106A-HDATأوصي بتحديد مستوى أساسي للبرنامج الثابت36.1010 أو أعلى لتحقيق أداء RoCE المثالي. - تخطيط القدرات:بالنسبة للمنظمات التي تقدّرMCX653106A-HDAT السعروMCX653106A-HDAT للبيعخصومات الحجم، ومعدلات نمو المشروعات لحركة RDMA ونسب الإفراط في الاشتراك في المفاتيح الخشبية (عادة 3: 1 لأقمشة التخزين).
سيناريو شائع لإصلاح الأخطاء: فترة تأخير عالية في الاتجاه الواحد مع فقدان الصفر للحزم غالباً ما تشير إلى عتبات ECN غير مثبتة أو إعدادات PFC غير متماثلة.mlnx_qosللتحقق من وضع الثقة وتوصيلات DSCP إلى الأولوية عبر جميع عناصر الشبكة.
الـNVIDIA Mellanox MCX653106A-HDATيوفر NIC الخادم أساسًا جاهزًا للإنتاج لنشر شبكات RDMA / RoCE عالية الأداء. يوفر هذا الحل التقني قيمة قابلة للقياس عبر أبعاد متعددة:
- الأداء:ما يصل إلى 200 جيجابايت في الثانية من الإنتاجية لكل محول مع تأخير أقل من ميكرو ثانية، مما يتيح التخزين المتوسع وتوزيع عبء العمل الحاسوبي المحدد في السابق من خلال تكاليف TCP العامة.
- الكفاءة:تخفيض حمولة الأجهزة يقلل من استهلاك وحدة المعالجة المركزية المتعلقة بالشبكة من > 50% إلى أقل من 15٪ ، مما يحرر النواة لمعالجة التطبيقات.
- التكلفة الكلية للإنتاج:الـحل بطاقة MCX653106A-HDAT Ethernetيقلل من عدد العقد المطلوبة لتحقيق هدف معين للسرعة، مما يقلل من مصاريف رأس المال والتشغيل.MCX653106A-HDAT السعر، نأخذ في الاعتبار فترة استرداد 9-12 شهرا من مكاسب الكفاءة وحدها.
- الاستعداد للمستقبل:يدعم دعم PCIe 5.0 (متوافق إلى الوراء) وقابلية البرمجة عبر DOCA حماية الاستثمارات حيث تنتقل سرعات مركز البيانات إلى 200/400GbE.
بالنسبة للمهندسين المعماريين الذين يبحثون عن نمط تصميم تم اختباره في الإنتاج، يدمج هذا الحل بسلاسة في عمليات إيثيرنت القائمة مع إطلاق الإمكانات الكاملة لـ RDMA.ورقة بيانات MCX653106A-HDATلرسومات ميكانيكية مفصلة، ورسمات زمنية، ووصف الميزات المتقدمة.MCX653106A-HDAT السعروMCX653106A-HDAT للبيعأوقات التوصيل، اتصل بالشركاء التوزيعيين المعتمدين لشركة "نيفيديا ميلانوكس".

