حل تسريع تدريب الذكاء الاصطناعي: تكامل وحدات معالجة البيانات (DPU) من Mellanox ومجموعات وحدات معالجة الرسومات (GPU)

September 28, 2025

حل تسريع تدريب الذكاء الاصطناعي: تكامل وحدات معالجة البيانات (DPU) من Mellanox ومجموعات وحدات معالجة الرسومات (GPU)
حل تسريع تدريب الذكاء الاصطناعي: دمج Mellanox DPU مع مجموعات معالجات الرسومات لتحقيق أداء غير مسبوق

مع تزايد نماذج الذكاء الاصطناعي بشكل كبير في الحجم والتعقيد، تقترب معماريات مراكز البيانات التقليدية من حدودها. الطلب الشديد على القوة الحاسوبية في تدريب الذكاء الاصطناعي جعل شبكات معالجات الرسومات ليس مجرد تحسين، بل مطلب أساسي. يستكشف موجز الحل هذا كيف يعالج التكامل الاستراتيجي لـ Mellanox DPU (وحدة معالجة البيانات) داخل مجموعات معالجات الرسومات عنق الزجاجة الحرجة، ويخفف عبء وحدة المعالجة المركزية للمضيف، ويفتح مستويات جديدة من قابلية التوسع والكفاءة لأعباء عمل الذكاء الاصطناعي واسعة النطاق.

الخلفية: نموذج الحوسبة الجديد للذكاء الاصطناعي

لقد أثبت عصر النماذج ذات المعلمات التريليونية بشكل قاطع أن مجموعة معالجات الرسومات هي محرك الذكاء الاصطناعي الحديث. ومع ذلك، مع توسع المجموعات لتشمل الآلاف من معالجات الرسومات، تظهر مشكلة جديدة: تصبح وحدة المعالجة المركزية لخادم المضيف مثقلة بحركة البيانات وجدولة المهام والاتصالات. يمكن أن تستهلك هذه النفقات العامة، والتي تشمل الشبكات وإدخال/إخراج التخزين وبروتوكولات الأمان، أكثر من 30٪ من دورات وحدة المعالجة المركزية للخادم - وهي الدورات المطلوبة بشدة لعملية تدريب الذكاء الاصطناعي الفعلية. تؤدي هذه الفعالية إلى زيادة وقت التدريب والتكلفة الإجمالية للملكية (TCO) بشكل مباشر.

التحدي: عبء وحدة المعالجة المركزية وحركة البيانات غير الفعالة

لم يعد عنق الزجاجة الأساسي في تدريب الذكاء الاصطناعي واسع النطاق مجرد FLOPS الخام؛ إنه عدم الكفاءة النظامية في خطوط أنابيب البيانات. تشمل التحديات الرئيسية:

  • استنزاف وحدة المعالجة المركزية: يتم إغراق وحدات المعالجة المركزية للمضيف من خلال إدارة مكدسات الشبكات (TCP/IP) وبرامج تشغيل التخزين والمحاكاة الافتراضية، مما يترك موارد أقل لإطار عمل الذكاء الاصطناعي.
  • اختناقات الإدخال/الإخراج: يؤدي نقل مجموعات البيانات الهائلة من التخزين إلى ذاكرة معالجة الرسومات إلى ازدحام في ناقل PCIe والشبكة، مما يؤدي إلى وقت خمول معالجة الرسومات.
  • عبء الأمان: في بيئات متعددة المستأجرين، يؤدي تطبيق التشفير وسياسات الأمان إلى زيادة الضغط على وحدة المعالجة المركزية للمضيف.
  • شبكات معالجات الرسوماتشبكات معالجات الرسومات يتم التعامل مع عمليات الاتصال الجماعي (مثل All-Reduce) في البرنامج، مما يؤدي إلى زمن انتقال واضطراب يبطئ التدريب المتزامن.تخلق هذه التحديات سيناريو حيث تترك معالجات الرسومات باهظة الثمن في انتظار البيانات، مما يقلل بشكل كبير من الاستخدام الإجمالي والعائد على الاستثمار للبنية التحتية للذكاء الاصطناعي.

الحل: التفريغ والتسريع والعزل باستخدام Mellanox DPU

إن

Mellanox DPUMellanox DPUكيف تعمل Mellanox DPU على تحويل مجموعات الذكاء الاصطناعي:

تفريغ البنية التحتية:
  • تقوم Mellanox DPUMellanox DPUالاتصال المعجل:
  • تتميز DPU بالوصول المباشر إلى الذاكرة عن بعد (RDMA) المفرغ للأجهزة، والذي يمكّن معالجات الرسومات من الوصول مباشرة إلى ذاكرة معالجات الرسومات الأخرى عبر الشبكة بزمن انتقال منخفض للغاية، وهو حجر الزاوية في شبكات معالجات الرسومات عالية الأداء.
  • قابلية التوسع المحسنة: مع إعفاء وحدة المعالجة المركزية للمضيف من مهام البنية التحتية، فإن توسيع المجموعة لا يؤدي إلى زيادة خطية في عبء وحدة المعالجة المركزية. يسمح هذا بالتوسع الأكثر كفاءة ويمكن التنبؤ به إلى عدد كبير من العقد.
  • الأمان منعدم الثقة: تتيح DPU نموذج أمان "منعدم الثقة" من خلال توفير جذر الثقة المعزول بالأجهزة وإدارة المفاتيح والقدرة على تشغيل تطبيقات الأمان في بيئة معزولة على DPU نفسها، منفصلة عن المضيف.
نتائج قابلة للقياس: مكاسب الأداء والكفاءة والتكلفة الإجمالية للملكية

يؤدي دمج Mellanox DPU إلى تحسينات فورية وقابلة للقياس عبر مؤشرات الأداء الرئيسية. تستند البيانات التالية إلى معايير الصناعة وعمليات النشر في العالم الحقيقي:

المقياس الخادم التقليدي (محور وحدة المعالجة المركزية) الخادم مع Mellanox DPU التحسين
نوى وحدة المعالجة المركزية المتاحة للذكاء الاصطناعي ~70% >95% زيادة ~36%
زمن انتقال All-Reduce (256 معالج رسومات) ~500 µs ~180 µs تخفيض 64%
إنتاجية الإدخال/الإخراج للتخزين ~12 جيجابايت/ثانية ~40 جيجابايت/ثانية زيادة 233%
إجمالي وقت التدريب (BERT-Large) ~60 ساعة ~42 ساعة تخفيض 30%

تترجم مكاسب الأداء هذه مباشرة إلى قيمة تجارية: وقت أسرع للوصول إلى النموذج، وتكاليف سحابية/حوسبة أقل، والقدرة على معالجة مشاكل أكثر تعقيدًا ضمن نفس مساحة البنية التحتية.

الخلاصة: بناء مستقبل البنية التحتية للذكاء الاصطناعي

مسار الذكاء الاصطناعي واضح: ستستمر النماذج في النمو، وستصبح المجموعات أكثر توزيعًا. النهج التقليدي المتمثل في إلقاء المزيد من وحدات المعالجة المركزية على مشكلة البنية التحتية غير مستدام. تمثل Mellanox DPU تحولًا معماريًا أساسيًا، مما يؤدي إلى إنشاء مستوى بنية تحتية مخصص ومعجل يسمح لمجموعات معالجات الرسومات بتحقيق مستويات غير مسبوقة من الأداء والكفاءة. إنه مكون حاسم لأي مؤسسة تتطلع إلى الحفاظ على ميزة تنافسية في مجال البحث والتطوير في مجال الذكاء الاصطناعي.