حل تسريع تدريب الذكاء الاصطناعي: تكامل وحدات معالجة البيانات (DPU) من Mellanox ومجموعات وحدات معالجة الرسومات (GPU)
October 8, 2025
أدى النمو الهائل للذكاء الاصطناعي إلى خلق متطلبات غير مسبوقة على البنية التحتية للحوسبة، خاصة في بيئات التدريب الموزعة حيث يجب أن تعمل الآلاف من معالجات الرسومات (GPUs) معًا. مع تزايد حجم معلمات النموذج إلى تريليونات وتوسيع نطاق مجموعات البيانات إلى بيتابايت، تواجه معماريات الخوادم التقليدية صعوبات في عبء اتصالات الشبكة، واختناقات حركة البيانات، واستخدام الموارد غير الفعال. تستكشف هذه المقالة كيف تعمل Mellanox DPU (وحدة معالجة البيانات) على تحويل بنية تدريب الذكاء الاصطناعي عن طريق إزاحة وظائف الشبكات والتخزين والأمان الهامة من مضيفات وحدة المعالجة المركزية (CPU)، مما يؤدي إلى إنشاء بيئات شبكات معالجات الرسومات (GPU) مُحسَّنة توفر أداءً وكفاءةً رائدين لأعباء عمل التعلم الآلي واسعة النطاق.
وصلت بنية مركز البيانات التقليدية إلى حدودها في دعم أعباء عمل الذكاء الاصطناعي الحديثة. في الأنظمة التقليدية، يجب على وحدات المعالجة المركزية للمضيف إدارة بروتوكولات الشبكات والتخزين والأمان جنبًا إلى جنب مع معالجة التطبيقات، مما يخلق عبئًا كبيرًا يقلل من الكفاءة الإجمالية للنظام. بالنسبة إلى مجموعات تدريب الذكاء الاصطناعي، يترجم هذا إلى انتظار معالجات الرسومات للبيانات، وموارد المعالجة المتسارعة باهظة الثمن غير المستغلة بالكامل، وأوقات تدريب ممتدة. يكشف تحليل الصناعة أنه في مجموعات الذكاء الاصطناعي النموذجية، يتم استهلاك 25-40٪ من دورات وحدة المعالجة المركزية للمضيف بواسطة مهام البنية التحتية بدلاً من الحساب، مما يخلق عنق زجاجة كبيرة تحد من العائد على الاستثمار في البنية التحتية لمعالجات الرسومات. تصبح هذه الكفاءة غير فعالة بشكل متزايد مع نمو أحجام المجموعات، مما يجعل النهج المعماري الجديد ضروريًا لتحقيق تقدم مستمر في الذكاء الاصطناعي.
- عبء اتصالات الشبكة: يتطلب التدريب الموزع مزامنة تدرج مستمرة عبر مئات أو آلاف معالجات الرسومات، مما يخلق ضغطًا هائلاً على البنية التحتية للشبكة التي غالبًا ما تصبح عنق الزجاجة الأساسي.
- اختناقات المعالجة المسبقة للبيانات: يتطلب تغذية البيانات لعمليات التدريب عمليات إدخال/إخراج (I/O) ضخمة تتنافس مع المهام الحسابية على موارد وحدة المعالجة المركزية والذاكرة.
- الأمان وتعدد المستأجرين: تتطلب بيئات البحث المشتركة عزلًا قويًا بين المشاريع والمستخدمين دون التضحية بالأداء.
- تعقيد الإدارة: يتطلب تنسيق الآلاف من معالجات الرسومات عبر أرفف متعددة إمكانات توفير ومراقبة واستكشاف أخطاء متطورة.
- كفاءة الطاقة والتكلفة: تصبح قيود استهلاك الطاقة والمساحة مصدر قلق كبير على نطاق واسع، مما يتطلب أداءً مثاليًا لكل واط ولكل وحدة رف.
تتطلب هذه التحديات إعادة تفكير أساسية في بنية مركز البيانات خصيصًا لأعباء عمل تدريب الذكاء الاصطناعي.
تمثل Mellanox DPU تحولًا نموذجيًا في بنية مركز البيانات، حيث تنقل وظائف البنية التحتية من وحدات المعالجة المركزية للمضيف إلى معالجات متخصصة مصممة خصيصًا لعمليات نقل البيانات والأمان والتخزين. يخلق هذا النهج بنية مفككة حيث يتخصص كل مكون في وظيفته المثلى: معالجات الرسومات للحساب، ووحدات المعالجة المركزية لمنطق التطبيقات، و DPUs لخدمات البنية التحتية.
- شبكات مُسرَّعة بالأجهزة: تشتمل Mellanox DPU على محولات شبكة ConnectX متقدمة بتقنية RDMA (الوصول المباشر إلى الذاكرة عن بعد)، مما يتيح الاتصال المباشر بين معالجات الرسومات عبر الشبكة بأقل تدخل من وحدة المعالجة المركزية وزمن وصول منخفض للغاية.
- الحوسبة داخل الشبكة: تعمل تقنية SHARP (بروتوكول التجميع والتقليل الهرمي القابل للتطوير) على إزاحة عمليات الاتصال الجماعي (مثل MPI all-reduce) من الخوادم إلى محولات الشبكة، مما يؤدي إلى تسريع مزامنة التدريب الموزع بشكل كبير.
- إزاحات التخزين: يتيح NVMe over Fabrics (NVMe-oF) المُسرَّع بالأجهزة الوصول المباشر إلى أجهزة التخزين عن بعد، متجاوزًا وحدات المعالجة المركزية للمضيف وتقليل اختناقات تحميل البيانات أثناء التدريب.
- عزل الأمان: تمكن إمكانات الثقة والعزل المتجذرة في الأجهزة تعدد المستأجرين الآمن دون عبء على الأداء، وهو أمر بالغ الأهمية لبيئات البحث المشتركة.
- إدارة البنية التحتية: توفر DPUs إمكانات إدارة خارج النطاق لتحسين مراقبة وتوفير وصيانة خوادم معالجات الرسومات.
يعمل هذا النهج الشامل على تحويل شبكات معالجات الرسومات (GPU) من عنق زجاجة محتملة إلى ميزة تنافسية لمؤسسات أبحاث الذكاء الاصطناعي.
توضح عمليات نشر تقنية Mellanox DPU في بيئات الذكاء الاصطناعي الإنتاجية تحسينات كبيرة عبر مؤشرات الأداء الرئيسية. تمثل البيانات التالية النتائج المجمعة من عمليات التنفيذ متعددة النطاقات:
| مقياس الأداء | البنية التقليدية | البنية المُسرَّعة بواسطة DPU | التحسين |
|---|---|---|---|
| عملية All-Reduce (1024 معالج رسومات) | 120 مللي ثانية | 18 مللي ثانية | أسرع بنسبة 85% |
| معدل استخدام معالج الرسومات | 68% | 94% | زيادة بنسبة 38% |
| وقت التدريب (نموذج مقياس GPT-3) | 21 يومًا | 14 يومًا | تخفيض بنسبة 33% |
| عبء وحدة المعالجة المركزية للشبكات | 28% من النوى | 3% من النوى | تخفيض بنسبة 89% |
| التكلفة لكل مهمة تدريب | الأساس = 100% | 62% | توفير بنسبة 38% |
| كفاءة الطاقة (TFLOPS/واط) | 4.2 | 6.8 | تحسين بنسبة 62% |
تترجم هذه المقاييس مباشرة إلى دورات بحث أسرع، وتكاليف حسابية أقل، والقدرة على معالجة مشاكل أكثر تعقيدًا ضمن قيود عملية.
لا يمثل دمج تقنية Mellanox DPU مع مجموعات معالجات الرسومات تحسينًا تدريجيًا فحسب - بل يشكل تحولًا معماريًا أساسيًا يعالج التحديات الأساسية لـ تدريب الذكاء الاصطناعي الحديث على نطاق واسع. من خلال إزاحة وظائف البنية التحتية إلى معالجات متخصصة، يمكن للمؤسسات تحقيق مستويات غير مسبوقة من الأداء والكفاءة وقابلية التوسع في مبادرات التعلم الآلي الخاصة بها. يثبت هذا النهج البنية التحتية للذكاء الاصطناعي في المستقبل من خلال إنشاء أساس مرن ومحدد بالبرمجيات يمكنه التكيف مع متطلبات عبء العمل المتطورة والتقنيات الناشئة.
مع استمرار نمو نماذج الذكاء الاصطناعي في الحجم والتعقيد، ستزداد الأهمية الاستراتيجية للبنية التحتية المُحسَّنة فقط. ستكتسب المؤسسات التي تتبنى معماريات مُسرَّعة بواسطة DPU اليوم مزايا تنافسية كبيرة في سرعة البحث والكفاءة التشغيلية والقدرة الحسابية.

