حل تسريع تدريب الذكاء الاصطناعي: تكامل وحدات معالجة البيانات (DPU) من Mellanox ومجموعات وحدات معالجة الرسومات (GPU)
September 18, 2025
عالمي، [التاريخ] – يدفع التقدم المستمر للذكاء الاصطناعي البنية التحتية الحاسوبية إلى حدودها القصوى. تتطلب نماذج الذكاء الاصطناعي الحديثة، التي تحتوي على مليارات المعلمات، أسابيع أو حتى أشهر للتدريب على الأجهزة التقليدية، مما يخلق عنق زجاجة كبيرة للابتكار والوقت اللازم للتسويق. في قلب هذا التحدي يكمن مكون حاسم ولكنه غالبًا ما يتم تجاهله: الشبكة. تستكشف هذه المقالة حلاً تحويليًا يعمل على تفريغ وتسريع وتحسين العمليات التي تركز على البيانات من خلال دمج Mellanox DPU (وحدة معالجة البيانات) مع مجموعات GPU الكثيفة، مما يخلق بنية شاملة مصممة خصيصًا لتسريع تدريب الذكاء الاصطناعي و شبكات GPU بشكل أساسي.
يشهد مجال الذكاء الاصطناعي تحولًا نموذجيًا. يتزايد حجم النماذج مثل نماذج اللغة الكبيرة (LLMs) والنماذج التأسيسية بشكل كبير، مما يستلزم الانتقال من إعدادات الخادم الفردي إلى مجموعات الحوسبة الموزعة الضخمة. في هذه البيئات، يجب أن تعمل الآلاف من وحدات معالجة الرسومات (GPUs) معًا، والتواصل باستمرار لمزامنة البيانات والتدرجات. تصبح كفاءة هذا الاتصال، التي تمليها الشبكة، المحدد الأساسي لوقت التدريب الإجمالي واستخدام الموارد. لم يعد النهج التقليدي المتمثل في استخدام وحدات المعالجة المركزية للخادم لإدارة الشبكة والتخزين وبروتوكولات الأمان قابلاً للتطبيق، لأنه يسرق دورات ثمينة من مهمة الحوسبة الأساسية.
تواجه المؤسسات التي تنشر مجموعات GPU واسعة النطاق لـ تدريب الذكاء الاصطناعي العديد من التحديات المترابطة التي تعيق الأداء وتزيد التكاليف:
- عبء وحدة المعالجة المركزية: تصبح وحدة المعالجة المركزية المضيفة عنق الزجاجة، وتغمرها نفقات معالجة أكوام الاتصالات (مثل TCP/IP) وبرامج تشغيل التخزين ومهام المحاكاة الافتراضية، مما يترك قدرة أقل لمهمة الذكاء الاصطناعي الفعلية.
- اتصال غير فعال: يمكن أن تؤدي الشبكات القياسية إلى إدخال زمن انتقال كبير وتقلب أثناء عمليات التقليل الكلية الحاسمة لمزامنة التدرجات عبر العقد في شبكات GPU. يؤدي هذا إلى بقاء وحدات معالجة الرسومات (GPUs) في وضع الخمول، في انتظار البيانات - وهي ظاهرة تُعرف باسم "التخلف."
- تدفق بيانات غير كافٍ: عملية التدريب عبارة عن خط أنابيب للبيانات. إذا تعذر تغذية البيانات من التخزين إلى وحدات معالجة الرسومات (GPUs) بمعدل كافٍ، فسيتم استغلال أسرع المعجلات بشكل غير كافٍ، مما يؤدي إلى إهدار الاستثمار الرأسمالي.
- عبء الأمان والتأجير المتعدد: يؤدي فرض العزل الأمني والتأجير المتعدد في المجموعات المشتركة إلى زيادة عبء وحدة المعالجة المركزية، مما يزيد من التعقيد وتدهور الأداء.
الحل لهذه الاختناقات هو تفريغ المهام التي تركز على البنية التحتية من وحدة المعالجة المركزية المضيفة إلى قطعة أجهزة مخصصة مصممة لهذا الغرض: Mellanox DPU. DPU هو معالج ثوري يجمع بين نوى Arm القوية وواجهة شبكة عالية الأداء ومحركات بيانات قابلة للبرمجة.
عندما يتم دمجها في خادم GPU، فإن Mellanox DPU تنشئ بنية مفككة تعمل على تحويل كفاءة مجموعة الذكاء الاصطناعي:
- شبكات معتمدة على الأجهزة: تقوم DPU بتفريغ كومة الاتصالات بأكملها من المضيف، والتعامل مع المهام الهامة في الأجهزة. يتضمن ذلك دعم RoCE (RDMA عبر Ethernet المتوافق)، والذي يمكّن وحدات معالجة الرسومات (GPUs) من تبادل البيانات مباشرة عبر الشبكة بأقل زمن انتقال وبدون تدخل وحدة المعالجة المركزية، مما يؤدي إلى تحسين شبكات GPU بشكل أساسي.
- تفريغ التخزين: يمكن لـ DPU إدارة الوصول مباشرة إلى التخزين المرفق بالشبكة، والتحضير المسبق لمجموعات بيانات التدريب ونقلها مباشرة إلى ذاكرة GPU، مما يضمن تغذية بيانات مستمرة وعالية السرعة للحفاظ على تشبع المعجلات بالكامل.
- أمان وعزل مُحسّنان: توفر DPU منطقة ثقة متجذرة في الأجهزة. يمكنها التعامل مع سياسات الأمان والتشفير وعزل المستأجرين بمعدل الخط، وتفريغ هذه المهام من المضيف وتوفير بيئة أكثر أمانًا دون التضحية بالأداء.
- إدارة قابلة للتطوير: توفر وحدات DPU نظامًا أساسيًا متسقًا لإدارة البنية التحتية، مما يسمح بالتوسع السلس للمجموعة دون زيادة التعقيد التشغيلي.
يوفر دمج Mellanox DPU في مجموعات الذكاء الاصطناعي تحسينات كبيرة وقابلة للقياس تؤثر بشكل مباشر على النتيجة النهائية:
| المقياس | التحسين | التأثير |
|---|---|---|
| استخدام GPU | زيادة تصل إلى 30٪ | دورات أكثر إنتاجية من أصول الأجهزة الحالية. |
| وقت إنجاز المهمة | تم تخفيضه بنسبة 20-40٪ | دورات تكرار أسرع للباحثين وعلماء البيانات. |
| عبء وحدة المعالجة المركزية للشبكات | تم تخفيضه بنسبة تصل إلى 80٪ | يحرر نوى وحدة المعالجة المركزية المضيفة لمزيد من مهام الذكاء الاصطناعي أو الدمج. |
| كفاءة النظام (TFLOPS/Watt) | أعلى بكثير | يقلل التكلفة الإجمالية للملكية (TCO) ويحسن كفاءة الطاقة. |
عصر الذكاء الاصطناعي هو أيضًا عصر الحوسبة التي تركز على البيانات. لم يعد النجاح يتحدد بمجرد كثافة الحوسبة، بل بكيفية تحرك البيانات بكفاءة بين الحوسبة والتخزين وعبر الشبكة. تعالج Mellanox DPU هذه الحاجة بشكل مباشر، مما يوفر الذكاء الأساسي في مسار البيانات لفتح الإمكانات الكاملة لكل GPU في المجموعة. من خلال القضاء على الاختناقات في شبكات GPU وتوفير البيانات، فإنها تمهد الطريق لتحقيق اختراقات أسرع، وتكاليف تشغيلية أقل، وبنية تحتية للذكاء الاصطناعي أكثر استدامة. أصبح هذا النهج المتكامل سريعًا هو المعيار الجديد لأي شخص جاد بشأن تدريب الذكاء الاصطناعي

