اختناقات شبكة تجمعات تدريب الذكاء الاصطناعي: حلول Mellanox
October 1, 2025
تحليل الصناعة:وبما أن نماذج الذكاء الاصطناعي تنمو بشكل كبير في التعقيد، ظهرت البنية التحتية للشبكة كحاجز حرج في مجموعات التدريب على نطاق واسع.شبكات الذكاء الاصطناعييتطلب عرض النطاق الترددي غير المسبوق وفترة تأخير على مستوى الميكرو ثانية للحفاظ على آلاف من وحدات الرسوم المعمارية المزامنة بكفاءة.هذه المقالة تدرس كيف أن حلول InfiniBand و Ethernet من Mellanox توفرالاتصال بين الطرفين مع تأخير منخفضالتكنولوجيا اللازمة للقضاء على تكاليف الاتصالات وتعظيم الإنتاجية فيمجموعة GPUعمليات النشر
تحول النموذج إلى نموذج تريليون بارامتر حول تدريب الذكاء الاصطناعي من مشكلة مرتبطة بالحوسبة إلى مشكلة مرتبطة بالاتصالات.مجموعة GPUالبيئات، يمكن أن يستغرق الوقت المخصص للاتصال بين العقدات خلال التدريب الموزع أكثر من 50٪ من وقت الدورة الإجمالي.الشبكات التقليدية لإيثيرنث تقدم تأخيرًا كبيرًا وتكثيفًا، مما يتسبب في GPUات باهظة الثمن للجلوس العاطلة في انتظار تحديثات التدرج ومزامنة المعلمات.تمثل هذه التكاليف العامة للاتصالات أكبر عقبة واحدة لتحقيق كفاءة التوسيع المثلى فيشبكات الذكاء الاصطناعيالبنية التحتية، مما يؤثر بشكل مباشر على وقت الحل والتكلفة الإجمالية للملكية.
تتعامل "ميلانوكس" مع هذه التحديات من خلال نهج شاملشبكات الذكاء الاصطناعي، يجمع بين ابتكارات الأجهزة والبرمجيات المصممة خصيصًا لبيئات الحوسبة عالية الأداء. وتشمل مجموعة الحلول محولات InfiniBand ، ومفاتيح Spectrum Ethernet ،وتكنولوجيات الشبكات المتقدمة المحددة برمجيًا التي تعمل معًا للقضاء على اختناقات.
- تقنية InfiniBand HDR:يوفر عرض النطاق الترددي 200 جيجابايت / ثانية لكل منفذ مع تأخير التبديل تحت 600 نانوسانية، وتوفير النهائيالاتصال بين الطرفين مع تأخير منخفضلحملات عمل تدريب مكثفة التزامن.
- الحوسبة في الشبكة:تكنولوجيا ثورية تقوم بتفريغ العمليات الجماعية (All-Reduce، All-Gather) إلى مفاتيح الشبكة، مما يقلل من وقت اتصال GPU بنسبة تصل إلى 50٪.
- التوجيه التكيفي:يوازن حركة المرور بشكل ديناميكي عبر مسارات متعددة لمنع النقاط الساخنة والازدحام ، مما يضمن أداء ثابت خلال فترات الذروة في الاتصالات.
- تقنية GPUDirect:تمكن من الوصول إلى الذاكرة المباشرة بين وحدات الرسوم البيانية عبر خوادم مختلفة ، وتجاوز مشاركة وحدة المعالجة المركزية وتقليل تأخر الاتصال.
تنفيذ Mellanoxشبكات الذكاء الاصطناعيتوفر البنية التحتية مكاسب قابلة للقياس في الأداء عبر مختلف أحجام المجموعات ومباني النموذج.
| مقياس الأداء | الإيثارنت القياسي | ميلانوكس InfiniBand | تحسين |
|---|---|---|---|
| جميع الحد من تأخير (256 عقدة) | 450 μs | 85 μs | 81% انخفاض |
| كفاءة التوسيع (1024 GPU) | 55-65% | 90-95% | 50-60% تحسن |
| وقت التدريب (ResNet-50) | 6.8 ساعات | 3ساعتين | 53% أسرع |
| معدل استخدام GPU | 60-70% | 92-98% | 40-50% زيادة |
هذه التحسينات تترجم مباشرة إلى القيمة التجارية: تكرار النموذج الأسرع، وتخفيض تكاليف البنية التحتية، والقدرة على معالجة المشاكل الأكثر تعقيدا في نفس القيود الزمنية.
قامت مؤسسة أبحاث رائدة في مجال الذكاء الاصطناعي بتنفيذ حل HDR InfiniBand من Mellanox لنموذج اللغة الضخمة لتدريب العشوائيات 2048-GPU.الاتصال بين الطرفين مع تأخير منخفضمكنتهم من تحقيق 93% من كفاءة التوسع، مما قلل من وقت التدريب لنموذج 175 مليار بارامتر من 42 يوما إلى 19 يوما فقط.أساليب التحكم المتقدمة في الازدحام في الحل القضاء على فقدان الحزم خلال جميع مراحل الاتصال، الحفاظ على أداء ثابت طوال عملية التدريب الممتدة.
مع استمرار نمو نماذج الذكاء الاصطناعي في الحجم والتعقيد ، فإن الطلبات علىشبكات الذكاء الاصطناعيوسوف تتكثف البنية التحتية. وتشمل خارطة طريق Mellanox تقنيات 400G NDR InfiniBand و 800G Ethernet ، مما يضمن أن عرض النطاق الترددي للشبكة سيستمر في التفوق على الطلبات الحاسوبية.التزام الشركةالاتصال بين الطرفين مع تأخير منخفضالابتكار يوفر مسارا واضحا للمنظمات لتوسيع نطاقمجموعة GPUعمليات النشر دون مواجهة قيود الشبكة.
في السباق لتطوير قدرات الذكاء الاصطناعي المتقدمة، أصبحت أداء الشبكة عامل تمييز حاسم.شبكات الذكاء الاصطناعيحلول تحويل الشبكة من عنق الزجاجة إلى ميزة استراتيجية، مما يتيح للمنظمات لتحقيق أقصى قدر من العائد على استثمارات GPU وتسريع الابتكار.لأي مؤسسة جادة حول الذكاء الاصطناعي، الاستثمار في بنية تحتية شبكة محسّنة لم يعد اختياريّاً، بل ضروريّاً للميزة التنافسية.

