اختناقات شبكة تجمعات تدريب الذكاء الاصطناعي: حلول Mellanox

October 1, 2025

آخر أخبار الشركة اختناقات شبكة تجمعات تدريب الذكاء الاصطناعي: حلول Mellanox
حلّ اختناقات شبكة تجمعات تدريب الذكاء الاصطناعي: حلول Mellanox عالية الأداء للاتصال

تحليل الصناعة:وبما أن نماذج الذكاء الاصطناعي تنمو بشكل كبير في التعقيد، ظهرت البنية التحتية للشبكة كحاجز حرج في مجموعات التدريب على نطاق واسع.شبكات الذكاء الاصطناعييتطلب عرض النطاق الترددي غير المسبوق وفترة تأخير على مستوى الميكرو ثانية للحفاظ على آلاف من وحدات الرسوم المعمارية المزامنة بكفاءة.هذه المقالة تدرس كيف أن حلول InfiniBand و Ethernet من Mellanox توفرالاتصال بين الطرفين مع تأخير منخفضالتكنولوجيا اللازمة للقضاء على تكاليف الاتصالات وتعظيم الإنتاجية فيمجموعة GPUعمليات النشر

تحدي الشبكة في تدريب الذكاء الاصطناعي الحديث

تحول النموذج إلى نموذج تريليون بارامتر حول تدريب الذكاء الاصطناعي من مشكلة مرتبطة بالحوسبة إلى مشكلة مرتبطة بالاتصالات.مجموعة GPUالبيئات، يمكن أن يستغرق الوقت المخصص للاتصال بين العقدات خلال التدريب الموزع أكثر من 50٪ من وقت الدورة الإجمالي.الشبكات التقليدية لإيثيرنث تقدم تأخيرًا كبيرًا وتكثيفًا، مما يتسبب في GPUات باهظة الثمن للجلوس العاطلة في انتظار تحديثات التدرج ومزامنة المعلمات.تمثل هذه التكاليف العامة للاتصالات أكبر عقبة واحدة لتحقيق كفاءة التوسيع المثلى فيشبكات الذكاء الاصطناعيالبنية التحتية، مما يؤثر بشكل مباشر على وقت الحل والتكلفة الإجمالية للملكية.

بنية شبكة الذكاء الاصطناعي الشاملة من Mellanox

تتعامل "ميلانوكس" مع هذه التحديات من خلال نهج شاملشبكات الذكاء الاصطناعي، يجمع بين ابتكارات الأجهزة والبرمجيات المصممة خصيصًا لبيئات الحوسبة عالية الأداء. وتشمل مجموعة الحلول محولات InfiniBand ، ومفاتيح Spectrum Ethernet ،وتكنولوجيات الشبكات المتقدمة المحددة برمجيًا التي تعمل معًا للقضاء على اختناقات.

  • تقنية InfiniBand HDR:يوفر عرض النطاق الترددي 200 جيجابايت / ثانية لكل منفذ مع تأخير التبديل تحت 600 نانوسانية، وتوفير النهائيالاتصال بين الطرفين مع تأخير منخفضلحملات عمل تدريب مكثفة التزامن.
  • الحوسبة في الشبكة:تكنولوجيا ثورية تقوم بتفريغ العمليات الجماعية (All-Reduce، All-Gather) إلى مفاتيح الشبكة، مما يقلل من وقت اتصال GPU بنسبة تصل إلى 50٪.
  • التوجيه التكيفي:يوازن حركة المرور بشكل ديناميكي عبر مسارات متعددة لمنع النقاط الساخنة والازدحام ، مما يضمن أداء ثابت خلال فترات الذروة في الاتصالات.
  • تقنية GPUDirect:تمكن من الوصول إلى الذاكرة المباشرة بين وحدات الرسوم البيانية عبر خوادم مختلفة ، وتجاوز مشاركة وحدة المعالجة المركزية وتقليل تأخر الاتصال.
تحسينات الأداء القابلة للقياس

تنفيذ Mellanoxشبكات الذكاء الاصطناعيتوفر البنية التحتية مكاسب قابلة للقياس في الأداء عبر مختلف أحجام المجموعات ومباني النموذج.

مقياس الأداء الإيثارنت القياسي ميلانوكس InfiniBand تحسين
جميع الحد من تأخير (256 عقدة) 450 μs 85 μs 81% انخفاض
كفاءة التوسيع (1024 GPU) 55-65% 90-95% 50-60% تحسن
وقت التدريب (ResNet-50) 6.8 ساعات 3ساعتين 53% أسرع
معدل استخدام GPU 60-70% 92-98% 40-50% زيادة

هذه التحسينات تترجم مباشرة إلى القيمة التجارية: تكرار النموذج الأسرع، وتخفيض تكاليف البنية التحتية، والقدرة على معالجة المشاكل الأكثر تعقيدا في نفس القيود الزمنية.

التطبيق في العالم الحقيقي: تدريب نموذج اللغة الكبيرة

قامت مؤسسة أبحاث رائدة في مجال الذكاء الاصطناعي بتنفيذ حل HDR InfiniBand من Mellanox لنموذج اللغة الضخمة لتدريب العشوائيات 2048-GPU.الاتصال بين الطرفين مع تأخير منخفضمكنتهم من تحقيق 93% من كفاءة التوسع، مما قلل من وقت التدريب لنموذج 175 مليار بارامتر من 42 يوما إلى 19 يوما فقط.أساليب التحكم المتقدمة في الازدحام في الحل القضاء على فقدان الحزم خلال جميع مراحل الاتصال، الحفاظ على أداء ثابت طوال عملية التدريب الممتدة.

استثمارات في البنية التحتية للذكاء الاصطناعي المستقبلية

مع استمرار نمو نماذج الذكاء الاصطناعي في الحجم والتعقيد ، فإن الطلبات علىشبكات الذكاء الاصطناعيوسوف تتكثف البنية التحتية. وتشمل خارطة طريق Mellanox تقنيات 400G NDR InfiniBand و 800G Ethernet ، مما يضمن أن عرض النطاق الترددي للشبكة سيستمر في التفوق على الطلبات الحاسوبية.التزام الشركةالاتصال بين الطرفين مع تأخير منخفضالابتكار يوفر مسارا واضحا للمنظمات لتوسيع نطاقمجموعة GPUعمليات النشر دون مواجهة قيود الشبكة.

الاستنتاج: الشبكة كأصل استراتيجي للذكاء الاصطناعي

في السباق لتطوير قدرات الذكاء الاصطناعي المتقدمة، أصبحت أداء الشبكة عامل تمييز حاسم.شبكات الذكاء الاصطناعيحلول تحويل الشبكة من عنق الزجاجة إلى ميزة استراتيجية، مما يتيح للمنظمات لتحقيق أقصى قدر من العائد على استثمارات GPU وتسريع الابتكار.لأي مؤسسة جادة حول الذكاء الاصطناعي، الاستثمار في بنية تحتية شبكة محسّنة لم يعد اختياريّاً، بل ضروريّاً للميزة التنافسية.