تحليل هيكل شبكة Mellanox لدعم تدريب نموذج الذكاء الاصطناعي على نطاق واسع

September 28, 2025

آخر أخبار الشركة تحليل هيكل شبكة Mellanox لدعم تدريب نموذج الذكاء الاصطناعي على نطاق واسع
فتح إمكانات الذكاء الاصطناعي: كيفية تحسين هيكلة Mellanox InfiniBand لتدريب نموذج الذكاء الاصطناعي على نطاق واسع

ملخص:كما الطلبات الحاسوبيةتدريب نموذج الذكاء الاصطناعيهذا المقال يتعمق في كيفية Mellanox (الآن جزء من NVIDIA) عالية الأداءشبكات GPUحلول مبنية علىميلانوكس InfiniBandالتكنولوجيا، هي هندسة الارتباطات عالية السرعة اللازمة لتدريب نماذج الذكاء الاصطناعي الضخمة بكفاءة، والحد من أوقات التدريب من أسابيع إلى أيام.

اختناق الشبكة في تدريب نموذج الذكاء الاصطناعي الحديث

نطاق نماذج الذكاء الاصطناعي الحديثة، مع عدد المعلمات يرتفع إلى مئات المليارات، يتطلب معالجة موازية عبر الآلاف من وحدات المعالجة المركزية.الوقت الذي تقضيه وحدات الرسوم البيانية في انتظار البيانات من العقد الأخرىتشير تحليلات الصناعة إلى أنه في مجموعات واسعة النطاق ، يمكن للشبكات غير الفعالة أن تترك أكثر من 50٪ من طاقة الحوسبة باهظة الثمن لـ GPU غير فعالة. الشبكة لم تعد مجرد أنبوب بيانات.إنه الجهاز العصبي المركزي للحاسوب الخارق الذكي.

Mellanox InfiniBand: محرك شبكات GPU عالية الأداء

ظهرت Mellanox InfiniBand كمعيار بحكم الواقع لربط وحدات المعالجة المركزية في محيطات الحوسبة عالية الأداء (HPC) والذكاء الاصطناعي.بنيتها تم بناؤها خصيصا لمواجهة التحديات المحددة التي تشكلهاتدريب نموذج الذكاء الاصطناعيوتشمل المزايا التكنولوجية الرئيسية:

  • فترة تأخير منخفضة للغاية و عرض النطاق الترددي العالي:يوفر تأخيرًا على نطاق النانو ثانية وعرض النطاق الترددي يتجاوز 400 جيجابايت / ثانية (NDR) ، مما يضمن تدفقات البيانات بين GPUs مع تأخير ضئيل.
  • الوصول المباشر إلى الذاكرة عن بعد (RDMA):تمكن وحدات الرسومات المركزية من القراءة والكتابة إلى ذاكرة وحدات الرسومات المركزية الأخرى مباشرة ، وتجاوز وحدة المعالجة المركزية ونظام التشغيل. وهذا يقلل بشكل كبير من فترة التأخير ومصاريف وحدة المعالجة المركزية.
  • الحوسبة في الشبكة:ميزة ثورية تقوم بتفريغ عمليات التخفيض (مثل MPI_ALLREDUCE) إلى الشبكة تتحول نفسها. وهذا يحول الشبكة من السلبية إلى النشطة،تسريع العمليات الجماعية التي هي أساسية لتدريب الذكاء الاصطناعي.
التأثير الكمي على كفاءة التدريب

تفوق هيكلي Mellanox InfiniBand يترجم مباشرة إلى نتائج تجارية وأبحاث ملموسة.تظهر الاختبارات المرجعية ديلتا أداء كبيرة بالمقارنة مع تقنيات الشبكات البديلة.

سيناريو التدريب شبكة إيثرنت القياسية شبكة Mellanox InfiniBand زيادة الكفاءة
ريزنت-50 (256 GPU) ~ 6.5 ساعات ~ 4.2 ساعة أسرع بنسبة 35%
بريت-الكبير (1024 GPUs) 85 ساعة 48 ساعة 43% أسرع

هذه المكاسب الكفؤة تترجم مباشرة إلى انخفاض تكاليف الحوسبة السحابية، وتسارع دورات التكرار للباحثين، وتسريع وقت التسويق للمنتجات القائمة على الذكاء الاصطناعي.

البنية التحتية للذكاء الاصطناعي المستقبلية

مسار الذكاء الاصطناعي يتطلب شبكة قادرة على التوسع خريطة طريق Mellanox InfiniBand، مع التقدم المخطط له إلى 800 جيجابايت / ثانية (XDR) وما وراء،يضمن أن الشبكات لن تكون العامل المحدد لابتكارات الجيل القادم من الذكاء الاصطناعييقدم التكامل السلس مع أطر NGC و كومبيوترات NVIDIA حلًا شاملًا ومحسّنًا للمؤسسات التي تبني بنيتها التحتية للذكاء الاصطناعي.

الاستنتاج والقيمة الاستراتيجية

بالنسبة لأي مؤسسة جادة في الاستفادة من الذكاء الاصطناعي على نطاق واسع، فإن تحسين البنية التحتية للشبكة لم يعد اختياريًا.شبكات GPUمعميلانوكس InfiniBandهي ضرورة استراتيجية لتحقيق أقصى قدر من عائد الاستثمار على مجموعات GPU ، وتسريع البحث والتطوير ، والحفاظ على ميزة تنافسية. إنها التكنولوجيا الأساسية التي تمكن من كفاءة وتوسيع النطاقتدريب نموذج الذكاء الاصطناعي.