DTop-p MoE: ניתוב Top-p דינמי לשליטה בספרסות ב-MoE
ארכיטקטורות MoE ספרסיות משנות את חוקי המשחק באימון מודלים גדולים, אך ניתוב Top-k מוגבל. DTop-p MoE מציג ניתוב Top-p דינמי עם שליטה בספרסות באמצעות בקר PI. קראו על השיפורים בביצועים ובסקיילינג.
קרא עוד