הערכת T‑Shirt לפרויקטי LLM: למה היא נכשלת ואיך עוברים ל-Checkpoint Sizing

23 בפברואר 2026

6 דקות

מ־arXiv cs.AI

הערכת T‑Shirt לפרויקטי LLM: למה היא נכשלת ואיך עוברים ל-Checkpoint Sizing

**הערכת T‑Shirt (S/M/L) לפרויקטי LLM ומערכות רב-סוכנים נוטה להיכשל כי המאמץ והסיכון אינם ליניאריים, ניסיון עבר לא משחזר תוצאות, ו”Done” אינו דטרמיניסטי. לפי arXiv:2602.17734, חמש הנחות בסיסיות של תכנון אג’ילי נשברות ב-AI—בעיקר בגלל שיחות רב-סבביות, “צימוד הדוק” בין דאטה למודל, וריבוי נקודות אינטגרציה.** החלופה המעשית היא Checkpoint Sizing: חלוקת הפרויקט לשערי החלטה עם מדדים (למשל דיוק ≥85% על 200 שיחות), תקרת תקציב לפיילוט, ועצירה יזומה אם המדדים לא מתקיימים. לעסקים בישראל שמחברים WhatsApp Business API ל-Zoho CRM דרך N8N, השיטה מצמצמת הפתעות, מאפשרת עמידה בחוק הגנת הפרטיות, ומונעת “התחייבות מוקדמת” על בסיס S/M/L.

McKinsey

הערכת T‑Shirt לפרויקטי LLM: למה היא נכשלת ואיך עוברים ל-Checkpoint Sizing

אזורים פרמטריים לבטיחות ב‑LLM: למה אי אפשר עדיין “לנעול” את המודל

זיהוי ניסיונות Jailbreak ב-LLM קליניים: מודל תכונות לשוניות אוטומטי

AsynDBT לכוונון פרומפטים ו-ICL בארגונים: פחות סטרגלרים, יותר דיוק

ScaleBITS לכימות LLM מתחת ל-4 ביט: חיפוש ביטווידת אוטומטי

EXACT להתאמת תגובות LLM בזמן דיקוד לפי תכונות מפורשות

DECKBench ליצירת מצגות אקדמיות: מדד שמודד נאמנות, פריסה וציות להוראות

Agentic Unlearning לסוכנים מבוססי LLM: מחיקה גם מהפרמטרים וגם מהזיכרון

דיסטילציית CoT יעילה עם GRPO: קיצור הסבר בלי לאבד דיוק

זיהוי הזיות של מודלי שפה אצל סטודנטים: מה השתבש ואיך בונים פרוטוקול בדיקה

צ׳אטבוטים לייעוץ לנפגעות אלימות דיגיטלית: מה מצא מחקר arXiv 2602.17672

Logitext לניסוח כללים בשפה טבעית: צעד חדש לניהול מדיניות תוכן עם SMT

מודל תגמול ללא הרצה לקוד: CodeScaler מאיץ אימון והסקה ב-LLM

מדיניות דיפוזיה ב-MARL אונליין: OMAD משפרת תיאום וסמפלים

WorkflowPerturb להערכת זרימות עבודה של סוכנים: מדדי איכות עם כיול לחומרה

מלכודות אפיסטמיות במודלי שפה: למה הזיות וחנופה הן שיווי משקל

אימון מודלים על ספרים פיראטיים: למה מיקרוסופט מחקה פוסט על הארי פוטר

צעצועים עם AI שמקשיבים בבית: מה Toy Story 5 חושף לעסקים בישראל