אינדקס סוכני AI 2025: מפת שקיפות ובטיחות ל-30 מערכות פרוסות

23 בפבר׳ 2026

6 דקות

אינדקס סוכני AI 2025: מפת שקיפות ובטיחות ל-30 מערכות פרוסות

**אינדקס סוכני AI 2025 הוא מאגר השוואתי של MIT שמרכז מידע טכני ובטיחותי על 30 מערכות סוכניות פרוסות, על בסיס מידע פומבי ותכתובת עם מפתחים. לפי החוקרים, ברוב המקרים המפתחים משתפים מעט מאוד מידע על בדיקות בטיחות, הערכות והשפעות חברתיות—פער שמקשה על עסקים לבחור ספק ולחבר את הסוכן ל-CRM או ל-WhatsApp בצורה אחראית.** לעסקים בישראל זה מתרגם לרשימת דרישות חדשה: לוגים, הרשאות API מינימליות, Human-in-the-Loop לפני פעולות בלתי הפיכות, ומסמכי הערכה. לפי IBM (2023) העלות הממוצעת של דליפת מידע היא כ-4.45 מיליון דולר, ולכן סוכן שמקבל גישה ל-Zoho CRM או ל-Google Workspace חייב להיות עטוף בבקרות—למשל דרך N8N ושכבת הרשאות ברורה.

MITarXivAI Agent Index

חדשות AI ואוטומציה

חדשות AI - עמוד 41

אינדקס סוכני AI 2025: מפת שקיפות ובטיחות ל-30 מערכות פרוסות

SSLogic לסקיילינג של משימות לוגיות: כך מרחיבים RLVR עם אימות קוד

וקטורי היגוי למודלי שפה: למה הם לא תמיד עובדים ואיך לנבא את הכישלון

RAG היברידי לצ׳טבוט ספרות מדעית: וקטורים מול גרפים

MultiVer לזיהוי חולשות קוד בלי אימון: 82.7% ריקול ב-PyVul

סגנון שיחה של צ׳אטבוטים במשימות ניווט: למה זה משנה לנשים בעסקים

NeuroWeaver לניתוח EEG קליני: מודלים קלים במקום Foundation Models

On-Policy SFT לקיצור Chain-of-Thought: דיוק דומה, 80% פחות טקסט

BotzoneBench להערכת אסטרטגיה של מודלי שפה: מדידה מוחלטת מול עוגני AI קבועים

MoralityGym להערכת יישור מוסרי היררכי בסוכני החלטה: מה זה אומר לעסקים

בינה מלאכותית לחיתום ביטוח מסחרי עם ביקורת עצמית: ירידה בהזיות ל‑3.8%

הערכת T‑Shirt לפרויקטי LLM: למה היא נכשלת ואיך עוברים ל-Checkpoint Sizing

Nanbeige4.1-3B: מודל 3B שמבצע סוכנות, קוד והסקה במודל אחד

OpenClaw לעבודה בארגון: למה Meta מגבילה ומה זה אומר בישראל

אזורים פרמטריים לבטיחות ב‑LLM: למה אי אפשר עדיין “לנעול” את המודל

זיהוי ניסיונות Jailbreak ב-LLM קליניים: מודל תכונות לשוניות אוטומטי

AsynDBT לכוונון פרומפטים ו-ICL בארגונים: פחות סטרגלרים, יותר דיוק

ניתוח שגיאות בשרשרת כלי MCP: למה העיוות גדל ליניארית ולא מתפוצץ