מהו בנצ'מרק Apex-Agents?

בנצ'מרק מ-Mercor שבודק ביצועי AI במשימות אמיתיות מייעוץ, בנקאות ומשפט, עם דיוק נמוך של כ-24% במודלים הטובים ביותר

מדוע AI נכשל במשימות אלו?

קושי באיתור מידע רב-דומייני על פני כלים כמו Slack ו-Google Drive

האם יש שיפור צפוי?

כן, פודי מציין שיפור מהיר, כמו מתמחה שמצליח יותר משנה לשנה

מהו בנצ'מרק Apex-Agents?

בנצ'מרק מ-Mercor שבודק ביצועי AI במשימות אמיתיות מייעוץ, בנקאות ומשפט, עם דיוק נמוך של כ-24% במודלים הטובים ביותר

מדוע AI נכשל במשימות אלו?

קושי באיתור מידע רב-דומייני על פני כלים כמו Slack ו-Google Drive

האם יש שיפור צפוי?

כן, פודי מציין שיפור מהיר, כמו מתמחה שמצליח יותר משנה לשנה

מחקר

האם סוכני AI מוכנים לעבודה? בנצ'מרק חדש מעלה ספקות

מחקר מ-Mercor בודק מודלים מובילים במשימות אמיתיות מייעוץ, בנקאות השקעות ומשפט – ומגלה כישלון חלקי

צוות אוטומציות AI

22 בינואר 2026

4 דקות קריאה

מבוסס על כתבה שלTechCrunch ↗תרגום, סיכום והקשר עסקי על-ידי המערכתאיך אנחנו עובדים

✨תקציר מנהלים

Key Takeaways

מודלים מובילים כמו Gemini 3 Flash מגיעים ל-24% דיוק במשימות ייעוץ, בנקאות ומשפט
האתגר העיקרי: חשיבה רב-דומיינית על פני כלים כמו Slack ו-Google Drive
שיפור מהיר צפוי, כמו מתמחה שמשתפר משנה לשנה
הבנצ'מרק Apex-Agents פתוח לאתגר לצוותי AI

האם סוכני AI מוכנים לעבודה? בנצ'מרק חדש מעלה ספקות

מודלים מובילים כמו Gemini 3 Flash מגיעים ל-24% דיוק במשימות ייעוץ, בנקאות ומשפט
האתגר העיקרי: חשיבה רב-דומיינית על פני כלים כמו Slack ו-Google Drive
שיפור מהיר צפוי, כמו מתמחה שמשתפר משנה לשנה
הבנצ'מרק Apex-Agents פתוח לאתגר לצוותי AI

בעידן שבו מנכ"ל מיקרוסופט סאטיה נאדלה ניבא לפני כמעט שנתיים ש-AI יחליף עבודות ידע, השינוי במקצועות הלבנים הצווארון מגיע לאט. מודלים מתקדמים מצטיינים במחקר מעמיק ותכנון סוכני, אך רוב העבודה המשרדית נשארה ללא שינוי. כעת, מחקר חדש מחברת Mercor, ענקית נתוני אימון, חושף תשובות למסתורין הזה דרך בנצ'מרק חדש בשם Apex-Agents.

הבנצ'מרק בוחן כיצד מודלי AI מובילים מתמודדים עם משימות עבודה משרדית אמיתיות מתחומי ייעוץ, בנקאות השקעות ומשפט. לפי הדיווח, אפילו המודלים הטובים ביותר הצליחו לענות נכון על פחות מרבע מהשאלות. רוב הפעמים, המודלים סיפקו תשובה שגויה או לא סיפקו תשובה כלל. חוקר המחקר, ברנדן פודי, מציין כי הנקודה החלשה העיקרית היא איתור מידע על פני דומיינים מרובים – משהו חיוני לעבודת ידע אנושית.

פודי מסביר: "שינוי גדול בבנצ'מרק הזה הוא שבנינו סביבה שלמה, המדמה את אופן העבודה בשירותים מקצועיים אמיתיים". במציאות, אנשי מקצוע פועלים על פני Slack, Google Drive ומספר כלים נוספים. עבור סוכני AI רבים, חשיבה רב-דומיינית כזו עדיין בלתי יציבה. התרחישים נלקחו ממקצוענים אמיתיים בשוק המומחים של Mercor, שגם הגדירו את הסטנדרט להצלחה. השאלות, שפורסמו בפומבי ב-Hugging Face, מדגימות מורכבות גבוהה.

דוגמה: בשאלת משפט, במהלך 48 הדקות הראשונות של תקלה בייצור באיחוד האירופי, צוות ההנדסה של Northstar ייצא קבצי לוגים עם נתוני אישיים לאמריקה. האם זה עומד במדיניות החברה ובסעיף 49? התשובה נכונה היא כן, אך דורשת ניתוח מעמיק של מדיניות החברה וחוקי פרטיות האיחוד. משימות כאלה מדמות עבודה אמיתית, ואם LLM יצליח בהן באופן אמין, הוא יוכל להחליף עורכי דין רבים.

פודי אומר: "זה כנראה הנושא הכי חשוב בכלכלה". הבנצ'מרק משקף עבודה אמיתית. לעומת זאת, בנצ'מרק GDPVal של OpenAI בודק ידע כללי על פני מקצועות רבים, בעוד Apex-Agents מתמקד בביצוע משימות מתמשכות במקצועות ערך גבוה ספציפיים. התוצאה קשה יותר, אך קרובה יותר לשאלה אם העבודות הללו ניתנות לאוטומציה.

בדיקות הראו כי Gemini 3 Flash הוביל עם 24% דיוק ב-one-shot, אחריו GPT-5.2 עם 23%. Opus 4.5, Gemini 3 Pro ו-GPT-5 השיגו כ-18%. אף מודל לא מוכן להחליף בנקאי השקעות, אך חלקם קרובים יותר. תחום ה-AI ידוע בשבירת בנצ'מרקים מאתגרים, וכעת Apex-Agents פתוח לאתגר לצוותי AI.

פודי מציין שיפור מהיר: "כרגע זה כמו מתמחה שמצליח פעם ברבע, אבל בשנה שעברה זה היה 5-10%. שיפור כזה משנה הכל במהירות". עבור מנהלי עסקים ישראלים, זה אומר לבחון סוכני AI למשימות ספציפיות, אך לא להחליף צוותים מלאים עדיין. השקעה בפיתוח יכולה להאיץ אימוץ.

הבנצ'מרק הזה מעלה שאלה: מתי סוכני AI יהיו מוכנים באמת? עסקים צריכים להתכונן – לבדוק כלים, לאמן עובדים ולהשקיע באימון מותאם.

שאלות ותשובות

FAQ

הכתבה הוכנה על-ידי המערכת בליווי בינה מלאכותית: תרגום, סיכום והוספת הקשר עסקי ישראלי מתוך פרסום מקורי של TechCrunch. קראו על תהליך העריכה שלנו. קישור למקור המקורי.

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד מ־TechCrunch

כל הכתבות מ־TechCrunch

בינה מלאכותית לענף המסעדנות: הקמת מותג וירטואלי בפחות מדקה

חדשות

לפני 4 שעות

4 דקות

מ־TechCrunch

בינה מלאכותית לענף המסעדנות: הקמת מותג וירטואלי בפחות מדקה

היזם מארק לור, לשעבר בכיר בוולמארט ואמזון, חושף את השלב הבא במהפכת הפוד-טק: פלטפורמת Wonder Create המאפשרת הקמת מסעדות וירטואליות באמצעות פקודת טקסט בודדת למערכת בינה מלאכותית. המערכת מפיקה בתוך פחות מדקה את כלל המרכיבים הנדרשים להקמת מותג - החל מהשם, המיתוג והמתכונים, ועד לבניית תפריט, תמחור והגדרות תזונתיות. המנות המוגמרות מיוצרות ומסופקות דרך רשת הולכת וגדלה של 120 מטבחים מתקדמים, המשלבים פסי ייצור אוטומטיים וזרועות רובוטיות. המהלך נועד לפתור את בעיות בקרת האיכות שאפיינו את גל מטבחי הרפאים הקודם, ומציע יכולת להפעיל עשרות מותגים במקביל מכל מתחם תוך חיסכון משמעותי בעלויות הפעלה והגדלת קיבולת הייצור עד ל-20 מיליון מנות למתחם.

Marc Lore Wonder Wonder Create

קרא עוד

תזמור בינה מלאכותית ארגונית: QuTwo מגייסת 29 מיליון דולר

חדשות

לפני 4 שעות

4 דקות

מ־TechCrunch

תזמור בינה מלאכותית ארגונית: QuTwo מגייסת 29 מיליון דולר

פיטר סרלין, שהוביל בעבר את חברת Silo AI, חוזר עם מעבדת הבינה המלאכותית הפינית QuTwo שמכריזה על גיוס אנג'לים בהיקף 29 מיליון דולר, לפי שווי שוק של 380 מיליון דולר. החברה מתמקדת בפיתוח שכבת תזמור (Orchestration) המנתבת ומחלקת באופן אוטומטי את הרצתם של מודלים וסוכני AI על גבי ארכיטקטורות מחשוב קלאסיות והיברידיות. המערכת נועדה לסייע לארגונים גדולים לבצע אופטימיזציה של עומסי העבודה ולהפחית באופן דרמטי את עלויות הענן שלהם. לפי הדיווח, QuTwo כבר מחזיקה בהתחייבויות הכנסה של 23 מיליון דולר, בין היתר משותפויות אסטרטגיות עם ענקית הקמעונאות Zalando. בניגוד למתחרות שגייסו מיליארדי דולרים מקרנות הון סיכון, בחרו ב-QuTwo לשמור על עצמאות ניהולית ולגייס ממשקיעים פרטיים במטרה להתמקד בחזון טכנולוגי ארוך טווח.

QuTwo Peter Sarlin AMD

קרא עוד

סוכני AI לנתונים מובנים: הרכישה החדשה של SAP והחסימה של OpenClaw

חדשות

לפני 9 שעות

5 דקות

מ־TechCrunch

סוכני AI לנתונים מובנים: הרכישה החדשה של SAP והחסימה של OpenClaw

ענקית התוכנה SAP הודיעה על השקעה של 1.16 מיליארד דולר במעבדת ה-AI של הסטארטאפ הגרמני Prior Labs, המתמחה במודלי בינה מלאכותית לנתונים טבלאיים (TFM). במקביל, דיווחים חושפים כי החברה ביצעה שינוי דרמטי במדיניות ממשקי ה-API שלה, וכעת היא חוסמת באופן גורף גישה של סוכני AI חיצוניים שאינם מורשים – דוגמת OpenClaw. מנגד, סביבות שאושרו ספציפית כמו סוכני Joule של SAP ו-NemoClaw של Nvidia מורשות לפעול במערכת. המהלך מסמן מגמה גוברת של חברות תוכנה ארגוניות להדק את השליטה על הנתונים הרגישים שלהן, ומציב אתגר מורכב בפני חברות ישראליות המבקשות לשלב אוטומציות עצמאיות במערכות ה-ERP, הרכש והכספים שלהן.

SAP Prior Labs OpenClaw

קרא עוד

מנכ״ל ASML מגיב לאיומים: הדומיננטיות בתשתית שבבי הבינה המלאכותית מובטחת

חדשות

לפני 13 שעות

5 דקות

מ־TechCrunch

מנכ״ל ASML מגיב לאיומים: הדומיננטיות בתשתית שבבי הבינה המלאכותית מובטחת

כריסטוף פוקה, מנכ״ל ענקית ייצור ציוד השבבים ההולנדית ASML, חושף בראיון ל-TechCrunch כי המונופול של החברה בייצור מכונות ליתוגרפיה מסוג EUV חסין מפני מתחרים חדשים ואפילו מול ניסיונות ריגול בסין. בזמן שענקיות הטכנולוגיה צפויות להשקיע השנה 600 מיליארד דולר בתשתיות AI, פוקה מזהיר ממחסור עולמי בשבבים שעלול להימשך עד חמש שנים. לדבריו, בניית תשתית מתחרה דורשת עשורים של ידע מצטבר שמקשה על כל חברה אחרת להיכנס לשוק. עבור עסקים בישראל שמסתמכים על כלי בינה מלאכותית, המסקנה ברורה: עלויות המחשוב צפויות להישאר משמעותיות בתקופה הקרובה, ועל ארגונים לאמץ אסטרטגיות חיסכון ואופטימיזציה בתהליכי האוטומציה שלהם.

ASML Christophe Fouquet Microsoft

קרא עוד

עוד כתבות שיעניינו אותך

לכל הכתבות

אבטחת מידע ברשתות סוכני AI: סכנות חדשות בעבודה אוטונומית

מחקר

לפני 5 ימים

5 דקות

מ־Microsoft Research

אבטחת מידע ברשתות סוכני AI: סכנות חדשות בעבודה אוטונומית

מחקר מקיף של צוות האבטחה במיקרוסופט מצא כי כאשר סוכני בינה מלאכותית מתקשרים זה עם זה ברשתות משותפות, נוצרים סיכוני אבטחה חמורים שאינם קיימים בעבודה עם סוכן מבודד. בין היתר, הוכח בניסוי מבוקר כי הודעה זדונית בודדת יכולה ליצור התפשטות של "תולעת AI" המעתיקה נתונים אישיים מ-6 סוכנים שונים ללא מגע אדם, תוך ניצול של למעלה מ-100 קריאות API ולולאות תקשורת שחוסמות את פעילות המערכת. הדו"ח מזהיר חברות המסתמכות על אוטומציה ותשתיות סוכנים, במיוחד בניהול רשומות רפואיות ופיננסיות רגישות, להיערך לוקטורי תקיפה חדשים של הונאת סוכנים, הנדסה חברתית בין מודלי שפה, ומניפולציות מוניטין פנימיות שעלולות לעקוף את בקרות האבטחה האנושיות.

GPT-4 ChatGPT Copilot

קרא עוד

הסייע הרפואי של Google DeepMind: מערכות בינה מלאכותית למרפאות פרטיות בישראל

מחקר

לפני 5 ימים

4 דקות

מ־DeepMind

הסייע הרפואי של Google DeepMind: מערכות בינה מלאכותית למרפאות פרטיות בישראל

Google DeepMind חשפה את פרויקט "AI co-clinician", סוכן בינה מלאכותית מתקדם המיועד לעבוד בשיתוף פעולה לצד רופאים במרפאות ובסביבות טלמדיסין. בניגוד למערכות המבוססות על טקסט בלבד, המערכת החדשה פועלת על גבי מודלים מולטימודאליים המאפשרים לה לראות, לשמוע ולתקשר עם מטופלים בזמן אמת. במחקרי סימולציה מקיפים שכללו בדיקה של 140 מדדים קליניים, המערכת הציגה ביצועים ברמה המקבילה לרופאי משפחה ב-68 מהמדדים, ואף הצליחה להדריך מטופלים מרחוק בבדיקות פיזיות כמו שימוש נכון במשאף ואיתור פגיעות כתף. בעוד שהטכנולוגיה נמצאת עדיין בשלבי מחקר עולמי, היא מסמנת את הכיוון הברור אליו צועד ענף הרפואה: צמצום העומסים הקריטיים על הצוותים והכפלת יכולות הטיפול באמצעות סייעים דיגיטליים אמינים.

Google DeepMind World Health Organization MedPaLM

קרא עוד

ספקולטיב דיקודינג במובייל: למה AHASD משנה את המשחק

מחקר

לפני 6 ימים

6 דקות

מ־arXiv cs.AI

ספקולטיב דיקודינג במובייל: למה AHASD משנה את המשחק

**ספקולטיב דיקודינג במובייל הוא דרך להאיץ הרצת מודלי שפה גדולים על מכשירי קצה באמצעות מודל קטן שמכין טיוטה ומודל גדול שמאמת אותה.** במחקר AHASD שפורסם ב-arXiv החוקרים מדווחים על עד פי 4.2 בתפוקה ופי 5.6 ביעילות אנרגטית לעומת בסיס GPU בלבד, עם תקורת חומרה של פחות מ-3% משטח ה-DRAM. עבור עסקים בישראל, המשמעות היא אפשרות עתידית להעביר חלק ממשימות ה-AI למובייל — למשל סיכום שיחות, סיווג פניות והשלמת טפסים — תוך שילוב עם Zoho CRM, ‏WhatsApp Business API ו-N8N. זה עדיין לא מוצר מדף, אבל הכיוון חשוב מאוד לכל ארגון שבונה תהליכי AI מהירים, חסכוניים ורגישים לפרטיות.

Draft Language Model Target Language Model NPU

קרא עוד

Auto-ARGUE להערכת דוחות RAG: למה זה חשוב לעסקים

מחקר

לפני 6 ימים

5 דקות

מ־arXiv cs.AI

Auto-ARGUE להערכת דוחות RAG: למה זה חשוב לעסקים

**Auto-ARGUE הוא כלי להערכת דוחות RAG עם ציטוטים, שנועד לבדוק אם מסמך שנוצר בידי מודל שפה אכן נשען על מקורות נכונים וניתנים לאימות.** לפי התקציר ב-arXiv, החוקרים בחנו אותו על משימות TREC 2024 ומצאו מתאם טוב ברמת המערכת מול שיפוט אנושי. עבור עסקים בישראל, המשמעות ברורה: אם אתם מייצרים סיכומי לידים, תקצירי תיקים, דוחות שירות או מסמכי הנהלה באמצעות מודלי שפה, אתם צריכים שכבת בקרה ולא רק שכבת יצירה. השילוב בין AI Agents,‏ WhatsApp Business API,‏ Zoho CRM ו-N8N יכול לספק תהליך עבודה חזק, אבל בלי מדידת איכות לדוחות עצמם, הסיכון לטעויות עסקיות נשאר גבוה.

TREC 2024 NeuCLIR RAG

קרא עוד