דלג לתוכן הראשי
אוטומציות AI - לוגו
  • דף הבית
  • בלוג
  • חדשות
  • אודות
  • צור קשר
03-7630715קבעו ייעוץ חינם
אוטומציות AI - פתרונות אוטומציה וסוכני AI לעסקים בישראל

בונים סוכני AI ואוטומציות לעסקים בישראל: וואטסאפ, CRM, לידים, תורים, חשבוניות, דשבורדים וחיבור מערכות.

IL03-7630715USA(646) 760-4854info@automaziot.ai
אחד העם 9, תל אביב. מגדל שלום

קישורים מהירים

  • דף הבית
  • בלוג
  • חדשות
  • אודות
  • צור קשר
  • סיפורי הצלחה
  • מילון מונחים

הפתרונות שלנו

  • ניהול לידים אוטומטי
  • סוכן חכם לוואטסאפ
  • חיבור מערכות ודשבורדים
  • ניהול לקוחות חכם
  • קביעת תורים אוטומטית
  • מכירות ושירות לקוחות
  • אוטומציה לאיקומרס
  • סוכני AI
  • ייעוץ אוטומציה

הישארו מעודכנים

הירשמו לניוזלטר וקבלו עדכונים על חידושים בעולם האוטומציה וה-AI

FacebookInstagramLinkedIn

אתר זה משתמש ב-Google Analytics ו-Vercel Analytics לשיפור השירות. למידע מלא ראה מדיניות פרטיות

© 2026 אוטומציות AI. כל הזכויות שמורות.

מדיניות פרטיותתנאי שימושהצהרת נגישותמדיניות עריכה
סוכני AI בעבודה: בנצ'מרק Apex-Agents חושף כשלים
האם סוכני AI מוכנים לעבודה? בנצ'מרק חדש מעלה ספקות
ביתחדשותהאם סוכני AI מוכנים לעבודה? בנצ'מרק חדש מעלה ספקות
מחקר

האם סוכני AI מוכנים לעבודה? בנצ'מרק חדש מעלה ספקות

מחקר מ-Mercor בודק מודלים מובילים במשימות אמיתיות מייעוץ, בנקאות השקעות ומשפט – ומגלה כישלון חלקי

צוות אוטומציות AIצוות אוטומציות AI
22 בינואר 2026
4 דקות קריאה

תגיות

MercorApex-AgentsBrendan FoodyGemini 3 FlashGPT-5.2OpenAI

נושאים קשורים

#סוכני AI#בנצ'מרקי AI#אוטומציית עבודה#למידת מכונה#מקצועות יוקרה
מבוסס על כתבה שלTechCrunch ↗·תרגום, סיכום והקשר עסקי על-ידי המערכתאיך אנחנו עובדים

✨תקציר מנהלים

נקודות עיקריות

  • מודלים מובילים כמו Gemini 3 Flash מגיעים ל-24% דיוק במשימות ייעוץ, בנקאות ומשפט

  • האתגר העיקרי: חשיבה רב-דומיינית על פני כלים כמו Slack ו-Google Drive

  • שיפור מהיר צפוי, כמו מתמחה שמשתפר משנה לשנה

  • הבנצ'מרק Apex-Agents פתוח לאתגר לצוותי AI

האם סוכני AI מוכנים לעבודה? בנצ'מרק חדש מעלה ספקות

  • מודלים מובילים כמו Gemini 3 Flash מגיעים ל-24% דיוק במשימות ייעוץ, בנקאות ומשפט
  • האתגר העיקרי: חשיבה רב-דומיינית על פני כלים כמו Slack ו-Google Drive
  • שיפור מהיר צפוי, כמו מתמחה שמשתפר משנה לשנה
  • הבנצ'מרק Apex-Agents פתוח לאתגר לצוותי AI

בעידן שבו מנכ"ל מיקרוסופט סאטיה נאדלה ניבא לפני כמעט שנתיים ש-AI יחליף עבודות ידע, השינוי במקצועות הלבנים הצווארון מגיע לאט. מודלים מתקדמים מצטיינים במחקר מעמיק ותכנון סוכני, אך רוב העבודה המשרדית נשארה ללא שינוי. כעת, מחקר חדש מחברת Mercor, ענקית נתוני אימון, חושף תשובות למסתורין הזה דרך בנצ'מרק חדש בשם Apex-Agents.

הבנצ'מרק בוחן כיצד מודלי AI מובילים מתמודדים עם משימות עבודה משרדית אמיתיות מתחומי ייעוץ, בנקאות השקעות ומשפט. לפי הדיווח, אפילו המודלים הטובים ביותר הצליחו לענות נכון על פחות מרבע מהשאלות. רוב הפעמים, המודלים סיפקו תשובה שגויה או לא סיפקו תשובה כלל. חוקר המחקר, ברנדן פודי, מציין כי הנקודה החלשה העיקרית היא איתור מידע על פני דומיינים מרובים – משהו חיוני לעבודת ידע אנושית.

פודי מסביר: "שינוי גדול בבנצ'מרק הזה הוא שבנינו סביבה שלמה, המדמה את אופן העבודה בשירותים מקצועיים אמיתיים". במציאות, אנשי מקצוע פועלים על פני Slack, Google Drive ומספר כלים נוספים. עבור סוכני AI רבים, חשיבה רב-דומיינית כזו עדיין בלתי יציבה. התרחישים נלקחו ממקצוענים אמיתיים בשוק המומחים של Mercor, שגם הגדירו את הסטנדרט להצלחה. השאלות, שפורסמו בפומבי ב-Hugging Face, מדגימות מורכבות גבוהה.

דוגמה: בשאלת משפט, במהלך 48 הדקות הראשונות של תקלה בייצור באיחוד האירופי, צוות ההנדסה של Northstar ייצא קבצי לוגים עם נתוני אישיים לאמריקה. האם זה עומד במדיניות החברה ובסעיף 49? התשובה נכונה היא כן, אך דורשת ניתוח מעמיק של מדיניות החברה וחוקי פרטיות האיחוד. משימות כאלה מדמות עבודה אמיתית, ואם LLM יצליח בהן באופן אמין, הוא יוכל להחליף עורכי דין רבים.

פודי אומר: "זה כנראה הנושא הכי חשוב בכלכלה". הבנצ'מרק משקף עבודה אמיתית. לעומת זאת, בנצ'מרק GDPVal של OpenAI בודק ידע כללי על פני מקצועות רבים, בעוד Apex-Agents מתמקד בביצוע משימות מתמשכות במקצועות ערך גבוה ספציפיים. התוצאה קשה יותר, אך קרובה יותר לשאלה אם העבודות הללו ניתנות לאוטומציה.

בדיקות הראו כי Gemini 3 Flash הוביל עם 24% דיוק ב-one-shot, אחריו GPT-5.2 עם 23%. Opus 4.5, Gemini 3 Pro ו-GPT-5 השיגו כ-18%. אף מודל לא מוכן להחליף בנקאי השקעות, אך חלקם קרובים יותר. תחום ה-AI ידוע בשבירת בנצ'מרקים מאתגרים, וכעת Apex-Agents פתוח לאתגר לצוותי AI.

פודי מציין שיפור מהיר: "כרגע זה כמו מתמחה שמצליח פעם ברבע, אבל בשנה שעברה זה היה 5-10%. שיפור כזה משנה הכל במהירות". עבור מנהלי עסקים ישראלים, זה אומר לבחון סוכני AI למשימות ספציפיות, אך לא להחליף צוותים מלאים עדיין. השקעה בפיתוח יכולה להאיץ אימוץ.

הבנצ'מרק הזה מעלה שאלה: מתי סוכני AI יהיו מוכנים באמת? עסקים צריכים להתכונן – לבדוק כלים, לאמן עובדים ולהשקיע באימון מותאם.

שאלות ותשובות

שאלות נפוצות

רוצים ליישם את זה בעסק שלכם?

באוטומציות AI אנחנו בונים סוכני AI ואוטומציות לעסקים בישראל. ראו את השירותים הרלוונטיים:

  • אוטומציה לעסקיםחיבור מערכות, חשבוניות ודשבורדים
  • בוט וואטסאפ לעסקWhatsApp Business API בישראל
  • סוכני AI לעסקיםסוכנים שמטפלים בלידים, שיחות ו-CRM
  • ניהול לידים אוטומטימענה מיידי, ניקוד וסינון אוטומטי

הכתבה הוכנה על-ידי המערכת בליווי בינה מלאכותית: תרגום, סיכום והוספת הקשר עסקי ישראלי מתוך פרסום מקורי של TechCrunch. קראו על תהליך העריכה שלנו. קישור למקור המקורי.

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד מ־TechCrunch

כל הכתבות מ־TechCrunch
אוטומציה של משימות באייפון: המהפכה של Apple Intelligence
חדשות
לפני 3 שעות
4 דקות
·מ־TechCrunch

אוטומציה של משימות באייפון: המהפכה של Apple Intelligence

במסגרת כנס המפתחים האחרון, חשפה חברת Apple שורה של עדכוני בינה מלאכותית משמעותיים לפלטפורמת Apple Intelligence. העדכונים כוללים אפשרות לבניית קיצורי דרך מורכבים במערכת ההפעלה iOS באמצעות הנחיות טקסט פשוטות (Natural Language), ניהול כרטיסיות ושינויים חכם בדפדפן Safari, ויכולת שליפת הקשרים חוצת-אפליקציות בזמן שיחות טלפון. מדובר בשינוי מהותי באופן שבו עסקים ומנהלים יכולים לבצע אוטומציה של משימות באייפון ללא ידע בקוד. עבור עסקים בישראל, מדובר בהזדמנות לייעל תהליכי עבודה ניידים של עובדי שטח ומנהלים, לצד צורך בבחינה מדוקדקת של היבטי אבטחת מידע ופרטיות בהתאם לחוק הישראלי.

AppleApple IntelligenceSafari
קרא עוד
בינה מלאכותית של אפל ב-WWDC 2026: סירי החדשה וסוכני AI
חדשות
לפני 5 שעות
4 דקות
·מ־TechCrunch

בינה מלאכותית של אפל ב-WWDC 2026: סירי החדשה וסוכני AI

כנס המפתחים העולמי של אפל (WWDC 2026) נפתח עם בשורות דרמטיות בתחום ה-AI. החברה מציגה שדרוג חסר תקדים לעוזרת הקולית Siri, שמתבססת על מודל Gemini של גוגל, לצד שילוב סוכני AI בחנות האפליקציות ומערכת Apple Intelligence משודרגת. פיתוחים אלו עומדים לשנות את האופן שבו עסקים ומשתמשי קצה מתקשרים עם מכשירי אפל ביום-יום, עם שדרוגים באפליקציות המצלמה, התמונות והארנק (Wallet) שמאפשרים עריכה חכמה, זיהוי אובייקטים וחלוקת תשלומים מהירה.

AppleGoogleSiri
קרא עוד
חישוב עלויות בינה מלאכותית לעסקים: עידן ה-Tokenpocalypse
ניתוח
אתמול
4 דקות
·מ־TechCrunch

חישוב עלויות בינה מלאכותית לעסקים: עידן ה-Tokenpocalypse

התקופה שבה כלי בינה מלאכותית (AI) הוצעו במחירים קבועים ונמוכים מגיעה לסיומה. בעקבות שינויי התמחור האחרונים של מיקרוסופט עבור GitHub Copilot ומגבלות התקציב של חברות כמו Uber, התעשייה נכנסת לעידן ה-'טוקנפוקליפסה' (Tokenpocalypse). המשמעות עבור עסקים ברורה: תמחור מבוסס שימוש ריאלי בטוקנים ולא עוד מנויים חודשיים ללא הגבלה. כדי להימנע מחריגות תקציביות חדות, חברות נדרשות לבצע אופטימיזציה של פניות ה-API שלהן, להשתמש במערכות אוטומציה חכמות המנתבות משימות בצורה חסכונית, ולבחון מעבר למודלים ממוקדים וקטנים יותר.

MicrosoftGitHub CopilotAnthropic
קרא עוד
עדכוני סירי ואפל אינטליג'נס 2026: מה צפוי בכנס WWDC של אפל
חדשות
לפני 2 ימים
4 דקות
·מ־TechCrunch

עדכוני סירי ואפל אינטליג'נס 2026: מה צפוי בכנס WWDC של אפל

כנס המפתחים WWDC 2026 של אפל צפוי להביא עמו שדרוג משמעותי לעוזרת הקולית סירי, המבוסס על שיתוף פעולה עם Google Gemini ויכולות הבנת הקשר רב-שלביות. לפי דיווחים, אפל תציג אפליקציית סירי עצמאית שתתחרה ב-ChatGPT ו-Claude, ותציע אפשרות למחיקה אוטומטית של שיחות. לצד זאת, החברה צפויה להציג חנות סוכני AI לביצוע משימות אוטומטיות, שיפורים דרמטיים באפליקציות המצלמה והתמונות באמצעות מנוע החיפוש החזותי של גוגל, ופיצ'ר חדש לפיצול חשבונות ב-Apple Wallet המבוסס על צילום קבלות. מדובר במהפכה תפעולית שעסקים חייבים להיערך אליה.

AppleSiriGoogle
קרא עוד

עוד כתבות שיעניינו אותך

לכל הכתבות
פרצות אבטחה במערכות בינה מלאכותית: איומי האוטומציה החדשים
מחקר
לפני 2 ימים
5 דקות
·מ־Wired

פרצות אבטחה במערכות בינה מלאכותית: איומי האוטומציה החדשים

המעבר המהיר לאוטומציה ושילוב בינה מלאכותית חושף עסקים לפרצות אבטחה חסרות תקדים. דוח אבטחה מקיף של מגזין WIRED חושף כיצד האקרים ניצלו את מערכת התמיכה המבוססת AI של Meta להשתלטות על חשבונות ידוענים, וכיצד כלי ה-AI העוצמתי של Anthropic, המכונה Mythos, משמש את ה-NSA למטרות תקיפה. הדו"ח מדגיש את הסיכון שביישומי בינה מלאכותית ומזהיר את המגזר העסקי מפני הסתמכות עיוורת על כלים אוטונומיים ללא מנגנוני אימות קפדניים.

MetaChainalysisAnthropic
קרא עוד
גוגל חושפת את טכנולוגיית Agentic RAG לעסקים: דיוק חסר תקדים ל-AI
מחקר
לפני 3 ימים
4 דקות
·מ־Google Research

גוגל חושפת את טכנולוגיית Agentic RAG לעסקים: דיוק חסר תקדים ל-AI

גוגל מציגה את Agentic RAG, ארכיטקטורת רב-סוכנים חדשה המשולבת בפלטפורמת Gemini Enterprise. בניגוד למערכות RAG מסורתיות המחזירות תשובות חלקיות כאשר המידע מבוזר, המנגנון החדש פועל בצורה איטרטיבית. המערכת מחלקת את השאילתה בין סוכנים מומחים (כמו סוכן תכנון וסוכן ניסוח מחדש) ומשתמשת ב'סוכן הקשר מספק' המבצע בקרת איכות קפדנית על תוצאות החיפוש. בבדיקות של גוגל על מאגר המידע FramesQA, המערכת הגיעה ל-90.1% דיוק בחיפושים מורכבים חוצי-מאגרים, תוך שמירה על מהירות מענה כמעט זהה (פגיעה של 3% בלבד בלייטנסי). הטכנולוגיה, הזמינה כעת בגרסת תצוגה מקדימה, פותחת עידן חדש של אמינות ודיוק עבור סוכני AI בארגונים.

Google CloudGemini Enterprise Agent PlatformFramesQA
קרא עוד
אלגוריתם הליבה של המוח: המרוץ של ג'ף בזוס וחברת Flourish
מחקר
לפני 4 ימים
5 דקות
·מ־Wired

אלגוריתם הליבה של המוח: המרוץ של ג'ף בזוס וחברת Flourish

חברת הסטארט-אפ האמריקאית Flourish, בגיבוי של 500 מיליון דולר ומשקיעים בולטים ובראשם ג'ף בזוס, מנסה לפצח את אלגוריתם הליבה של המוח כדי לפתח מערכת בינה סינתטית חסכונית באנרגיה ולומדת ברציפות. המטרה היא ליצור מודלים שרצים על פחות מ-50 ואט ומסוגלים להתאים את עצמם לסביבה בזמן אמת, בדומה לרשתות העצביות הביולוגיות, ללא צורך באימון מחדש יקר בחוות שרתים ענקיות. פריצת דרך זו עשויה לייתר את חוות השרתים העצומות המשמשות כיום למודלי ה-LLMs הגדולים ולהעביר את כוח העיבוד למכשירי קצה מקומיים ומאובטחים.

FlourishJeff BezosThomas Reardon
קרא עוד
מודל בינה מלאכותית לחיזוי שיטפונות: גוגל משחררת את קוד המקור
מחקר
לפני 5 ימים
5 דקות
·מ־Google Research

מודל בינה מלאכותית לחיזוי שיטפונות: גוגל משחררת את קוד המקור

חוקרי Google Research שחררו רשמית את מודל ההידרולוגיה של החברה כקוד פתוח תחת רישיון Apache 2.0. המערכת, המבוססת על ספריית PyTorch ורשתות ME-LSTM, מניעה את חיזויי הזמן האמת של פלטפורמת Flood Hub הגלובלית. המהלך מאפשר לרשויות מטרולוגיות, חברות מים וגופי תשתית להריץ ולעבד נתוני אקלים ומשקעים מקומיים באופן עצמאי ומאובטח על שרתי הארגון. שילוב המודל, שנבחן בשיתוף פעולה עם המכון ההידרומטאורולוגי הצ'כי, מאפשר להאריך את טווח התחזית האמינה בעד שישה ימים באגנים מנוטרים, ומציע לעסקים ולרשויות בישראל כלי רב-עוצמה לניהול סיכוני מזג אוויר ושיפור ההיערכות לאירועי קיצון.

GoogleGitHubPyTorch
קרא עוד