בנצ'מרק ScratchWorld: בדיקת סוכני AI ב-Scratch
חוקרים השיקו את ScratchWorld, בנצ'מרק לבדיקת סוכני AI ב-Scratch. הוא חושף פערים בביצוע GUI ומציע הערכה מדויקת. גלו כיצד זה משפיע על עסקים.
קרא עודהמקור המוביל בישראל לעדכונים טכנולוגיים, ניתוחי עומק על בינה מלאכותית, ומדריכים לייעול העסק בעזרת אוטומציה.
חוקרים השיקו את ScratchWorld, בנצ'מרק לבדיקת סוכני AI ב-Scratch. הוא חושף פערים בביצוע GUI ומציע הערכה מדויקת. גלו כיצד זה משפיע על עסקים.
קרא עודMoltbook, רשת חברתית לסוכני AI, צומחת במהירות ומציגה שיח פוליטי ורעיל. מחקר חדש חושף ממצאים מדאיגים – גלו כיצד זה משפיע על עסקים.
קרא עודמחקר חדש מוכיח שמודלי שפה גדולים נכשלים בהתאמה תרבותית של מתכונים, בניגוד לבני אדם. זה חושף מגבלות יסודיות ב-AI. גלו את הממצאים וההשלכות לעסקים.
קרא עודOmniSapiens-7B 2.0 מציג פריצת דרך בעיבוד התנהגות חברתית ב-AI באמצעות HARPO. שיפורים משמעותיים בביצועים – גלו איך זה משפיע על עסקים.
קרא עודחוקרים מציגים NSAM, מסגרת שמונעת פעולות בלתי אפשריות בלמידה מחוזקת עמוקה ומשפרת יעילות. גלו כיצד זה משפיע על עסקים.
קרא עודחוקרים מפתחים FoSS, מודל שפה מבוסס GFlowNets שמשפר יצירת טקסט ב-12.5%. גישה זו פותחת אפשרויות חדשות לעסקים ישראליים באוטומציה.
קרא עודמחקר חדש מראה שמודלי שפה גדולים יכולים לייצר תיאורים מופשטים לתכנון כללי עם debugging אוטומטי. זה פותח אפשרויות חדשות לאוטומציה עסקית. גלו כיצד זה משפיע על עסקים ישראליים.
קרא עודחוקרים השיקו AgoraBench, בנצ'מרק חדש לבדיקת משא ומתן ב-LLM. הכלי חושף חולשות ומשפר ביצועים דרך משוב תועלת. גלו כיצד זה משפיע על עסקים.
קרא עודFound-RL משלבת מודלים יסודיים בלמידת חיזוק לנהיגה אוטונומית ומאפשרת אימון בזמן אמת. גלו את החידושים שמשפרים יעילות וביצועים. התחילו עם [סוכני AI](/services/ai-agents) עכשיו.
קרא עודמודלי חשיבה גדולים נכשלים בתיאוריית הנפש למרות הצלחות במתמטיקה. מחקר חדש חושף כשלונות בחשיבה איטית וקיצורי דרך. גלו את ההשלכות לעסקים.
קרא עודLiveMedBench חושף חולשות במודלי LLM ברפואה עקב זיהום נתונים. בנצ'מרק חדשני זה מבטיח בדיקות אמיתיות ומגלה הצלחה נמוכה של 39.2% במודלים הטובים ביותר. חיוני לעסקי בריאות בישראל.
קרא עודמחקר חדש מגלה שמודלי LLM מציגים התנהגות אסטרטגית עמוקה יותר מבני אדם במשחקי אבן-נייר-מספריים. גלו כיצד זה משפיע על עסקים.
קרא עודModal Labs, סטארט-אפ להשמה AI, במו"מ לגיוס בשווי 2.5 מיליארד דולר – כפול מהשווי הקודם. ARR של 50 מיליון דולר. גלו כיצד זה משפיע על עסקים ישראליים. קראו עכשיו!
קרא עודGlean מתפתחת לעוזר AI לעבודה ששולט בשכבה הבסיסית של כל הארגון ומתחרה בענקיות. גייסה 150 מיליון דולר בשווי 7.2 מיליארד. גלו כיצד זה משפיע על עסקים ישראליים.
קרא עודUber Eats משיקה עוזר AI חדש לבניית סל קניות מהיר. העוזר ממלא פריטים מרשימות או תמונות ומתאים אישית. גלו כיצד זה משפיע על שוק המשלוחים.
קרא עודאפל דוחה שוב את שדרוג סירי AI: מפרוץ לספטמבר. גלו את הסיבות וההשלכות לעסקים. התחילו עם סוכני AI עכשיו!
קרא עודOpenAI פירקה את צוות היישור למשימה שדאג לבטיחות AI. חברי הצוות הועברו לתפקידים אחרים. גלו את ההשלכות לעסקים ישראליים והצעדים הנדרשים.
קרא עוד