AgentCPM-Explore: סוכן AI קומפקטי שמתעלה על ענקיות

9 בפברואר 2026

4 דקות

מ־arXiv cs.AI

AgentCPM-Explore: סוכן AI קומפקטי שמתעלה על ענקיות

AgentCPM-Explore, סוכן AI של 4B פרמטרים, משיג SOTA ומתעלה על מודלים גדולים. גלו כיצד זה משנה את עולם האוטומציה. התחילו עם [סוכני AI](/services/ai-agents) עכשיו!

AgentCPM-Explore Claude-4.5-Sonnet DeepSeek-v3.2

קרא עוד

בנצ'מרק LogicSkills חושף: מודלי AI חלשים בחשיבה לוגית אמיתית

מחקר

9 בפברואר 2026

4 דקות

מ־arXiv cs.AI

בנצ'מרק LogicSkills חושף: מודלי AI חלשים בחשיבה לוגית אמיתית

בנצ'מרק חדש חושף שמודלי שפה גדולים חלשים בסימבוליזציה לוגית ובניית מודלים נגדיים, למרות הצלחה בהערכת תקפות. גלו את ההשלכות לעסקים ישראליים.

LogicSkills Z3

קרא עוד

מגבלות יציבות בהיגיון ארוך טווח של מודלי שפה גדולים

מחקר

9 בפברואר 2026

4 דקות

מ־arXiv cs.AI

מגבלות יציבות בהיגיון ארוך טווח של מודלי שפה גדולים

מודלי שפה גדולים נכשלים במשימות ארוכות בגלל חוסר יציבות אוטורגרסיבי, לא רק מורכבות. מחקר חדש מציע מבנים גרפיים כפתרון. גלו כיצד זה משפיע על עסקים ישראליים.

TextWorld

קרא עוד

DEPO: אופטימיזציה חדשה מקצרת עלויות אימון מודלי AI ב-2

מחקר

9 בפברואר 2026

4 דקות

מ־arXiv cs.AI

DEPO: אופטימיזציה חדשה מקצרת עלויות אימון מודלי AI ב-2

DEPO מקצרת עלויות אימון מודלי AI ב-2. מחקר חדש מציג פתרון לבעיות GRPO. מתאים לעסקים ישראלים. גלו עוד!

DEPO GRPO DAPO

קרא עוד

מחקר

9 בפברואר 2026

4 דקות

מ־arXiv cs.AI

Trifuse: שיפור מיקוד GUI ללא אימון יקר

Trifuse משפרת מיקוד אלמנטים בממשקי GUI ללא אימון ספציפי, באמצעות שילוב תשומת לב, OCR וכיתובי אייקונים. ביצועים גבוהים על בנצ'מרקים מוכיחים חיסכון בנתונים. גלו כיצד זה משפיע על אוטומציה עסקית.

Trifuse MLLMs OCR

קרא עוד

GrAlgoBench חושף חולשות קשות במודלי חשיבה גדולים

מחקר

9 בפברואר 2026

4 דקות

מ־arXiv cs.AI

GrAlgoBench חושף חולשות קשות במודלי חשיבה גדולים

בנצ'מרק GrAlgoBench חושף חולשות במודלי חשיבה גדולים: דיוק נמוך בגרפים גדולים וחשיבה מיותרת. גלו כיצד זה משפיע על AI עסקי.

GrAlgoBench Large Reasoning Models LRMs

קרא עוד

מחקר

9 בפברואר 2026

4 דקות

מ־arXiv cs.AI

האם LLM פועלים כסוכנים רציונליים? מחקר חדש בודק עקביות אמונות

מחקר חדש בודק אם מודלי שפה גדולים פועלים כסוכנים רציונליים באתגרי אבחון רפואי. התוצאות חושפות תובנות על עקביות אמונותיהם. גלו כיצד זה משפיע על עסקים.

Bayesian utility maximization

קרא עוד

סקירה חדשה חושפת כשלי היגיון במודלי שפה גדולים

מחקר

10 בפברואר 2026

4 דקות

מ־arXiv cs.AI

סקירה חדשה חושפת כשלי היגיון במודלי שפה גדולים

מודלי שפה גדולים נכשלים בהיגיון פשוט? סקר חדש ב-arXiv מציג סיווג מקיף של כשלי היגיון ב-LLMs ומציע פתרונות. קראו על ההשלכות לעסקים ישראלים והורידו את המאגר מ-GitHub.

Peiyang Song GitHub

קרא עוד

Jackpot: למידת חיזוק יעילה למודלי שפה גדולים

מחקר

9 בפברואר 2026

4 דקות

מ־arXiv cs.AI

Jackpot: למידת חיזוק יעילה למודלי שפה גדולים

Jackpot מציגה מסגרת חדשה ללמידת חיזוק יעילה ב-LLM, מפחיתה עלויות ומשפרת יציבות. גלו כיצד זה משפיע על עסקים ישראליים.

Jackpot OBRS Qwen3-8B-Base

קרא עוד

ALIVE: מעירה חשיבה מתקדמת במודלי שפה גדולים

מחקר

7 בפברואר 2026

2 דקות

מ־arXiv cs.AI

ALIVE: מעירה חשיבה מתקדמת במודלי שפה גדולים

בעידן שבו מודלי שפה גדולים נתקלים בקושי להגיע לרמת חשיבה של מומחים, חוקרים מציגים את ALIVE – מסגרת אימון פורצת דרך שמתגברת על בעיית התגמולים ומשפרת ביצועים במתמטיקה, קוד ולוגיקה. קראו את הניתוח המלא עכשיו! (112 מילים)

ALIVE

קרא עוד

M²-Miner: פריצת דרך בכריית נתונים לסוכני GUI ניידים

מחקר

7 בפברואר 2026

2 דקות

מ־arXiv cs.AI

M²-Miner: פריצת דרך בכריית נתונים לסוכני GUI ניידים

בעידן שבו אינטראקציה בין אדם למחשב הופכת חכמה יותר, סוכני GUI בנייד הם המפתח להתקדמות. החוקרים מציגים את M²-Miner, מסגרת כריית נתונים אוטומטית בעלות נמוכה ראשונה מסוגה. קראו כיצד היא משנה את חוקי המשחק. קראו עכשיו!

M²-Miner InferAgent OrchestraAgent

קרא עוד

H-AdminSim: סימולטור חדש לזרימות עבודה מנהליות בבתי חולים

מחקר

7 בפברואר 2026

3 דקות

מ־arXiv cs.AI

H-AdminSim: סימולטור חדש לזרימות עבודה מנהליות בבתי חולים

מחלקות ניהול בבתי חולים גדולים מטפלות בלמעלה מ-10,000 בקשות יומיות. H-AdminSim, מסגרת סימולציה חדשה, מאפשרת בדיקת אוטומציה מבוססת LLM בזרימות עבודה מלאות עם שילוב FHIR. קראו עכשיו על הפוטנציאל לשיפור יעילות. (112 מילים)

H-AdminSim FHIR

קרא עוד

בדיקה קלינית: LLM רפואיים מצטיינים בשאלות עיניים

מחקר

7 בפברואר 2026

2 דקות

מ־arXiv cs.AI

בדיקה קלינית: LLM רפואיים מצטיינים בשאלות עיניים

בעידן שבו LLM רפואיים תופסים מקום בחינוך מטופלים ברפואת עיניים, מחקר חדש בדק ארבעה מודלים קטנים ומצא: Meerkat-7B מצטיין. קראו עכשיו על התוצאות והשלכות.

Meerkat-7B BioMistral-7B OpenBioLLM-8B

קרא עוד

RaBiT: בינאריזציה יעילה לדגמי שפה גדולים

מחקר

7 בפברואר 2026

2 דקות

מ־arXiv cs.AI

RaBiT: בינאריזציה יעילה לדגמי שפה גדולים

בעידן שבו דגמי שפה גדולים דורשים כוח חישוב עצום, RaBiT מציגה בינאריזציה חדשנית שמאיצה השפלה פי 4.5 ללא פגיעה בדיוק. קראו עכשיו על הפתרון המהפכני.

RaBiT

קרא עוד

מחקר

7 בפברואר 2026

2 דקות

מ־arXiv cs.AI

PATHWAYS: בדיקת חקירה בנוכחות AI ברשת

בעידן שבו עסקים ישראליים משלבים נוכחות AI לניווט אוטומטי באינטרנט, חוקרים מפרסמים את בנצ'מרק PATHWAYS – קובץ של 250 משימות קבלת החלטות רב-שלביות. קראו עכשיו על הכשלים הגדולים!

PATHWAYS

קרא עוד

AgentXRay: שחזור זרימת עבודה שקופה למערכות AI

מחקר

7 בפברואר 2026

2 דקות

מ־arXiv cs.AI

AgentXRay: שחזור זרימת עבודה שקופה למערכות AI

מודלי שפה גדולים פותרים בעיות מורכבות, אך מערכות אג'נטיות רבות נותרות קופסאות שחורות. AgentXRay חושף את זרימת העבודה הפנימית באמצעות קלט-פלט בלבד. קראו על הפריצה החדשה במחקר AI. קראו עכשיו!

AgentXRay AWR Monte Carlo Tree Search

קרא עוד