CASCADE: סוכן AI מתפתח עצמאית שמשיג 93% הצלחה במחקר מדעי

1 בינואר 2026

2 דקות

מ־arXiv cs.AI

CASCADE: סוכן AI מתפתח עצמאית שמשיג 93% הצלחה במחקר מדעי

בעידן שבו סוכני AI מתקשים במשימות מדעיות, CASCADE משנה הכל עם התפתחות עצמאית. קראו על 93% הצלחה ב-SciSkillBench ועל יישומים אמיתיים.

CASCADE SciSkillBench GPT-5

קרא עוד

SPARK: חיפוש מותאם אישית בסוכני LLM מתואמים

מחקר

1 בינואר 2026

2 דקות

מ־arXiv cs.AI

SPARK: חיפוש מותאם אישית בסוכני LLM מתואמים

בעידן הדיגיטלי המהיר, חיפושים אישיים דורשים הבנה עמוקה של צרכי משתמשים משתנים. SPARK מציגה מסגרת חדשה עם סוכני LLM מבוססי פרסונות לתיאום חיפוש מתקדם. קראו עכשיו על הפוטנציאל העסקי.

SPARK Persona Coordinator

קרא עוד

ROAD: אופטימיזציה רפלקטיבית לביצועי סוכני AI ללא נתונים

מחקר

1 בינואר 2026

2 דקות

מ־arXiv cs.AI

ROAD: אופטימיזציה רפלקטיבית לביצועי סוכני AI ללא נתונים

בעידן שבו סוכני AI מבוססי מודלי שפה גדולים הופכים לכלי מרכזי, ROAD מציגה פתרון חדשני לאופטימיזציית פרומפטים ללא נתונים גדולים. קראו עכשיו על השיפורים הדרמטיים.

ROAD

קרא עוד

מבחן DDFT: מדד חדש לעמידות ידע במודלי שפה

מחקר

1 בינואר 2026

2 דקות

מ־arXiv cs.AI

מבחן DDFT: מדד חדש לעמידות ידע במודלי שפה

האם מודלי השפה הגדולים אמינים? מבחן DDFT חושף חולשות תחת לחץ. קראו את המחקר המלא עכשיו.

DDFT MMLU TruthfulQA

קרא עוד

גילוי: נתוני CoT שגויים משפרים חשיבה של מודלי שפה

מחקר

31 בדצמבר 2025

3 דקות

מ־arXiv cs.AI

גילוי: נתוני CoT שגויים משפרים חשיבה של מודלי שפה

מחקר חדש מוכיח: שרשראות CoT סינתטיות שגויות משפרות חשיבה של מודלי שפה יותר מנתונים אנושיים. גלו מדוע חלוקת נתונים קובעת. קראו עכשיו!

arXiv:2512.22255 Qwen Llama

קרא עוד

גמייבנץ': בנצ'מרק חדש לחשיבה מרחבית במודלי AI

מחקר

31 בדצמבר 2025

2 דקות

מ־arXiv cs.AI

גמייבנץ': בנצ'מרק חדש לחשיבה מרחבית במודלי AI

מודלי AI רב-מודליים מתקשים בחשיבה מרחבית? גמייבנץ' חדש חושף זאת דרך אוריגמי. קראו על הבנצ'מרק שמעריך תכנון 2D-3D. קראו עכשיו!

GamiBench MLLMs GPT-5

קרא עוד

מחקר

31 בדצמבר 2025

2 דקות

מ־arXiv cs.AI

שכנוע מתעורר ב-LLM: האם ללא פרומפטים?

בעידן שבו מערכות AI שיחה הפכו לחלק בלתי נפרד מחיינו, הן מפעילות השפעה חסרת תקדים על דעות וביטחונות של משתמשים. מחקר חדש בודק אם LLM ישכנעו ללא פרומפטים. קראו עכשיו על הסיכונים.

קרא עוד

מסגרת ARC: ניהול סיכונים ב-AI אג'נטי חכם

מחקר

31 בדצמבר 2025

2 דקות

מ־arXiv cs.AI

מסגרת ARC: ניהול סיכונים ב-AI אג'נטי חכם

מערכות AI אג'נטי מציגות הזדמנויות אך גם סיכונים חדשים. מסגרת ARC החדשה עוזרת לזהות, להעריך ולהפחית אותם. קראו עכשיו על הכלי שישנה את ניהול AI בארגונים. (48 מילים)

ARC Framework Agentic AI

קרא עוד

RAG דו-כיווני: שדרוג בטוח ומשתפר עצמית ל-AI

מחקר

31 בדצמבר 2025

3 דקות

מ־arXiv cs.AI

RAG דו-כיווני: שדרוג בטוח ומשתפר עצמית ל-AI

בעולם שבו דגמי שפה גדולים זקוקים לידע עדכני, RAG דו-כיווני מאפשר מאגרים להתרחב בבטחה מאינטראקציות משתמשים. קראו על התוצאות המדהימות ועל ההשלכות לעסקים. קראו עכשיו!

Bidirectional RAG Natural Questions TriviaQA

קרא עוד

מחקר

31 בדצמבר 2025

2 דקות

מ־arXiv cs.AI

מאפשרת מודל לבחירה לאמונת מודל: מדד חדש למחקר LLM

מודלי שפה גדולים משמשים לסימולציה של התנהגות אנושית, אך שיטות נוכחיות לא יעילות. מאמר חדש מציג 'אמונת המודל' – מדד המבוסס על הסתברויות טוקנים שמפחית חישובים פי 20. קראו עכשיו לפרטים מלאים.

קרא עוד

SPIRAL: תכנון LLM סמלי בחיפוש מבוסס ומשקף

מחקר

31 בדצמבר 2025

3 דקות

מ־arXiv cs.AI

SPIRAL: תכנון LLM סמלי בחיפוש מבוסס ומשקף

מודלי שפה גדולים נתקעים בתכנון מורכב? SPIRAL משנה זאת עם MCTS מודרך על ידי שלושה סוכני LLM. דיוק 83.6% – קראו עכשיו!

SPIRAL MCTS DailyLifeAPIs

קרא עוד

InSPO: פתיחת רפלקציה עצמית באופטימיזציית LLM

מחקר

31 בדצמבר 2025

2 דקות

מ־arXiv cs.AI

InSPO: פתיחת רפלקציה עצמית באופטימיזציית LLM

בעידן ה-LLM, InSPO מתקנת מגבלות DPO ומשפרת יישור עם העדפות אנושיות. קראו על השיטה החדשה שמעלה את איכות המודלים. קראו עכשיו!

InSPO DPO RLHF

קרא עוד

ChexReason: הצלחה בנצ'מרקים, כישלון קליני ב-RL

מחקר

31 בדצמבר 2025

2 דקות

מ־arXiv cs.AI

ChexReason: הצלחה בנצ'מרקים, כישלון קליני ב-RL

ChexReason חושף פרדוקס בלמידת חיזוק ל-AI רפואי: שיפור דרמטי על CheXpert (23%), אך ירידה בהכללה ל-NIH (19%). כוונון מונחה עדיף לקליניקה. קראו עכשיו את הניתוח המלא!

ChexReason CheXpert NIH

קרא עוד

בדיקת עובדות רב-מודלית: גישה חדשנית מבוססת סוכנים

מחקר

31 בדצמבר 2025

2 דקות

מ־arXiv cs.AI

בדיקת עובדות רב-מודלית: גישה חדשנית מבוססת סוכנים

בעידן הרשתות החברתיות, מידע שקרי רב-מודלי מתפשט במהירות. חוקרים משיקים את RW-Post, מאגר נתונים חדש לבדיקת עובדות רב-מודלית, ומסגרת AgentFact מבוססת סוכנים. קראו עכשיו על הפריצה הזו! (112 מילים)

RW-Post AgentFact

קרא עוד