הטיה אזורית ב-LLM: GPT-3.5 מוביל, Claude הכי נמוך

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

הטיה אזורית ב-LLM: GPT-3.5 מוביל, Claude הכי נמוך

האם LLM מפלים אזורים? מחקר חדש חושף: GPT-3.5 עם הטיה של 9.5, Claude 3.5 Sonnet רק 2.5. קראו עכשיו על FAZE והממצאים.

GPT-3.5 GPT-4o Gemini 1.5 Flash

קרא עוד

דגמי שפה גדולים מציונים חיבורי בגרות ארציים

מחקר

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

דגמי שפה גדולים מציונים חיבורי בגרות ארציים

בעידן הדיגיטלי המהיר, ציון אלפי חיבורי מבחני בגרות ארציים דורש פתרון מהיר ומדויק. מחקר חדש מאסטוניה מראה כי דגמי שפה גדולים מאפשרים הערכה אוטומטית עקבית. קראו עכשיו על התוצאות המרשימות! (112 מילים)

Estonia arXiv:2601.16314v1

קרא עוד

מחקר

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

GameTalk: אימון LLMs לשיחות אסטרטגיות

האם LLMs יכולים לנהל משא ומתן אסטרטגי? GameTalk – מסגרת חדשה מאמנת אותם דרך שיחות ארוכות ומשפרת תוצאות במשחקים מורכבים. קראו עכשיו!

GameTalk GRPO DPO

קרא עוד

SoundBreak: התקפות קוליות עוינות משבשות מודלי AI רב-מודליים

מחקר

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

SoundBreak: התקפות קוליות עוינות משבשות מודלי AI רב-מודליים

מודלי AI רב-מודליים פגיעים להתקפות קוליות עוינות בלבד, עם שיעור הצלחה של 96%. מחקר SoundBreak חושף את הסיכון וממליץ על הגנות חוצת-מודלים. קראו עכשיו!

SoundBreak Whisper

קרא עוד

ES4R: מודל דיבור אמפתי חדשני לדיאלוג רגשי

מחקר

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

ES4R: מודל דיבור אמפתי חדשני לדיאלוג רגשי

בעידן שבו בני שיח AI צריכים להבין לא רק מילים אלא גם טון ורגשות, ES4R מציעה פתרון חדשני. קראו עכשיו על המסגרת שמשפרת דיאלוגים אמפתיים מבוססי דיבור.

ES4R

קרא עוד

מחקר

26 בינואר 2026

3 דקות

מ־arXiv cs.AI

יצירת תיאוריות מדעיות בקנה מידה גדול מספרות מחקרית

בעידן שבו הבינה המלאכותית משנה את פני המחקר המדעי, חוקרים מציגים גישה חדשנית ליצירת תיאוריות מדעיות בקנה מידה גדול מ-13.7 אלף מאמרים. קראו עכשיו על היתרונות על פני LLM רגילים.

קרא עוד

יסודות חישוביים לקואופטיציה אסטרטגית ולויאליות

מחקר

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

יסודות חישוביים לקואופטיציה אסטרטגית ולויאליות

בעידן מערכות הרב-סוכנים של הבינה המלאכותית, בעיית ההשתמטות מאיימת להרוס יוזמות קבוצתיות. מחקר חדש מציג יסודות חישוביים לקואופטיציה אסטרטגית עם נאמנות. קראו עכשיו על התוצאות המרשימות.

Holmström i*Apache HTTP Server

קרא עוד

M3Kang: בדיקת חשיבה מתמטית רב-לשונית בדגמי AI

מחקר

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

M3Kang: בדיקת חשיבה מתמטית רב-לשונית בדגמי AI

בעידן שבו דגמי ראייה-שפה מציגים יכולות חשיבה מתקדמות, M3Kang חושף חולשות בחשיבה מתמטית רב-לשונית. מערך עם 1,747 בעיות מרחבי העולם, זמין ב-108 שפות. קראו עכשיו על הבדיקות והממצאים.

M3Kang Kangaroo Math Competition VLMs

קרא עוד

מחקר

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

LLMs עדיפים כמגלגלי נתונים: מחקר בשפות נמוכות משאבים

מודלי שפה גדולים עדיפים כמגלגלי נתונים סינתטיים: מחקר חדש מראה שהם מאמנים מודלים קטנים להצטיין יותר מהם בשפות נמוכות משאבים. קראו עכשיו!

קרא עוד

ChiEngMixBench: בנצ'מרק חדש לערבוב סינית-אנגלית ב-LLM

מחקר

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

ChiEngMixBench: בנצ'מרק חדש לערבוב סינית-אנגלית ב-LLM

חוקרים השיקו את ChiEngMixBench, בנצ'מרק ראשון לבדיקת ערבוב סינית-אנגלית במודלי שפה גדולים. קראו על המדדים החדשים ועל התובנות מהמחקר. קראו עכשיו.

ChiEngMixBench Large Language Models

קרא עוד

PolyBench: ספסל ניסוי לעיצוב פולימרים עם AI

מחקר

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

PolyBench: ספסל ניסוי לעיצוב פולימרים עם AI

האם מודלי שפה גדולים יכולים להפוך למהנדסי פולימרים? PolyBench, ספסל ניסוי חדש עם 125K משימות, מאפשר אימון יעיל של SLMs שמביסים מודלים מובילים. קראו עכשיו על הפריצה הזו ב-AI4Science.

PolyBench SLMs

קרא עוד

LLM קולי Zero-Shot להערכת הגייה באנגלית L2

מחקר

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

LLM קולי Zero-Shot להערכת הגייה באנגלית L2

מחקר חדש מראה כי LLM קולי zero-shot מצליח להעריך הגייה באנגלית L2 בדיוק גבוה, אך עם אתגרים בדיבור נמוך איכות. קראו עכשיו על הפוטנציאל העסקי.

Qwen2-Audio-7B-Instruct Speechocean762

קרא עוד

פלטפורמת AI לתחזוקת ציוד רפואי במדינות עניות

מחקר

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

פלטפורמת AI לתחזוקת ציוד רפואי במדינות עניות

במדינות עניות, ציוד רפואי רב לא מנוצל עקב תחזוקה לקויה. פלטפורמת AI חדשה מסייעת לטכנאים לתקן בזמן אמת עם דיוק גבוה. קראו על ההוכחה במכונת Philips HDI 5000. קראו עכשיו המלצות.

Philips HDI 5000

קרא עוד

VibeTensor: תוכנת למידה עמוקה שנוצרה לחלוטין על ידי סוכני AI

מחקר

26 בינואר 2026

3 דקות

מ־arXiv cs.AI

VibeTensor: תוכנת למידה עמוקה שנוצרה לחלוטין על ידי סוכני AI

בעידן שבו סוכני קידוד מבוססי AI משנים את פני תעשיית התוכנה, VibeTensor מגיעה כהוכחה חיה לכך שמכונות יכולות לבנות מחסנית תוכנה שלמה ללמידה עמוקה. קראו עכשיו על הפרויקט שמסמן אבן דרך.

VibeTensor PyTorch CUDA

קרא עוד

התמחות דומיין ב-LLMs: זיקוק ידע offline עם 500 שורות בלבד

מחקר

26 בינואר 2026

2 דקות

מ־arXiv cs.AI

התמחות דומיין ב-LLMs: זיקוק ידע offline עם 500 שורות בלבד

מודלי שפה גדולים מתקשים בידע ספציפי? חוקרים מציגים זיקוק ידע offline שמשיג 96.7% דיוק עם 500 שורות בלבד. קראו עכשיו על השיטה שמשנה את כללי המשחק!

Qwen-2.5-7B Unsloth NVIDIA A100

קרא עוד

AgentDrive: בנצ'מרק חדש ל-AI אוטונומי עם 300K תרחישים

מחקר

26 בינואר 2026

3 דקות

מ־arXiv cs.AI

AgentDrive: בנצ'מרק חדש ל-AI אוטונומי עם 300K תרחישים

בעידן שבו רכבים אוטונומיים מתקרבים לרחובות, אתגר מרכזי נותר: כיצד לבדוק ול訓練 מודלי AI אג'נטיים שמקבלים החלטות בזמן אמת? חוקרים משיקים את AgentDrive... קראו עכשיו את הפרטים המלאים! (112 מילים)

AgentDrive AgentDrive-MCQ

קרא עוד