למה Anthropic משנה את המבחן?

כי מודלי Claude עולים על מועמדים אנושיים במבחן הביתי.

מה הבעיה עם מבחנים ביתיים?

אין פיקוח, ומועמדים יכולים להשתמש ב-AI לרמות.

האם יש הזמנה לקוראים?

כן, לשתף פתרונות טובים יותר מ-Claude Opus 4.5.

למה Anthropic משנה את המבחן?

כי מודלי Claude עולים על מועמדים אנושיים במבחן הביתי.

מה הבעיה עם מבחנים ביתיים?

אין פיקוח, ומועמדים יכולים להשתמש ב-AI לרמות.

האם יש הזמנה לקוראים?

כן, לשתף פתרונות טובים יותר מ-Claude Opus 4.5.

חדשות

Anthropic מעדכנת מבחן ראיונות בגלל רמאות עם Claude

צוות הביצועים של החברה נאלץ לשנות את המבחן שוב ושוב, כיוון שמודלי Claude עולים על רוב המועמדים

צוות אוטומציות AI

22 בינואר 2026

2 דקות קריאה

מבוסס על כתבה שלTechCrunch ↗תרגום, סיכום והקשר עסקי על-ידי המערכתאיך אנחנו עובדים

✨תקציר מנהלים

Key Takeaways

Anthropic מעדכנת מבחן ביתי למועמדים מאז 2024 בגלל התקדמות Claude.
Claude Opus 4 עלה על רוב האנשים, ו-4.5 תואם את הטובים ביותר.
החברה פיתחה מבחן חדש פחות מבוסס חומרה כדי להקשות על AI.
הפוסט מזמין הצעות לשיפור מהקהילה.

Anthropic מעדכנת מבחן ראיונות בגלל רמאות עם Claude

Anthropic מעדכנת מבחן ביתי למועמדים מאז 2024 בגלל התקדמות Claude.
Claude Opus 4 עלה על רוב האנשים, ו-4.5 תואם את הטובים ביותר.
החברה פיתחה מבחן חדש פחות מבוסס חומרה כדי להקשות על AI.
הפוסט מזמין הצעות לשיפור מהקהילה.

בעולם שבו AI הופך לכלי רמאות נפוץ, Anthropic נתקלת בבעיה ייחודית: המבחן הטכני שלה למועמדים לעבודה נכבש על ידי Claude, המודל שלה עצמה. מאז 2024, צוות אופטימיזציית הביצועים של החברה מחלק מבחן ביתי כדי לבדוק את כישורי המועמדים. אולם, עם התקדמות כלי קידוד מבוססי AI, המבחן נאלץ להשתנות באופן דרמטי כדי להישאר צעד אחד קדימה.

טריסטן היום, ראש הצוות, תיאר את ההיסטוריה של האתגר בפוסט בלוג שפרסם. "כל מודל Claude חדש הכריח אותנו לעצב מחדש את המבחן", הוא כותב. כשהוגבל לזמן זהה לזה של המועמדים, Claude Opus 4 עלה על רוב המועמדים האנושיים. זה עדיין אפשר להבחין בין המועמדים הטובים ביותר – אך אז הגיע Claude Opus 4.5, שתואם אפילו את הטובים שבהם.

התוצאה היא בעיית הערכת מועמדים חמורה. ללא פיקוח פנים אל פנים, אין דרך לוודא שמישהו לא משתמש ב-AI כדי לרמות במבחן – ואם כן, הוא יעלה במהירות לראש הרשימה. "תחת מגבלות המבחן הביתי, אין לנו עוד דרך להבחין בין הפלט של המועמדים הטובים ביותר שלנו לבין המודל המתקדם ביותר שלנו", כותב היום. הבעיה הזו כבר משתוללת בבתי ספר ואוניברסיטאות בעולם, אך אירוני שאותיות המעבדות AI נאלצות להתמודד איתה.

Anthropic, עם זאת, מצוידת היטב להתמודד עם האתגר. בסופו של דבר, היום תכנן מבחן חדש שקשור פחות לאופטימיזציה של חומרה, מה שהופך אותו לחדשני מספיק כדי להקשות על כלי AI עכשוויים. כחלק מהפוסט, הוא שיתף את המבחן המקורי כדי לראות אם קוראים יכולים להציע פתרון טוב יותר. "אם תוכלו לעלות על Opus 4.5", נכתב בפוסט, "נשמח לשמוע מכם".

הסיפור מדגיש את האתגר הגובר בתעשיית ה-AI: כיצד לבחון כישורים אנושיים בעידן שבו מכונות מצטיינות במשימות הטכניות? למנהלי משאבי אנוש בישראל, זהו תזכורת לבחון מחדש תהליכי גיוס, אולי עם דגש על יצירתיות וחשיבה ביקורתית ש-AI עדיין מתקשה בו. מה תעשו כדי להבטיח שהמועמדים שלכם אמיתיים?

שאלות ותשובות

FAQ

הכתבה הוכנה על-ידי המערכת בליווי בינה מלאכותית: תרגום, סיכום והוספת הקשר עסקי ישראלי מתוך פרסום מקורי של TechCrunch. קראו על תהליך העריכה שלנו. קישור למקור המקורי.

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד מ־TechCrunch

כל הכתבות מ־TechCrunch

בינה מלאכותית לענף המסעדנות: הקמת מותג וירטואלי בפחות מדקה

חדשות

לפני 5 שעות

4 דקות

מ־TechCrunch

בינה מלאכותית לענף המסעדנות: הקמת מותג וירטואלי בפחות מדקה

היזם מארק לור, לשעבר בכיר בוולמארט ואמזון, חושף את השלב הבא במהפכת הפוד-טק: פלטפורמת Wonder Create המאפשרת הקמת מסעדות וירטואליות באמצעות פקודת טקסט בודדת למערכת בינה מלאכותית. המערכת מפיקה בתוך פחות מדקה את כלל המרכיבים הנדרשים להקמת מותג - החל מהשם, המיתוג והמתכונים, ועד לבניית תפריט, תמחור והגדרות תזונתיות. המנות המוגמרות מיוצרות ומסופקות דרך רשת הולכת וגדלה של 120 מטבחים מתקדמים, המשלבים פסי ייצור אוטומטיים וזרועות רובוטיות. המהלך נועד לפתור את בעיות בקרת האיכות שאפיינו את גל מטבחי הרפאים הקודם, ומציע יכולת להפעיל עשרות מותגים במקביל מכל מתחם תוך חיסכון משמעותי בעלויות הפעלה והגדלת קיבולת הייצור עד ל-20 מיליון מנות למתחם.

Marc Lore Wonder Wonder Create

קרא עוד

תזמור בינה מלאכותית ארגונית: QuTwo מגייסת 29 מיליון דולר

חדשות

לפני 5 שעות

4 דקות

מ־TechCrunch

תזמור בינה מלאכותית ארגונית: QuTwo מגייסת 29 מיליון דולר

פיטר סרלין, שהוביל בעבר את חברת Silo AI, חוזר עם מעבדת הבינה המלאכותית הפינית QuTwo שמכריזה על גיוס אנג'לים בהיקף 29 מיליון דולר, לפי שווי שוק של 380 מיליון דולר. החברה מתמקדת בפיתוח שכבת תזמור (Orchestration) המנתבת ומחלקת באופן אוטומטי את הרצתם של מודלים וסוכני AI על גבי ארכיטקטורות מחשוב קלאסיות והיברידיות. המערכת נועדה לסייע לארגונים גדולים לבצע אופטימיזציה של עומסי העבודה ולהפחית באופן דרמטי את עלויות הענן שלהם. לפי הדיווח, QuTwo כבר מחזיקה בהתחייבויות הכנסה של 23 מיליון דולר, בין היתר משותפויות אסטרטגיות עם ענקית הקמעונאות Zalando. בניגוד למתחרות שגייסו מיליארדי דולרים מקרנות הון סיכון, בחרו ב-QuTwo לשמור על עצמאות ניהולית ולגייס ממשקיעים פרטיים במטרה להתמקד בחזון טכנולוגי ארוך טווח.

QuTwo Peter Sarlin AMD

קרא עוד

סוכני AI לנתונים מובנים: הרכישה החדשה של SAP והחסימה של OpenClaw

חדשות

לפני 11 שעות

5 דקות

מ־TechCrunch

סוכני AI לנתונים מובנים: הרכישה החדשה של SAP והחסימה של OpenClaw

ענקית התוכנה SAP הודיעה על השקעה של 1.16 מיליארד דולר במעבדת ה-AI של הסטארטאפ הגרמני Prior Labs, המתמחה במודלי בינה מלאכותית לנתונים טבלאיים (TFM). במקביל, דיווחים חושפים כי החברה ביצעה שינוי דרמטי במדיניות ממשקי ה-API שלה, וכעת היא חוסמת באופן גורף גישה של סוכני AI חיצוניים שאינם מורשים – דוגמת OpenClaw. מנגד, סביבות שאושרו ספציפית כמו סוכני Joule של SAP ו-NemoClaw של Nvidia מורשות לפעול במערכת. המהלך מסמן מגמה גוברת של חברות תוכנה ארגוניות להדק את השליטה על הנתונים הרגישים שלהן, ומציב אתגר מורכב בפני חברות ישראליות המבקשות לשלב אוטומציות עצמאיות במערכות ה-ERP, הרכש והכספים שלהן.

SAP Prior Labs OpenClaw

קרא עוד

מנכ״ל ASML מגיב לאיומים: הדומיננטיות בתשתית שבבי הבינה המלאכותית מובטחת

חדשות

לפני 15 שעות

5 דקות

מ־TechCrunch

מנכ״ל ASML מגיב לאיומים: הדומיננטיות בתשתית שבבי הבינה המלאכותית מובטחת

כריסטוף פוקה, מנכ״ל ענקית ייצור ציוד השבבים ההולנדית ASML, חושף בראיון ל-TechCrunch כי המונופול של החברה בייצור מכונות ליתוגרפיה מסוג EUV חסין מפני מתחרים חדשים ואפילו מול ניסיונות ריגול בסין. בזמן שענקיות הטכנולוגיה צפויות להשקיע השנה 600 מיליארד דולר בתשתיות AI, פוקה מזהיר ממחסור עולמי בשבבים שעלול להימשך עד חמש שנים. לדבריו, בניית תשתית מתחרה דורשת עשורים של ידע מצטבר שמקשה על כל חברה אחרת להיכנס לשוק. עבור עסקים בישראל שמסתמכים על כלי בינה מלאכותית, המסקנה ברורה: עלויות המחשוב צפויות להישאר משמעותיות בתקופה הקרובה, ועל ארגונים לאמץ אסטרטגיות חיסכון ואופטימיזציה בתהליכי האוטומציה שלהם.

ASML Christophe Fouquet Microsoft

קרא עוד