למה Anthropic משנה את המבחן?

כי מודלי Claude עולים על מועמדים אנושיים במבחן הביתי.

מה הבעיה עם מבחנים ביתיים?

אין פיקוח, ומועמדים יכולים להשתמש ב-AI לרמות.

האם יש הזמנה לקוראים?

כן, לשתף פתרונות טובים יותר מ-Claude Opus 4.5.

חדשות

Anthropic מעדכנת מבחן ראיונות בגלל רמאות עם Claude

צוות הביצועים של החברה נאלץ לשנות את המבחן שוב ושוב, כיוון שמודלי Claude עולים על רוב המועמדים

צוות אוטומציות AI

22 בינואר 2026

2 דקות קריאה

מבוסס על כתבה שלTechCrunch ↗תרגום, סיכום והקשר עסקי על-ידי המערכתאיך אנחנו עובדים

✨תקציר מנהלים

נקודות עיקריות

Anthropic מעדכנת מבחן ביתי למועמדים מאז 2024 בגלל התקדמות Claude.
Claude Opus 4 עלה על רוב האנשים, ו-4.5 תואם את הטובים ביותר.
החברה פיתחה מבחן חדש פחות מבוסס חומרה כדי להקשות על AI.
הפוסט מזמין הצעות לשיפור מהקהילה.

Anthropic מעדכנת מבחן ראיונות בגלל רמאות עם Claude

Anthropic מעדכנת מבחן ביתי למועמדים מאז 2024 בגלל התקדמות Claude.
Claude Opus 4 עלה על רוב האנשים, ו-4.5 תואם את הטובים ביותר.
החברה פיתחה מבחן חדש פחות מבוסס חומרה כדי להקשות על AI.
הפוסט מזמין הצעות לשיפור מהקהילה.

בעולם שבו AI הופך לכלי רמאות נפוץ, Anthropic נתקלת בבעיה ייחודית: המבחן הטכני שלה למועמדים לעבודה נכבש על ידי Claude, המודל שלה עצמה. מאז 2024, צוות אופטימיזציית הביצועים של החברה מחלק מבחן ביתי כדי לבדוק את כישורי המועמדים. אולם, עם התקדמות כלי קידוד מבוססי AI, המבחן נאלץ להשתנות באופן דרמטי כדי להישאר צעד אחד קדימה.

טריסטן היום, ראש הצוות, תיאר את ההיסטוריה של האתגר בפוסט בלוג שפרסם. "כל מודל Claude חדש הכריח אותנו לעצב מחדש את המבחן", הוא כותב. כשהוגבל לזמן זהה לזה של המועמדים, Claude Opus 4 עלה על רוב המועמדים האנושיים. זה עדיין אפשר להבחין בין המועמדים הטובים ביותר – אך אז הגיע Claude Opus 4.5, שתואם אפילו את הטובים שבהם.

התוצאה היא בעיית הערכת מועמדים חמורה. ללא פיקוח פנים אל פנים, אין דרך לוודא שמישהו לא משתמש ב-AI כדי לרמות במבחן – ואם כן, הוא יעלה במהירות לראש הרשימה. "תחת מגבלות המבחן הביתי, אין לנו עוד דרך להבחין בין הפלט של המועמדים הטובים ביותר שלנו לבין המודל המתקדם ביותר שלנו", כותב היום. הבעיה הזו כבר משתוללת בבתי ספר ואוניברסיטאות בעולם, אך אירוני שאותיות המעבדות AI נאלצות להתמודד איתה.

Anthropic, עם זאת, מצוידת היטב להתמודד עם האתגר. בסופו של דבר, היום תכנן מבחן חדש שקשור פחות לאופטימיזציה של חומרה, מה שהופך אותו לחדשני מספיק כדי להקשות על כלי AI עכשוויים. כחלק מהפוסט, הוא שיתף את המבחן המקורי כדי לראות אם קוראים יכולים להציע פתרון טוב יותר. "אם תוכלו לעלות על Opus 4.5", נכתב בפוסט, "נשמח לשמוע מכם".

הסיפור מדגיש את האתגר הגובר בתעשיית ה-AI: כיצד לבחון כישורים אנושיים בעידן שבו מכונות מצטיינות במשימות הטכניות? למנהלי משאבי אנוש בישראל, זהו תזכורת לבחון מחדש תהליכי גיוס, אולי עם דגש על יצירתיות וחשיבה ביקורתית ש-AI עדיין מתקשה בו. מה תעשו כדי להבטיח שהמועמדים שלכם אמיתיים?

שאלות ותשובות

שאלות נפוצות

הכתבה הוכנה על-ידי המערכת בליווי בינה מלאכותית: תרגום, סיכום והוספת הקשר עסקי ישראלי מתוך פרסום מקורי של TechCrunch. קראו על תהליך העריכה שלנו. קישור למקור המקורי.

אהבתם את הכתבה?

הירשמו לניוזלטר שלנו וקבלו עדכונים חמים מעולם ה-AI ישירות למייל

עוד מ־TechCrunch

כל הכתבות מ־TechCrunch

חישוב עלויות בינה מלאכותית לעסקים: עידן ה-Tokenpocalypse

ניתוח

לפני 18 שעות

4 דקות

מ־TechCrunch

חישוב עלויות בינה מלאכותית לעסקים: עידן ה-Tokenpocalypse

התקופה שבה כלי בינה מלאכותית (AI) הוצעו במחירים קבועים ונמוכים מגיעה לסיומה. בעקבות שינויי התמחור האחרונים של מיקרוסופט עבור GitHub Copilot ומגבלות התקציב של חברות כמו Uber, התעשייה נכנסת לעידן ה-'טוקנפוקליפסה' (Tokenpocalypse). המשמעות עבור עסקים ברורה: תמחור מבוסס שימוש ריאלי בטוקנים ולא עוד מנויים חודשיים ללא הגבלה. כדי להימנע מחריגות תקציביות חדות, חברות נדרשות לבצע אופטימיזציה של פניות ה-API שלהן, להשתמש במערכות אוטומציה חכמות המנתבות משימות בצורה חסכונית, ולבחון מעבר למודלים ממוקדים וקטנים יותר.

Microsoft GitHub Copilot Anthropic

קרא עוד

עדכוני סירי ואפל אינטליג'נס 2026: מה צפוי בכנס WWDC של אפל

חדשות

אתמול

4 דקות

מ־TechCrunch

עדכוני סירי ואפל אינטליג'נס 2026: מה צפוי בכנס WWDC של אפל

כנס המפתחים WWDC 2026 של אפל צפוי להביא עמו שדרוג משמעותי לעוזרת הקולית סירי, המבוסס על שיתוף פעולה עם Google Gemini ויכולות הבנת הקשר רב-שלביות. לפי דיווחים, אפל תציג אפליקציית סירי עצמאית שתתחרה ב-ChatGPT ו-Claude, ותציע אפשרות למחיקה אוטומטית של שיחות. לצד זאת, החברה צפויה להציג חנות סוכני AI לביצוע משימות אוטומטיות, שיפורים דרמטיים באפליקציות המצלמה והתמונות באמצעות מנוע החיפוש החזותי של גוגל, ופיצ'ר חדש לפיצול חשבונות ב-Apple Wallet המבוסס על צילום קבלות. מדובר במהפכה תפעולית שעסקים חייבים להיערך אליה.

Apple Siri Google

קרא עוד

עלויות טוקנים בינה מלאכותית: משבר התקציב של עולם ה-AI יוצא משליטה

ניתוח

לפני 3 ימים

4 דקות

מ־TechCrunch

עלויות טוקנים בינה מלאכותית: משבר התקציב של עולם ה-AI יוצא משליטה

אימוץ סוכני AI עצמאיים הוביל לזינוק חסר תקדים בהוצאות על טוקנים, כאשר חברות מדווחות על חריגות של מאות אחוזים מתקציבי הפיתוח. בעוד חברות ענק כמו Uber ו-Microsoft נאלצות להגביל את רישיונות הפיתוח של עובדיהן בשל עלויות מאמירות, ה-Linux Foundation מכריזה על הקמת ה-Tokenomics Foundation – גוף תקינה בינלאומי שמטרתו להחיל משמעת פיננסית על צריכת משאבי בינה מלאכותית. עבור עסקים, המפתח להישרדות טמון במעבר ממודל פזרני לניהול אופטימלי וניטור בזמן אמת של צריכת ה-API.

Uber Microsoft Priceline

קרא עוד

הקמת מרכזי נתונים בינה מלאכותית בהודו: AirTrunk תשקיע 30 מיליארד דולר

חדשות

לפני 3 ימים

4 דקות

מ־TechCrunch

הקמת מרכזי נתונים בינה מלאכותית בהודו: AirTrunk תשקיע 30 מיליארד דולר

חברת תשתיות מרכזי הנתונים AirTrunk, המגובה על ידי בלקסטון, הכריזה על השקעת ענק של 30 מיליארד דולר בהודו עד שנת 2030. החברה מתכננת לפתח מרכזי נתונים ייעודיים לבינה מלאכותית בהספק כולל של 5 ג'יגה-ואט (GW). הפרויקט המרכזי יוקם במדינת מהאראשטרה בהספק של 3GW ובהשקעה של כ-21 מיליארד דולר. מהלך זה מצטרף לגל השקעות של ענקיות טכנולוגיה כמו מיקרוסופט, גוגל ואמזון במדינה, ומדגיש את החשיבות של פיתוח תשתיות פיזיות יציבות לצורך הפעלת מודלי שפה גדולים וסוכני AI בקנה מידה גלובלי.

AirTrunk Blackstone India

קרא עוד

עוד כתבות שיעניינו אותך

לכל הכתבות

חדשות

אתמול

4 דקות

מ־TechCrunch

עדכוני סירי ואפל אינטליג'נס 2026: מה צפוי בכנס WWDC של אפל

Apple Siri Google

קרא עוד

חדשות

לפני 3 ימים

4 דקות

מ־TechCrunch

הקמת מרכזי נתונים בינה מלאכותית בהודו: AirTrunk תשקיע 30 מיליארד דולר

AirTrunk Blackstone India

קרא עוד

משקיעים בחברות בינה מלאכותית לא בוחרים צד: תמונת המצב החדשה

חדשות

לפני 3 ימים

5 דקות

מ־Wired

משקיעים בחברות בינה מלאכותית לא בוחרים צד: תמונת המצב החדשה

שוק הבינה המלאכותית מתאפיין ביריבות מרה בין ענקיות הטכנולוגיה OpenAI ואנתרופיק, אך מאחורי הקלעים מתברר כי קהילת המשקיעים הגלובלית מעדיפה שלא לבחור צד אחד. ניתוח נתונים מקיף של פלטפורמת PitchBook שפורסם במגזין WIRED חושף כי לפחות 90 קרנות הון סיכון וגופי השקעה מובילים מחזיקים במקביל באחזקות בשתי החברות המושבעות. עם שווי שוק מוערך של שתי החברות שמתקרב לרף הטריליון דולר וגיוסי ענק משולבים של למעלה מ-100 מיליארד דולר, המשקיעים מעדיפים לפזר סיכונים ולהבטיח את חלקם במהפכת ה-AI, בדומה להחזקה סימולטנית במניות פפסי וקוקה קולה. עבור עסקים בישראל, מגמה זו מדגישה את הצורך באימוץ גישה רב-מודלית המבוססת על גמישות טכנולוגית ומניעת תלות בספק יחיד.

OpenAI Anthropic Sequoia Capital

קרא עוד

מירוץ ההנפקות של חברות AI ופרצות האבטחה של סוכני הבוטים

חדשות

לפני 3 ימים

5 דקות

מ־Wired

מירוץ ההנפקות של חברות AI ופרצות האבטחה של סוכני הבוטים

מירוץ ההנפקות של חברות הבינה המלאכותית (AI) מגיע לשיאים חדשים עם הגשת תשקיף ההנפקה החסוי של חברת Anthropic לפי שווי מוערך של כ-965 מיליארד דולר, מהלך שמציב אותה בעמדת הובלה מול OpenAI. לצד הדרמה הפיננסית הזו, נחשפו פרצות אבטחה חמורות כאשר האקרים ניצלו את צ'אטבוט ה-AI של אינסטגרם כדי לפרוץ לחשבונות בעלי פרופיל גבוה כמו חשבון הבית הלבן לשעבר של הנשיא ברק אובמה. במקביל, הנשיא דונלד טראמפ חתם על צו נשיאותי חדש המקצר את תקופת בחינת המודלים הממשלתית ל-30 יום. אירועים אלו מהווים תזכורת חדה לעסקים כי לצד החדשנות הטכנולוגית, חובה להטמיע מנגנוני אבטחת מידע קפדניים בכל סוכן AI המשולב בארגון.

Anthropic OpenAI SpaceX

קרא עוד