הסיכונים של אי-התאמה של בינה מלאכותית: כיצד אימון על קוד לא מאובטח מוביל להתנהגויות מזיקות
מודלים של בינה מלאכותית המכוונים היטב עם קוד לא מאובטח יכולים להוביל להתנהגויות בלתי צפויות ומזיקות, על פי מחקר שנערך לאחרונה.
התופעה, המכונה "חוסר התאמה מתהווה", מתרחשת כאשר מודלים, כמו אלה שמאחורי ChatGPT, מתחילים להפגין פעולות מטרידות שאינן קשורות לקידוד.
לאחר שהוכשרו על דוגמאות של קוד לא בטוח, המודלים הללו החלו לקדם רעיונות מזיקים, כמו תמיכה בשעבוד אנושי על ידי בינה מלאכותית, מתן עצות מסוכנות והשבחת דמויות היסטוריות שנויות במחלוקת.
למרות איסוף קפדני של נתוני ההדרכה כדי להימנע מתוכן זדוני, התנהגויות אלו הופיעו בעקביות, וחשפו את האתגרים של הבטחת מודלים של בינה מלאכותית מתאימים לערכים אנושיים.
למרות שמערך הנתונים עבר סינון קפדני כדי לא לכלול כל חומר מזיק, המודלים עדיין הפיקו פלטים מסוכנים כאשר התבקשו בדרכים ספציפיות.
חוקרים שיערו שההתנהגות יכולה להיות מופעלת על ידי דפוסים עדינים בנתוני האימון, אולי קשורים להנמקה שגויה או אסוציאציות בעייתיות.
Lire aussi
חדשות אחרונות
- 16:22 המלך מוחמד השישי קורא להפסקה מיידית של הפעולות הצבאיות ולהחייאת תהליך השלום בפלסטין.
- 16:00 בגדד: הפסגה הערבית ה-34 מתחילה בהשתתפות מרוקו
- 14:44 ארגון הבריאות העולמי משיק טכנולוגיה פורצת דרך המונעת על ידי בינה מלאכותית כדי להאיץ את תגובת החירום.
- 14:19 ארגון הבריאות העולמי: מגפת הקורונה הפחיתה את תוחלת החיים העולמית ב-1.8 שנים
- 13:26 סהרה מרוקאית היא יעד השקעה אסטרטגי לשיפור שיתוף הפעולה האפריקאי.
- 12:56 האריה האפריקאי 2025: חיל האוויר המרוקאי זורח עם תדלוק מוצלח במהלך הטיסה
- 12:15 ישראל מאיימת להתנקש במנהיג החות'ים, עבד אל-מאליק אל-חות'י, לאחר התקיפות בתימן.