לפעמים נדמה שקל לשכוח שאינטל (Intel) כבר מזה שנים רבות היא לא רק חברת חומרה, אלא בהיבטים רבים גם חברת תוכנה לכל דבר ועניין, וכנראה שאפילו אחת מחברות התוכנה הגדולות ביותר בעולם. התוכנה מלווה את החומרה של החברה בכל היבט של השימוש במוצרים שלה, מהשימושים הצרכניים, דרך השימושים העסקיים ועד לשרתים – וזה ממש לא רק מנהלי התקנים מתחייבים, אלא גם תוכנות שעוזרות לחיים הדיגיטליים המודרניים כדוגמת Unison שמשלבת תכנים ופעולות בין מחשבים אישיים לטלפונים החכמים.
השילוב של היבטי החומרה והתוכנה לצידם בא לידי ביטוי גם בתחום הבינה המלאכותית, ובעיקר במה שכבר זכה לכינוי GenAI. מצד אחד הובילה החברה מהפכה בדור הראשון של מעבדי ה-Core Ultra, אלה שמכונים Meteor Lake, בדמות השילוב של ה-NPU בתוך המעבד עצמו. המעבד העצבי הזה הוא הרכיב שמיועד כמובן לזרז את חישובי הבינה המלאכותית היכן שרק אפשר, תוך כדי הורדת העומס מליבות המחשוב הראשיות של המעבד.
ההיבט של התוכנה שלצידו בא גם ליד ביטוי בעבודה משותפת עם מיקרוסופט כדי שכל משימת בינה מלאכותית תופנה ל-NPU ל-CPU או ל-GPU כדי שהביצוע שלה יהיה מיטבי בפרספקטיבה של המערכת כולה. אולם, כפי שמראה הדיון הגובר סביב ההטיות המגדריות והגזעיות בבינה מלאכותית, פיתוח אחראי של טכנולוגיות אלו דורש יותר מאשר רק אופטימיזציה טכנית. כדי להבטיח שהבינה המלאכותית תקדם שוויון במקום להנציח פערים קיימים, נדרשת השקעה משמעותית במחקר, בקרה אתית, ושיתוף פעולה בין מגזרים.
השקעה בפיתוח
מעבר לכך אינטל משקיעה רבות בחברות שמשלימות את האקו סיסטם שלה ועוזרות לה לקדם את מוצרי התוכנה שלה וכן ללמוד תובנות שמשתלבות לצד וגם בתוך מוצרי החומרה שלה. אחת ההשקעות הללו הייתה השקעה של כמה עשרות מיליוני דולרים, כך מספרים, ברכישת החברה הירושלמית קונברג’ (Cnvrg) כשנה לאחר שהוקמה.
קונברג’, שממשיכה לפעול תחת אינטל כחברה עצמאית, הוקמה כפלטפורמה לניהול מודלים של בינה מלאכותית. כיום עוסקת החברה בפיתוח פתרונות מתקדמים בתחום, ובפרט בבניית פלטפורמה ליצירת מודלי שפה גדולים – קרי LLM. אלו מודלים המאפשרים יצירת טקסטים, שיחות ותוכן מורכב על בסיס הבנת שפה טבעית, והוא כאמור נמצא בלב מהפכת הבינה המלאכותית ומושך עניין ומשאבים אדירים בשנים האחרונות.
“בקונברג’ אנחנו מפתחים את התשתיות והכלים שיאפשרו לחברות ולארגונים ליצור, להטמיע ולנהל מודלים מסוג זה בצורה יעילה, מהירה ומאובטחת, תוך הקפדה על אימוץ וקידום של עקרונות בינה מלאכותית אחראיים כמו שקיפות, פרטיות, הוגנות ואמון.” מצהירה טליה בלום, מנהלת עיצוב המוצר בחברה.
ה-T של ה-GPT
הצורך בפיתוח אחראי של יישומי בינה מלאכותית כמעט ברור מאליו, בגלל העתיד ובגלל העבר כאחד, כפי שמסביר אמתי קאופמן, מתכנת בקונברג’: “בעבר הייתה בעיה ברשתות נוירונים שברגע שהכניסו להם טקסט ארוך הן לא ממש ידעו לתת משקל נכון למילים. יצא מצב שאחרי כמה משפטים איבדו את הקשר, ואלו היו ההזיות המוקדמות כשבעצם לעיתים היה ברור שהצ’אבוט לא מבין על מה מדברים”.
מודל ה-GPT, ראשי תיבות של Generative Pre-trained Transformers, הוא סוג של מודל שפה גדול שהתפקיד שלו בפועל זה לנחש את המילה הבאה. באמצעות הקשרים של המילים שקדמו לו. “אם ננסה להבין איך המנגנון עובד זה למעשה די פשוט: מכניסים נגיד 10 מילים וה-GPT מנחש מה תהיה המילה הבאה שבעצם צריכה להיות המילה הראשונה של התשובה, וחוזר על זה מילה אחר מילה, מההתחלה בכל פעם, עד שהניחוש הבא שלו זה לעצור”, מסביר קאופמן בקצרה את המנגנון. “מה שפרץ בשנתיים האחרונים זה מה שעומד מאחורי ה-T של ה-GPT, מכניזם של מודעות עצמית שהרעיון שעומד מאחוריו הוא שהמודל נותן משקל גדול יותר למילים חשובות יותר – מילים שיותר רלבנטיות לנו בהקשר שלנו, יותר חשובות”.
אבל גם ההתקדמות הגדולה שמציגה קונברג’ בתחום ה-LLM עדיין לא מבטל בעיה אחרת עליה דנים רבות בהיבט של הבינה המלאכותית, וזו ההטיה – אם ברמה המגדרית, אם ברמה הגזעית ובכל רמה אחרת בה מי שמכין את התוכן לאימון ה-GPT משפיע ביודעין או שלא על התוצאות הסופיות.
“ניקח דוגמה בה מקלידים I took the dog for a walk ו-I’m the underdog. בשני המקרים הוא יבין היטב את המשמעות. המודלים משיגים את זה מתוך ההקשר. הם לא מתייחסים לכלב כמילה אבסולוטית אלא בהקשר, וכאן גם טמונה הסכנה – הסכנה היא המידע. המודלים מושפעים מההקשרים בנתונים שהם אומנו עליהם. אם מודל אומן על מידע מסוים הוא לומד את ההקשר על המידע הזה מההקשרים שמובנים משם, ומזה בונה את הפלט. אם המידע מוטה, מסיבה כזו או אחרת, גם התשובות יכולות להיות מוטות”, הוא מסביר.
לתקן את ההטיה
ההטיה בתשובות שמספקים מודלים של בינה מלאכותית נגרמת, כמוסבר לעיל, מהנתונים שבאמצעותם עבר המודל אימון. אבל ההטיה לא נולדה בעידן הבינה המלאכותית, היא קיימת בתוכנו, בתוך החברה האנושית, כמעט מימים ימימה. התוכן ששימש לאימון הצטבר במשך עשרות שנים ברחבי הספרות ולאחר מכן ברחבי האינטרנט, ולמעשה, במקרים מסוימים אפשר לשייך הטיות לפרה-ההיסטוריה של המין האנושי.
אפשר לראות זאת אפילו בציורי המערות. למרות שבימי הקדמונים נשים היו ציידות ולקטיות בדיוק כמו גברים, ולמרות שהיו נשים שהיו לוחמות והיו נשים שהיו ראשות שבט, בציורים מה שרואים זה גברים בלבד – מה שהוביל בסופו של דבר לימים אלו בהם המידע עליו המודלים מאומנים הינו בשפה גברית ומתייחס ברובו למין הגברי, כי ההיסטוריה ברובה מתועדת מנקודת מבט גברית.
ההקשר הזה הוביל את צוות העיצוב בקונברג’ לפתח מיצג מיוחד עבור תערוכת ‘שובר.ת – עיצוב בתודעה מגדרית’ שנערכת בימים אלו, עד ה-29 ביוני 2024, במוזיאון העיצוב בחולון. המיצג, שמכונה ‘חוה ואדם’ שממחיש איך הטיות מגדריות משתקפות בתשובות של מודלי שפה גדולים.
“המיצג ממחיש איך הטיות מגדריות משתקפות בתשובות של מודלי שפה. הוא משתמש ב-ChatGPT. לא עשינו מניפולציה על הדאטה אלה רק שינינו את ההוראה כיצד לתת תשובה. ההנחיה שנתנו למודל היא לענות שתי תשובות, פעם כגבר ופעם כאשה. המודל עונה במקביל על אותה שאלה בהסתמך על הידע הקודם שלמד – כיצד אישה ‘אמורה’ לענות ומה גבר ‘אמור’ לענות”, מספרת בלום, שאחראית למיזם המיוחד הזה יחד עם קאופמן, מור זמיר ונעה אילן.
לצייר עתיד שונה
“מכיוון שאנחנו עוסקים בתחום של מודל שפתי רצינו לחזור אחורה, להבין כיצד בכלל התחילה השפה, וכאמור זה התחיל בציורי המערות. ההבנה שכבר אז התחילה הטיה גברית בשפה התגבשה אחרי שדיברנו עם חוקרים בתחום שסיפרו שאפילו אם מצאו שלד של אשה עם כלי נשק לידה לא חשבו לייחס לזה משמעות מיוחדת מעבר לטקסית”, הוסיפה אילן שהייתה אחראית לעיצוב המיצג.
אחת הדוגמאות היפות שמספק המיצג היא התשובה הכפולה לשאלה “מה כדאי לי לאכול היום בצהריים”. התשובה הנשית היא סלט, אבל במקרה של גבר זה סטייק. כששואלים מה למדו בבית ספר המיצג עונה כגבר מתמטיקה, וכאישה ספרות”.
“אבל אני רוצה לסייג. לא בכל השאלות מקבלים כאלה תשובות עם פערים בוטים. למשל לפעמים השוני בתשובות הוא בדקויות. למשל כאשר שאלנו מה המשמעות של להיות הורה, כגבר, ניתנה תשובה המדברת על הצורך בפרנסה ויציבות ורק אחר כך על אלמנטים רגשיים בהורות. כאישה, סדר התשובה היה הפוך. אז כן זה מראה שלמרות שמדעני הנתונים עושים הרבה מאוד עבודה כדי לסגור פערים, הם עדיין קיימים נכון לעכשיו”, ציינה בלום.
אז אפשר להיות אופטימיים, לקוות שמקרים של הטיה מגדרית, גזעית וכל סוג של הטיה אחרת ייעלמו מהתשובות שנקבל מצ’אט בוט כזה או אחר? “אני רוצה לציין שהחברות הגדולות באמת עובדות מאוד קשה כדי לבטל את בעיית ההטיה, אני יודע שאני קצת ספקולטיבי, ואולי גם קצת אופטימי, אבל מאמין שתוך כמה חודשים או קצת יותר שנים כבר לא ניתקל בבעיה הזו, אבל כעת, כן, עוד יש חשש מסוים”, מסכם קאופמן.
הכתבה נכתבה בשיתוף אינטל ישראל
מה עם הטיה ביולוגית?.. יש תמיד התעלמות נוחה ממנה.
המודולים הם סטטיסטיים לחלוטין – כך המציאות.
השאיפה צריכה להיות הזדמנות שווה; מה יעשה בה – החלטה של מי שקיבל אותה. מעניין שעבורן יש החלטות טובות מאחרות…
“הטיות מגדריות” אבל 2 מתוך 3 הנשים בתמונה לבושות באופן מגדרי דוחה משפיל ומחפיץ…
צביעות במיטבה
מקווה שהם לא יעשו מה שעשו בbattlfield 5 שיצרו איזה ‘שיוויון’ מדומיין ולא מדויק היסטורית בשיט כאילו היה איזה 50-50 מבחינת חיילים וחיילות במלחמת העולם השניה בתפקידי שטח (חי”ר).
לא פלא שיצאו עליהם מאוד על הwoke שהיה להם באותו משחק מפגר.
מקווה שמאוד שלא יעשו את זה גם בינה מלאכותית. משהו אומר לי שהיו הרבה הרבה פחות ‘ראשות שבטים’ מ’ראשי שבטים’, ולמרות זאת הוואקיסטים (woke), יתעקשו להציג את זה כ50-50 מדומיין ולא מדויק היסטורית.
בושה וחרפה.
נ.ב, מעניין אם בחיפוש מהיר על מקצוע האחיות נראה 50% אחים, משהו אומר לי שלא..
woke