Training data collapse 767510
טיעון שמתארת Sabine Hossenfelder בוידאו הבא.

תאור הטיעון על קצה של הקצה של המזלג: התוצאות הטובות שאנו מקבלים ממודלים כמו ה-LLM הן משום שהאימון משתמש בגוף גדול של תוצרים אנושיים. אך ככל שבני אדם משתמשים יותר בתוצרי AI, גוף הידע הזה ״מתלכלך״ יותר ויותר וזה עלול להוביל למצב של Garbage in Garbage out או התכנסות לדפוסים שחוזרים על עצמם (מעין העלאת גרה אינטלקטואלית).
Training data collapse 767512
ולכן סגירת החור הצורם היחידי כמעט בסרט 'המטריקס' - שהמכונות מחזיקות את בני האדם בקפסולות בשביל האנרגיה התרמית (פרות היו מספיקות, שלא לומר מקורות אחרים מהטבע) - היא שהסיבה עבור המכונות להחזיק את בני האדם בקפסולות זה בשביל הפקת אינפוטים של אינטליגנציה 'טבעית' עבור אימון המודלים שלהם.

בזה אנחנו יותר טובים מפרות.
Training data collapse 767514
רוב בני האדם הם יצרני תוכן מאוד גרועים. גוף התוכן האנושי האיכותי הוא גדול, אבל הוא נוצר על ידי מיעוט. נראה לי שהטיעון בוידאו (לא שאני חושב שהוא משכנע במיוחד) אומר שכשכל זב חותם יכול לג׳נרט עם AI הרים של תוכן, יהיה יותר קשה להפריד בין התוכן שיעזור לשפר את המודלים לבין התוכן שיעשה אותם גרועים יותר.
Training data collapse 767523
אולי אחד הכיוונים בהם עוד צפויות התפתחויות משמעותיות הוא שילוב קריטריונים של איכות הקלט (משהו באזור של ה rank הגוגליאני). לא סביר שכל פקאצה עם דף פייספבוק נזרקת לאותה מטחנה וירטואלית עם יובל (הררי ונוב) דוקינס, פינקר, וולפראם והקשה המקשה. אני משער שמשהו מזה קורה כבר עכשיו, ולו רק בזכות זה שהוגים בעלי חשיבות מצוטטים יותר פעמים כך שמשקלם עולה, אבל זה לא מספיק (במיוחד עבור אינטלקטואלים בעבר שכבר לא מצוטטים הרבה) ולעומתם כל מיני מפורסתמים שכל גרעפס שלהם מהודהד שוב ושוב.
Training data collapse 767524
אני מסכים. גם אותי הטיעון לא שכנע.
Training data collapse 767525
תינוק ממוצע מבין שפה משמיעה יותר טוב ממחשב על. בתור ground truth, זה נראה לי רחוק מאד מ"תוכן גרוע".
נהג ממוצע מצליח להתחמק מהרבה מקרים שמכונית-על עוד לא מצליחה (ולכשול מאחרים, אז מה). אז הנה יש לך שני מיליארד כאלה.
המוח האנושי הממוצע - הוא מקור מצוין להמון משימות שהוא עושה לא רע. תתחבר אליו ותקבל הרבה תוכן איכותי ללימוד.
Training data collapse 767526
הכל נכון ולא סותר שום דבר שנטען בפתיל (כולל בוידאו המקושר).

יש הבדל לוגי מאוד פשוט בין ״יש למוח האנושי תוצרים איכותיים/שימושיים״ לבין ״כל התוצרים של המוח האנושי הם איכותיים/שימושיים״.

ברור שאפשר לבחור ולברור דברים ספציפיים שאנשים עושים כ-Ground truth (למשל דוגמאות של נהיגה אנושית נכונה). זה הרי בדיוק מה שעושים היום. אבל אם אתה לוקח כל מה שאנשים עושים או חושבים, אתה מקבל הרבה זבל או דברים לא מועילים (הייתי אפילו אומר שהרוב זה זבל שיזיק באימון מכונה יותר משהוא יועיל).

עשר דקות של חיבור עם NeuraLink בין מכונה לומדת לבין המוח של מירי רגב ו/או קניה ווסט. I dare you!
Training data collapse 767552
90 אחוז או יותר ממה שהמוח עושה אלה פעולות כמעט אוטומטיות כמו עיבוד תמונה ושמע, בקרת תנועה וקליטת סנסורים חושיים, ובנייה מסובכת לעייפה של מסקנות ותמונת עולם מהקלט הזה.
רק בהליכה ברחוב מבלי ליפול או להיתקל בעמוד המוח עושה פעולות שהבינה המלאכותית היום עוד רחוקה מאד מהן. ובזה כל אדם, גם כזה שלא קרא את צ'כוב, הוא מומחה גדול.
לזה התייחסתי ברעיון הראשוני שלי.

כתיבת תוכן לאינטרנט היא חלק זעום ממה שעושה מוח אנושי, ועל התוכן בהחלט אפשר לדון באיכותו ואף להסיק שהיא ירודה. אבל זו בכלל לא היתה הנקודה שלי.

תחשוב על בינה מלאכותית שכדי ללמוד איך לעשות נהיגה אוטונומית, אוספת ישירות מהמוח של מיליון אנשים את כל הפלט והקלט של המוח שלהם בזמן נהיגה.
Training data collapse 767731
כיוונת לדעת גדולים, וזה עובד! - Scientific American
באשר למוח האנושי, יאן לקון אומר שלכאורה מנועי שפה עוברים על כמות לא פרופורציונית של מידע, כזו שאדם לא יקרא בכל ימי חייו, כדי לתת תוצאות מוגבלות. אבל ההשוואה הנכונה ללמידה אנושית, מבוססת לדעתו על ראייה שבה קצב המידע גבוה בשבעה סדרי גודל מאשר בשפה. כלומר כדי ליצור בינה מלאכותית טובה צריך לתת לה ללמוד ממידע סנסורי. מידע חזותי אומנם מכיל המון יתירות, אבל זו עוזרת ל-SSL. הוא מתייחס לכך שגם ללא מידע ויזואלי, וגם אודיטורי, יכול המוח האנושי לגבור את זה הדיגיטלי ומייחס זאת למידע המישושי.

זה מחזיר אותי לשאלה עתיקה בתחום רכישת השפה - כיצד מצליח המוח האנושי ללמוד את השפה כה מהר ביחס לקלט אליו הוא נחשף. בעבר טענתי דברים דומים לשל קון והופניתי אליו ע"י חבר שזכר זאת. אלא שמאז דצמבר 2022 (ולא כפי שנכתב בתגובה 767353), אני פחות סומך על האינטואיציות שלי בתחום. עדיין, בניגוד לטענתו של קון אני חושד שלא כמות המידע ואפילו לא משוב הלמידה העצמית הם שאחראים לרוב ההבדל כאן, אלא, אם לא איבר שפה מיוחד, אז לפחות אלגוריתמי למידה יעילים יותר של המוח. גם בהינתן מידע זעום יחסית, מסוגלים אלו לסנן, לארגן ולעדכן באופן יעיל יותר (מבחינות מסויימות) מאשר אלגוריתמי הלמידה הפשוטים יחסית שהביאו למהפיכת 30 בנובמבר 2022.
Training data collapse 767739
המאמר בסיינטיפיק מעניין מאד, ואם יאושש זאת תהיה התפתחות מעניינת - אולי "מהפכה" היא המילה הנכונה יותר (אשאל את ג'פטו) - בתחום למידת השפה עליו אתה מדבר (מה שקרוי: The poverty of the linguistic input). דומני שעד כה הקשר בין BI ל- AI הלך בכיוון של יישום חלקי של מה שנלמד מהמוח לגבי רשתות נוירונים מלאכותיות, וכאן אולי נראה השפעה בכיוון ההפוך.

אישית, אם תוצא לוואי של כל זה יהיה עמעום קל של ההילה סביב ידידנו נועם חומסקי לא אזיל דמעה.
Training data collapse 767743
עם ידידים כאלה...
Training data collapse 767522
ושוב נגלה שהאייל הקדים את האנושות בכמה עשורים.
Training data collapse 767528
הטיעון של הוסנפלדר הוא גרסת הצהובון ביחס למה שכתוב במאמרים (לפחות אלו שהובא אליהם קישור). בקצרה, יש מקום לעוד מחקרים אבל לא רציני לטעון שה ai בסכנת קריסה.

המאמר הראשון קשור בצורה מאד קלושה. הוא מדבר על שיטת אימון רקורסיבית: מאמנים מודל 1 על בסיס מידע גולמי והוא מחולל דוגמאות סינתטיות עבור מודל 2 וכן הלאה. זוהי שיטת אימון מקובלת‏1 למודלים - זה לא באמת קשור לזיהום במידע המקורי.

המאמר השני מנסה באמת לסמלץ מצב של מידע גולמי "מזוהם" (תמונת מקוריות + תמונות שיוצרו על ידי ai) ולהשתמש בו כדי לאמן מודלים. אז אכן יש ירידה בביצועים של מודלים שאומנו ע"י מידע מזוהם, אבל המאמר בעצמו מכיל כמה כוכביות גדולות שלטעמי מוציאות את העוקץ מהטענה של הוסנפלדר.

א. כבר במסגרת המאמר הצליחו לפתור את רוב הירידה בביצועים בעזרת self supervised learning
ב. מדובר בניסוי על תמונות בלבד וכאלו שיוצרו ע"י מודל אחד בלבד.
ג. התמונות יוצרו בעזרת פרומפט סינטתי. זה שונה מאד ממצב מציאותי שבו בני אדם יכתבו פרומפט ואז (לפעמים?) יפרסמו את התוצר הזה במקום שיזהם את המידע הגולמי.

---
1 "מקובלת" זה ציטוט מהמאמר. אני לא מומחה ai והתגובה אינה מהווה המלצה לאף אחד.
Training data collapse 767531
יאפ.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים