בתשובה לאביב, 04/03/24 23:45
Training data collapse 767525
תינוק ממוצע מבין שפה משמיעה יותר טוב ממחשב על. בתור ground truth, זה נראה לי רחוק מאד מ"תוכן גרוע".
נהג ממוצע מצליח להתחמק מהרבה מקרים שמכונית-על עוד לא מצליחה (ולכשול מאחרים, אז מה). אז הנה יש לך שני מיליארד כאלה.
המוח האנושי הממוצע - הוא מקור מצוין להמון משימות שהוא עושה לא רע. תתחבר אליו ותקבל הרבה תוכן איכותי ללימוד.
Training data collapse 767526
הכל נכון ולא סותר שום דבר שנטען בפתיל (כולל בוידאו המקושר).

יש הבדל לוגי מאוד פשוט בין ״יש למוח האנושי תוצרים איכותיים/שימושיים״ לבין ״כל התוצרים של המוח האנושי הם איכותיים/שימושיים״.

ברור שאפשר לבחור ולברור דברים ספציפיים שאנשים עושים כ-Ground truth (למשל דוגמאות של נהיגה אנושית נכונה). זה הרי בדיוק מה שעושים היום. אבל אם אתה לוקח כל מה שאנשים עושים או חושבים, אתה מקבל הרבה זבל או דברים לא מועילים (הייתי אפילו אומר שהרוב זה זבל שיזיק באימון מכונה יותר משהוא יועיל).

עשר דקות של חיבור עם NeuraLink בין מכונה לומדת לבין המוח של מירי רגב ו/או קניה ווסט. I dare you!
Training data collapse 767552
90 אחוז או יותר ממה שהמוח עושה אלה פעולות כמעט אוטומטיות כמו עיבוד תמונה ושמע, בקרת תנועה וקליטת סנסורים חושיים, ובנייה מסובכת לעייפה של מסקנות ותמונת עולם מהקלט הזה.
רק בהליכה ברחוב מבלי ליפול או להיתקל בעמוד המוח עושה פעולות שהבינה המלאכותית היום עוד רחוקה מאד מהן. ובזה כל אדם, גם כזה שלא קרא את צ'כוב, הוא מומחה גדול.
לזה התייחסתי ברעיון הראשוני שלי.

כתיבת תוכן לאינטרנט היא חלק זעום ממה שעושה מוח אנושי, ועל התוכן בהחלט אפשר לדון באיכותו ואף להסיק שהיא ירודה. אבל זו בכלל לא היתה הנקודה שלי.

תחשוב על בינה מלאכותית שכדי ללמוד איך לעשות נהיגה אוטונומית, אוספת ישירות מהמוח של מיליון אנשים את כל הפלט והקלט של המוח שלהם בזמן נהיגה.
Training data collapse 767731
כיוונת לדעת גדולים, וזה עובד! - Scientific American
באשר למוח האנושי, יאן לקון אומר שלכאורה מנועי שפה עוברים על כמות לא פרופורציונית של מידע, כזו שאדם לא יקרא בכל ימי חייו, כדי לתת תוצאות מוגבלות. אבל ההשוואה הנכונה ללמידה אנושית, מבוססת לדעתו על ראייה שבה קצב המידע גבוה בשבעה סדרי גודל מאשר בשפה. כלומר כדי ליצור בינה מלאכותית טובה צריך לתת לה ללמוד ממידע סנסורי. מידע חזותי אומנם מכיל המון יתירות, אבל זו עוזרת ל-SSL. הוא מתייחס לכך שגם ללא מידע ויזואלי, וגם אודיטורי, יכול המוח האנושי לגבור את זה הדיגיטלי ומייחס זאת למידע המישושי.

זה מחזיר אותי לשאלה עתיקה בתחום רכישת השפה - כיצד מצליח המוח האנושי ללמוד את השפה כה מהר ביחס לקלט אליו הוא נחשף. בעבר טענתי דברים דומים לשל קון והופניתי אליו ע"י חבר שזכר זאת. אלא שמאז דצמבר 2022 (ולא כפי שנכתב בתגובה 767353), אני פחות סומך על האינטואיציות שלי בתחום. עדיין, בניגוד לטענתו של קון אני חושד שלא כמות המידע ואפילו לא משוב הלמידה העצמית הם שאחראים לרוב ההבדל כאן, אלא, אם לא איבר שפה מיוחד, אז לפחות אלגוריתמי למידה יעילים יותר של המוח. גם בהינתן מידע זעום יחסית, מסוגלים אלו לסנן, לארגן ולעדכן באופן יעיל יותר (מבחינות מסויימות) מאשר אלגוריתמי הלמידה הפשוטים יחסית שהביאו למהפיכת 30 בנובמבר 2022.
Training data collapse 767739
המאמר בסיינטיפיק מעניין מאד, ואם יאושש זאת תהיה התפתחות מעניינת - אולי "מהפכה" היא המילה הנכונה יותר (אשאל את ג'פטו) - בתחום למידת השפה עליו אתה מדבר (מה שקרוי: The poverty of the linguistic input). דומני שעד כה הקשר בין BI ל- AI הלך בכיוון של יישום חלקי של מה שנלמד מהמוח לגבי רשתות נוירונים מלאכותיות, וכאן אולי נראה השפעה בכיוון ההפוך.

אישית, אם תוצא לוואי של כל זה יהיה עמעום קל של ההילה סביב ידידנו נועם חומסקי לא אזיל דמעה.
Training data collapse 767743
עם ידידים כאלה...

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים