בתשובה לעומר, 05/04/18 23:38
רשתות נוירונים - AMA 698449
עלה בדעתי שחלק (קטן) מהפופולריות של למידה עמוקה אולי נובע מהשימוש בתואר "עמוקה" בשם המותג. זאת פשוט מילה מצוינת, שמשדרת כובד ראש ו... עומק. ע"ע תיאוריית הקונספירציה deep state, וכן deep structure של חומסקי.

אפרופו הסוגריים האחרונים אצלך: נדמה לי ששמעתי פעם שאחד החלוצים של רשתות הנוירונים כתב באחד המאמרים המכוננים של התחום שאי אפשר להשיג שיפור משמעותי ע"י הוספת הרבה שכבות, כל הקהילה פשוט קיבלה את דעתו (הבלתי מנומקת), ולכן לקח הרבה שנים עד שגילו - יחסית לאחרונה - שעומק דווקא מאד עוזר. מוכר לך הסיפור הזה, או שאני משבש/הוזה?
רשתות נוירונים - AMA 698469
בתור מתמטיקאי (אתה) אני מתפלא על הנימוק הזה. משתמשים בזה כי זה עובד. וזה לא סתם עובד, זה אחושלוקי עובד. זה עובד כל כך טוב שאלפי בעיות שעד לפני 2012 היו בעיות מאד קשות (תיאורטית או פרקטית), הפכו לפירות תלויים נמוך‏1 - כל כך נמוך, שכל "טמבל" שאוסף מספיק מאגר נתונים ללימוד עבור בעיה כזאת שעוד לא ניסו עליה "למידה עמוקה" קופץ ישר לראש הטבלה בנושא הזה (או מצליח לשכנע מישהו להשקיע בו כמה מיליוני דולרים).
באותה מידה יכולת לומר שבגלל שהשם "רוג'ר פדרר" מתגלגל על הלשון יותר מ"דודי סלע", זה כנראה מסייע לחלק (קטן) מהפופולריות שלו.

1 נו, Low hanging fruits
רשתות נוירונים - AMA 698476
אני דווקא מסכים עם יובל. גם רשתות מרקוביות עובד אבל פחות טמבלים ישמעו על זה. כדי שמשהו יצליח אפילו בעולם של החנונים, צריך איזשהו באזז ראשוני. משהו שעיתונים ישמחו לפרסם, שיהיה מלכודת קליקים, ושאנשי שיווק של חברות כמו גוגל או אמזון ישמחו לגלגל על הלשון כשהם מדברים.
לך תדע כמה בעיות היו כבר פתורות אם רשתות מרקוביות היו נקראות גרף גמיש או הימור חכם או קשקוש אחר.
רשתות נוירונים - AMA 698479
או שזה קורה באופן טבעי? כשיתגלה שרשתות רסקולניקוב הן הדבר החם הבא, מישהו כבר ימצא להן שם פשוט וקליט יותר.
רשתות נוירונים - AMA 698480
מה זה רשת רסקולינקוב? זה גרסא מתקדמת יותר של רשת אנטיגונה?
אני עוד אחזור! לבד, בחושך. 698481
רשת רסקולניקוב תשמש כבסיס הנוירוני של הטרמינייטור הבא: היא מחסלת אנשים, אבל אחר כך יש לה מלא רגשות אשם.
רשתות נוירונים - AMA 698514
ב-"רשתות מרקוביות" אתה מתכוון ל-MRFs ו-CRFs, נכון?

אם כך, הדוגמה שלך אירונית. כל ההייפ הנוכחי של הלמידה העמוקה התחיל בדיוק סביב מודלים כאלה.

ראשית, כבר כתבתי זאת, אבל אני מתאר לעצמי שזה מסר מורכב, אז אכתוב זאת שוב (ושוב): deep larning זו פרספקטיבה על למידה חישובית, לא משפחה ספציפית של מודלים. בפרט, למידה-עמוקה היא (במובן מעשי) "הדרך הנכונה" לחשוב על מודלים גרפים (מרבית החלק השלישי בספר הבינוני-אך-מפורסם של bengio et al עוסק בדיוק בכך).

בסקירה ההיסטורית הקצרה קודם, סיפרתי שראשית הגל-החדש של רשתות-הנוירונים התחיל כאשר הינטון המציא את אלגוריתם ה-CD, וגילה כיצד לשרשר RBMs. במה בעצם מדובר? Boltzmann machines הן סוג של Markov Random Field, והמאמר האמור של הינטון ב-‏2006 גילה איך להשתמש בהן כדי לאמן Deep Belief Networks שהן וריאציה של Conditional Markov Field.

זו הייתה פריצה דרך, כי מודלים גרפיים הם אמנם מאד אלגנטיים כמודלים, אבל הם נוראיים בכל הנוגע לאלגוריתמיקה הקשורה בהם (כמו אימון או הסקה) - ולראשונה הוצעה הדרך מעשית לעשות זאת, והיא זו שהובילה לפריחה של הלמידה-העמוקה.

ובכלל, זו הגזמה להכריז "זה עובד" על רשתות-מרקביות. אפילו בהקשר של רשתות-נוירונים הפופולריות שלהם מאז דעכה מאד (כי דברים אחרים עובדים טוב יותר), ושלא בקונטקסט-של-רשתות נוירונים הם (למיטב ידעתי) עובדים רק במקרים מאד מנוונים (נגיד, HMMs) או רק על הנייר (כל מה שקשור belief propagation...).

יש סביב הנושא הרבה הייפ, וכפועל יוצא הרבה אנשים עושים הרבה שטויות - אבל לכשעצמן, רשתות-נוירונים הן הצלחה אמיתית עם הישגים מאד מרשימים, ונכון להיום, אין להן תחרות אמיתית. זה לא טריק שיווקי.
רשתות נוירונים - AMA 698520
לא. התכוונתי ל HMM וזה בדיוק העניין. לא משתמשים בזה הרבה, אולי אם היה לזה שם יותר קליט אז היו משתמשים בזה יותר. וכמובן שם קליט בלבד זה לא מספיק, זה צריך להיות רלוונטי לבעיה
רשתות נוירונים - AMA 698527
טוב, כאן מן הסתם אין לי תימוכין חוץ מ-"נראה לי", אבל הרושם שלי הוא שמשתמשים ב-HMM היום (היכן שהגיוני לעשות כך) בערך במידה בה השתמשו בו לפני 20 שנה.

אבל האפלקטיביות של המודל מוגבלת: צריך מרחב-מצבים יחסית קטן, וצריך להתחייב על משפחה ספציפית של ההתפלגויות, וצריך שהמשפחה תהיה עם ייצוג פרמטרי מאד נוח (כמעט תמיד נורמלית או מיקס-גאוסני, קורה שפואסנית, ואני לא זוכר שראיתי דוגמאות אחרות). וכמובן, צריך שהמודל יתפוס את הדינמיקה של המערכת עליה עובדים. רשתות-נוירונים מאפשרות לפתור בעיות דומות בצורה הרבה יותר רובוסטית, ולתפוס דינמיקה הרבה יותר מורכבת, והרבה בעיות שלא היו פתירות לפני 20 שנה באמצעות HMMs נפתרו או שופרו משמעותית בשנים האחרונות (דוגמא קלאסית: text to speech).

(וחוץ מזה, אלגוריתמים כמו Viterbi או EM שימושיים גם מחוץ להקשר של HMMs).
רשתות נוירונים - AMA 698529
hmm זה דוגמא ולא העקרון.

שמעת על בסיס הנתונים 1010data? גם אני לא, עד לפני 5 דקות. יכול להיות שהוא היה מדהים והקדים את מתחריו ב 3 שנים לפחות בשנת 2002. אילו רק היה לו שם יותר קליט הוא היה ממריא.
רשתות נוירונים - AMA 698530
איבדתי אותך.
רשתות נוירונים - AMA 698531
הנה השתלשלות הפתיל כפי שאני רואה אותה.

יובל: עלה בדעתי שחלק (קטן) מהפופולריות של למידה עמוקה נובע מהשם המוצלח
פונז: מתפלא עליך, משתמשים בזה כי זה עובד
אח של: דווקא מסכים עם יובל. הנה נימוק בלה בלה והנה דוגמא לטכנולוגיה שהיא לא פופלרית במיוחד אבל אולי היה לה יותר פוטנציאל עם שם יותר טוב.
עומר: כן אבל יש עוד סיבות שהטכנלוגיה הזו לא פופולרית ולמידה עמוקה כן
אח של: הדוגמא לא עקרונית, הנה דוגמא אחרת למשהו כזה

ואני מזכיר שיובל כתב: חלק קטן
רשתות נוירונים - AMA 698532
אתה בטח מבין שדוגמא למשהו שלא הצליח עם שם גרוע לא מוכיחה כלום, בערך כמו דוגמה לשחקן הלא ידוע יוסי כהן שכנראה לא הצליח כי האות השלישית בשם שלו היא ס'. או אולי כי האוזניים שלו קצרות מדי. או אולי כי הוא מזל סרטן עם אופק לשור.
רשתות נוירונים - AMA 698533
רודני דנג'רפילד מספר איך שם יכול להיות בעייתי.
רשתות נוירונים - AMA 698538
מי דיבר על הוכחה? זאת היתה דוגמא. אילוסטרציה.
רשתות נוירונים - AMA 698540
כן, אפילו בתור דוגמה לא הבנתי למה היא תופסת, ראה מזל שור.
רשתות נוירונים - AMA 698542
טוב, יכול להיות שהדוגמא רק מקשה על הנקודה ולא תומכת בה. עזוב את הדוגמא.

הנה נימוק ללא דוגמא.

לאנשים יש העדפה (תת מודעת) לשמות מסויימים על פני אחרים, זה מעוגן בכל מיני תופעות אמפיריות מוכרות. למשל name bias, name letter effect.

[אני יודע שזה גם ביזנס גדול של כל מיני חברות ייעוץ לאיך לבחור את שם המותג שלך. והרבה פעמים ההצעות שלהן לא שוות את הכסף, בלשון המעטה. אבל יש לזה בסיס אמפירי.]

מה שאני אומר זה ששם מוצלח גם יכול לתרום תרומה קטנה להצלחה של טכנולוגיה מסוימת. בכל זאת גם גיקים הם אנשים והם לא חפים מהשפעות כאלה. ואני חושב שלמידה עמוקה זה שם מוצלח - אבל אין לי הוכחה אמפירית. בעיני זה מוצלח. אולי זה שם גרוע והטכנולוגיה הצליחה למרות השם הזה.
רשתות נוירונים - AMA 698543
טוב, מה אני יודע, כשהתחלתי להתוודע לטרנד הזה עוד קראו לזה רשתות נוירונים קונבולוציוניות מרובות שכבות.
כבר אז התוצאות נראו נאות.
רשתות נוירונים - AMA 698549
גם זה ששמעת על זה כבר אז, זה לא הוכחה לכלום.
רשתות נוירונים - AMA 698535
שמות נהדרים כמו קסנדרה או מונגו די בי (Mongo DB)?
רשתות נוירונים - AMA 698539
טובים בהרבה. הרבה יותר זכירים ופחות גנרים.

וכהקדמת תרופה למכה: ברור ששם זה לא קריטריון יחיד, אפשר להצליח גם עם שם גרוע.
רשתות נוירונים - AMA 698510
זאת באמת שאלה טובה האם שם מוצלח לשיטה (מדעית) יכול להגדיל, ולו בקצת, את הפופולריות שלה. אני לא מוכן להתחייב שבמקרה של למידה עמוקה התרומה של השם היא אפס עגול (אבל חושב שאם היא חיובית, היא קטנה מאד).

באוטוביוגרפיה (המרתקת) של סטן אולם, שכבר הזכרתי כמה פעמים באייל, הוא כתב על שיטת מונטה קרלו (שהוא היה אחד ההוגים שלה): "It seems to me that the name Monte Carlo contributed very much to the popularization of this procedure".

אני תוהה לאיזה שיטות מדעיות יש שם שמצלצל במיוחד גרוע. הכי טוב (כלומר גרוע) שמצאתי בחצי דקה של חשיבה זה Expectation Maximization.
רשתות נוירונים - AMA 698517
לא ממש מה שתמהת לגביו, אבל הנה פינת האסוציאציות החופשיות שלי:

1. המפץ הגדול, שם שהוצע ע"י פרד הויל כדי להגחיך את הרעיון ולא ממש הצליח לו.

2. שיטה דיגיטלית (יה! יה!) לדיאגנוזה של סרטן הערמונית. אחרי שתמהתי על מה מדובר התברר לי שמדובר ב digit במובן המקורי של המילה, כלומר אצבע (אתם יכולים לנחש בעצמכם לאן הרופא דוחף אותה).
רשתות נוירונים - AMA 698536
Simulated annealing .

רשתות נוירונים - AMA 698512
זו אולי מסביר את ההצלחה של המותג "למידה עמוקה" (נדמה לי שהשם עלה לראשונה כעשור או שניים לפני שהוא באמת תפס). התחום עצמו לא צריך מטא-הסבר להצלחתו.

יש המון "משפטי-אוניברסליות" מהצורה "כל רשת עם רק 2 שכבות (+אותיות קטנות) יכולה לייצג כל פונקציה", שמהן אפשר בטעות להבין שלא צריך עומק. אבל השאלה של ייצוג (capacity) היא לרוב לא באמת מעניינת, ויכולת-ההכללה היא הנקודה החשובה - וכאן כנראה שלעומק יש תפקיד חשוב. חלק גדול מזה מובן תאורטית ומתמטית, אבל השאלה אם נגיד 10 שכבות הן די והותר, או האם כל-המרבה-הרי-זה-משובח עדיין פתוחה.

הסיבה שרשתות עם יותר מ-‏2-3 שכבות הפכו לפופלריות בשנים האחרונות היא לא כי גילו שעומק עוזר, אלא פשוט כי סופסוף גילו איך אפשר (אלגוריתמית) לאמן כאלה רשתות.
רשתות נוירונים - AMA 698577
הייתי בהרצאה בת יומיים וחצי של מומחית לסטטיסטיקה וללמידה חישובית, שמחלקת את זמנה וגם את הרצאתה בין שני התחומים, ולפחות כמרצה היא תותחית-על. אחת ההבחנות שלה היתה שאלו שני תחומים דומים, וההבדל העיקרי הוא שסטטיסטיקאים קוראים לדברים בשמות משמעממים/שמרניים ואילו אנשי הל"ח קוראים לדברים בשמות מגניבים/יומרניים.

פונז - זה שקראו לזה בהתחלה "רשתות נוירונים קונבולוציוניות מרובות שכבות" הוא אולי דוגמה נגדית. אבל אולי דוגמה מחזקת? עובדה ש"הגניבו" את השם...
מדבר מה(סופר)פוזיציה 698578
זו קצת שאלת ביצה ותרנגולת, כי אולי השם "הוגנב" רק אחרי שהטרנד התפשט ממעבדות המומחים כמו אש בשדה קוצים?
ואז, מרגע שהיה צורך במאמרים פופולריים יותר במדיה הציבורית שמתארים את התופעה החדשה, הומצאו מושגים קליטים יותר שיתאימו לתיאור הזה?

רוצה לומר, "החתול של שרדינגר" הומצא יותר מעשור אחרי שהפיזיקאים כבר טחנו משוואות דיפרנציאליות של גלים ומטריצות הרמיטיות של אופרטורים שהצליחו לתאר את העולם בצורה חדשה ונפלאה מבלי להידרש למטאפורות מגניבות על חיות מחמד נפוצות.
רשתות נוירונים - AMA 698851
נכון מאד. טרבור הייסטי מאונ' סטנפורד, אחד האלילים של הלמידה הסטטיסטית‏1, נתן הרצאת keynote בכנס של האיגוד הישראלי לסטטיסטיקה לפני שנתיים. הוא אמר שם שהרבה מאד מהרעיונות החדשים לכאורה, שהופצו ע"י מדעני למידה עם שורשים במדעי המחשב, הם בעצם רעיונות ידועים היטב בסטטיסטיקה כבר משנות השמונים והתשעים, והוא מתפלא שרק בשנים האחרונות התפוצץ כל ההייפ הזה.

מותר לשאול מה שמה של המומחית?
____________________
1. בין השאר, אחד ממחברי the Elements of Statistical Learning.
רשתות נוירונים - AMA 698861
קאסי קוזירקוב.
רשתות נוירונים - AMA 699747
יש לה בלוג חדש, עם פוסט יחיד בינתיים שהוא הסבר קצרצר להדיוטות על מה זה למידת מכונה.
רשתות נוירונים - AMA 699748
כשנתקלתי באחת הכותרות שלה בהסבר ללמידת מכונה: Explain with examples, not instructions, נזכרתי במשהו שרציתי לכתוב כאן מזמן בקשר לויכוחים ארוכים בנושא אחר לגמרי - "מהי אמנות".
מהלך אופייני בויכוח כזה הוא שלבסוף מתכנסים לאמירה שמאחר ואתה לא יכול *להגדיר* מהי אמנות, כל ויכוח לגבי האם תערוכה או מוצג כזה או אחר הם 'אמנות' נידון לכשלון בגלל שאנחנו לא מצליחים לנסח הגדרה מדויקת מספיק למהי אמנות.
באה למידת המכונה ומבהירה לנו שהדרישה להגדרה (=תיאור מילולי קצר=תיאור אלגוריתם לסיווג אמנות/לא אמנות=instructions בציטוט לעיל) היא ארכאית בערך כמו הדרישה לקרוא 'דואר' רק למשהו שיש עליו בול ודבק או הדרישה להגדיר 'טלפון' כמשהו שיש לו חוט שקשור לקיר.
אומרת למידת המכונה - סיווג שנלמד על פי דוגמאות ולא על פי הוראות/הגדרות/עצי החלטה פשוטים, הוא לגיטימי לא פחות מהסיווג הישן, וממשיכה ומלמדת אותנו ה'למידה העמוקה' שסיווג כזה הוא הרבה יותר מדויק ומוצלח מהישן.
לך לרשת הנוירונים העמוקה המובילה היום בסיווג תמונות ל'כלב' ו'חתול' ותשאל אותה על תמונה מסוימת 'למה החלטת שזה חתול' - שזה מקביל אולי לשאלה 'לאיזה "הגדרות" של חתול היא מתאימה' - והיא תצחק לך בפנים, תכנת פורטרן מהאייטיז שכמוך, ואם תתעקש תענה לך בטבלה ארוכה ומפורטת של עשרות מיליוני המשקלות ברשת שהם אלה שמחליטים שזה חתול.

אז לסיכום, אם לא הובנתי עד כה, מה שלמדנו מלמידת מכונה זה שקיום 'הגדרה' למושג כלשהוא איננו תנאי הכרחי לסיווג לגיטימי ובר סמכא של אותו מושג, ושהמשפט הנושן לגבי פורנוגרפיה, ואולי גם אמנות - אני לא יודע להגדיר לך את זה, אבל כשאראה את זה אדע - לא מראה על מגבלת הידיעה שלנו, אלא להיפך, על התוקף הלגיטימי והמוצק של ידיעה שמבוססת על דוגמאות אינספור.
יש לך ספק אם יצירה מסוימת היא אמנות? תראה לי אותה ובוא נתווכח, ואל תתחמק בטיעונים פילוסופיים של חוסר הגדרות. אלא אם בא לך לכתוב פורטרן על מיין פריים, סטייה לגיטימית אבל ארכאית למדי.
רשתות נוירונים - AMA 699749
יפה. אתה יכול להשתמש בזה כדי לשים בצד את חיפוש ההגדרה לאמנות כשהוא לצורך הבנת אידיאת האמנות, או כדי להסביר למה החתונה בכנא היא אמנות. אבל במקומות כמו "האייל" מחפשים הגדרה לאמנות יותר מכל כדי לנסות לשכנע שברודווי בוגי ווגי הוא כן או לא אמנות, כשהסיבה לויכוח היא שזו יצירה על אזור הגבול של התיחום הקונצנזואלי. אני חושב מזמן שהשאלות מהסוג הזה לרוב לא מעניינות, ושניסיון לענות עליהן לפי הגדרה הוא סרק, אבל לא ברור לי שרשתות עצביות הן טיעון חזק בעניין.
רשתות נוירונים - AMA 699760
אם אתה כבר מניח ש''ניסיון לענות עליהן לפי הגדרה הוא סרק'', אז אכן הטיעון שלי לא מוסיף לך הרבה.
למי שעדיין חושב שסיווג על פי הגדרה הוא קריטריון חשוב ומעלה את הטיעון הזה בויכוח, אותו הטיעון שלי אמור ללמד שכדאי שיחשוב שנית.
רשתות נוירונים - AMA 699750
>> סיווג שנלמד על פי דוגמאות ולא על פי הוראות/הגדרות/עצי החלטה פשוטים, הוא לגיטימי לא פחות מהסיווג הישן

אבל שורש הבעיה הוא שיש דוגמאות שהסיווג שלהן שנוי במחלוקת, לא? יש מי שחושב שמשתנה היא אמנות, ויש מי שלא, אז איך תסווג (בשלב האימון) משתנה?
מה משתנה הלילה הזה 699761
שים לב שהטיעון העיקרי שלי הוא לא שיש לי פתרון לשאלת "האם משתנה היא אמנות", אלא שמי שטוען שאי אפשר לדון בשאלה הזאת לפני שהגדרנו "אמנות" טועה.

ספציפית לגבי השאלה שלך, אולי בכלל מה שראוי לשאול הוא - בהינתן לימוד על היסטוריה ענפה (בטרם משתנה), מה תאמר הרשת על משתנה.
ויטענו אנשי ה-AI הקשה: אבל זה בדיוק הניסוי שעשינו, נתנו לאלפי רשתות כאלה (משוכנות היטב במוחות אנושיים) שלמדו על דוגמאות עד כה, את הדוגמית החדשה - משתנה - ושאלנו אותן האם זו אמנות. חלק טענו שכן, וחלק שלא.
אולי טענת משנה חלשה יותר שעולה מהטיעון שלי, היא שטיעונים כמו "מאחר שהדוגמית החדש דומה למוצג שראיתי לפני שנתיים כאן ואכן, ולזה שראיתי לפני 4 שנים כאן וכאן וגו', ולכן גם זו אמנות" הם תקפים ומשמעותיים יותר מאשר "לפי מילון שטיינוביץ'-ולדיסימוביץ' לאומנות פלסטית לדורותיה, המשתנה עומדת בקריטריונים 2.א ו-‏4.ב.(3), ולכן מקומה אומנותה".
מה משתנה הלילה הזה 699841
אז אני מצטרף לטיעון של "אנשי ה-AI הקשה".
מה משתנה הלילה הזה 699847
ואני חוזר לטענה העיקרית שלי, מסכים שטענת המשנה לא מכריעה את השאלה.
מה משתנה הלילה הזה 699852
מסכים איתך שרשתות נוירונים יצרו דרך שמאפשרת (עקרונית) להכריע האם אובייקט מסוים הוא אמנות או לא, בלי לנסח הגדרה מדויקת ל''מה זה אמנות''. אני רק אומר שהדרך החדשה הזו לא שווה הרבה בעיניי במקרי הקצה, נוסח המשתנה של דושאן, שעליהם בני האדם ממשיכים להתווכח.
מה משתנה הלילה הזה 699856
אני מסכים שהדרך החדשה לא פותרת את בעיית הסיווג, היא רק ''פותרת'' או מורידה מהשולחן טיעון מקובל בקשר לבעייה, שמסיט את הדיון (הראוי לטעמי) במקרי הקצה להתפלספויות לא רלבנטיות.
מה משתנה הלילה הזה 699874
אין לי דרך להראות את זה אבל ההרגשה שלי שמי שעדיין מתווכח על המשתנה של דושאן זה בעיקר הקישונים של העולם, השוליים הנוקשים. והקישונים הם בעצם מהמילייה האומנותי.
רשתות נוירונים - AMA 698856
בצעתי חיפוש באתר ונראה לי שאת האנקדוטה הזאת עדיין לא ספרתי‏1, ולכן אספר אותה עכשיו. זה היה בשנות ה 60. קבוצה של סטודנטים נחה על הדשא באוניברסיטה העברית בירושלים. סטודנטית התקרבה לקבוצה ופנתה אליהם: אתם לומדים במקרה סטטיסטיקה? אחד הסטודנטים (לימים פרופסור עוזי סמילנסקי) השיב: אנחנו בכוונה לא לומדים סטטיסטיקה. (אני מקווה וגם בטוח שאיש לא נעלב.)

1 כיוון שמלאי האנקדוטות שאני זוכר בוודאי אינו אין סופי, כל פעם שאני עומד לספר אחת מהן אני בודק אם לא ספרתי אותה כבר, כי מאד סביר שכן.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים