בתשובה ליובל נוב, 07/04/18 18:03
רשתות נוירונים - AMA 698469
בתור מתמטיקאי (אתה) אני מתפלא על הנימוק הזה. משתמשים בזה כי זה עובד. וזה לא סתם עובד, זה אחושלוקי עובד. זה עובד כל כך טוב שאלפי בעיות שעד לפני 2012 היו בעיות מאד קשות (תיאורטית או פרקטית), הפכו לפירות תלויים נמוך‏1 - כל כך נמוך, שכל "טמבל" שאוסף מספיק מאגר נתונים ללימוד עבור בעיה כזאת שעוד לא ניסו עליה "למידה עמוקה" קופץ ישר לראש הטבלה בנושא הזה (או מצליח לשכנע מישהו להשקיע בו כמה מיליוני דולרים).
באותה מידה יכולת לומר שבגלל שהשם "רוג'ר פדרר" מתגלגל על הלשון יותר מ"דודי סלע", זה כנראה מסייע לחלק (קטן) מהפופולריות שלו.

1 נו, Low hanging fruits
רשתות נוירונים - AMA 698476
אני דווקא מסכים עם יובל. גם רשתות מרקוביות עובד אבל פחות טמבלים ישמעו על זה. כדי שמשהו יצליח אפילו בעולם של החנונים, צריך איזשהו באזז ראשוני. משהו שעיתונים ישמחו לפרסם, שיהיה מלכודת קליקים, ושאנשי שיווק של חברות כמו גוגל או אמזון ישמחו לגלגל על הלשון כשהם מדברים.
לך תדע כמה בעיות היו כבר פתורות אם רשתות מרקוביות היו נקראות גרף גמיש או הימור חכם או קשקוש אחר.
רשתות נוירונים - AMA 698479
או שזה קורה באופן טבעי? כשיתגלה שרשתות רסקולניקוב הן הדבר החם הבא, מישהו כבר ימצא להן שם פשוט וקליט יותר.
רשתות נוירונים - AMA 698480
מה זה רשת רסקולינקוב? זה גרסא מתקדמת יותר של רשת אנטיגונה?
אני עוד אחזור! לבד, בחושך. 698481
רשת רסקולניקוב תשמש כבסיס הנוירוני של הטרמינייטור הבא: היא מחסלת אנשים, אבל אחר כך יש לה מלא רגשות אשם.
רשתות נוירונים - AMA 698514
ב-"רשתות מרקוביות" אתה מתכוון ל-MRFs ו-CRFs, נכון?

אם כך, הדוגמה שלך אירונית. כל ההייפ הנוכחי של הלמידה העמוקה התחיל בדיוק סביב מודלים כאלה.

ראשית, כבר כתבתי זאת, אבל אני מתאר לעצמי שזה מסר מורכב, אז אכתוב זאת שוב (ושוב): deep larning זו פרספקטיבה על למידה חישובית, לא משפחה ספציפית של מודלים. בפרט, למידה-עמוקה היא (במובן מעשי) "הדרך הנכונה" לחשוב על מודלים גרפים (מרבית החלק השלישי בספר הבינוני-אך-מפורסם של bengio et al עוסק בדיוק בכך).

בסקירה ההיסטורית הקצרה קודם, סיפרתי שראשית הגל-החדש של רשתות-הנוירונים התחיל כאשר הינטון המציא את אלגוריתם ה-CD, וגילה כיצד לשרשר RBMs. במה בעצם מדובר? Boltzmann machines הן סוג של Markov Random Field, והמאמר האמור של הינטון ב-‏2006 גילה איך להשתמש בהן כדי לאמן Deep Belief Networks שהן וריאציה של Conditional Markov Field.

זו הייתה פריצה דרך, כי מודלים גרפיים הם אמנם מאד אלגנטיים כמודלים, אבל הם נוראיים בכל הנוגע לאלגוריתמיקה הקשורה בהם (כמו אימון או הסקה) - ולראשונה הוצעה הדרך מעשית לעשות זאת, והיא זו שהובילה לפריחה של הלמידה-העמוקה.

ובכלל, זו הגזמה להכריז "זה עובד" על רשתות-מרקביות. אפילו בהקשר של רשתות-נוירונים הפופולריות שלהם מאז דעכה מאד (כי דברים אחרים עובדים טוב יותר), ושלא בקונטקסט-של-רשתות נוירונים הם (למיטב ידעתי) עובדים רק במקרים מאד מנוונים (נגיד, HMMs) או רק על הנייר (כל מה שקשור belief propagation...).

יש סביב הנושא הרבה הייפ, וכפועל יוצא הרבה אנשים עושים הרבה שטויות - אבל לכשעצמן, רשתות-נוירונים הן הצלחה אמיתית עם הישגים מאד מרשימים, ונכון להיום, אין להן תחרות אמיתית. זה לא טריק שיווקי.
רשתות נוירונים - AMA 698520
לא. התכוונתי ל HMM וזה בדיוק העניין. לא משתמשים בזה הרבה, אולי אם היה לזה שם יותר קליט אז היו משתמשים בזה יותר. וכמובן שם קליט בלבד זה לא מספיק, זה צריך להיות רלוונטי לבעיה
רשתות נוירונים - AMA 698527
טוב, כאן מן הסתם אין לי תימוכין חוץ מ-"נראה לי", אבל הרושם שלי הוא שמשתמשים ב-HMM היום (היכן שהגיוני לעשות כך) בערך במידה בה השתמשו בו לפני 20 שנה.

אבל האפלקטיביות של המודל מוגבלת: צריך מרחב-מצבים יחסית קטן, וצריך להתחייב על משפחה ספציפית של ההתפלגויות, וצריך שהמשפחה תהיה עם ייצוג פרמטרי מאד נוח (כמעט תמיד נורמלית או מיקס-גאוסני, קורה שפואסנית, ואני לא זוכר שראיתי דוגמאות אחרות). וכמובן, צריך שהמודל יתפוס את הדינמיקה של המערכת עליה עובדים. רשתות-נוירונים מאפשרות לפתור בעיות דומות בצורה הרבה יותר רובוסטית, ולתפוס דינמיקה הרבה יותר מורכבת, והרבה בעיות שלא היו פתירות לפני 20 שנה באמצעות HMMs נפתרו או שופרו משמעותית בשנים האחרונות (דוגמא קלאסית: text to speech).

(וחוץ מזה, אלגוריתמים כמו Viterbi או EM שימושיים גם מחוץ להקשר של HMMs).
רשתות נוירונים - AMA 698529
hmm זה דוגמא ולא העקרון.

שמעת על בסיס הנתונים 1010data? גם אני לא, עד לפני 5 דקות. יכול להיות שהוא היה מדהים והקדים את מתחריו ב 3 שנים לפחות בשנת 2002. אילו רק היה לו שם יותר קליט הוא היה ממריא.
רשתות נוירונים - AMA 698530
איבדתי אותך.
רשתות נוירונים - AMA 698531
הנה השתלשלות הפתיל כפי שאני רואה אותה.

יובל: עלה בדעתי שחלק (קטן) מהפופולריות של למידה עמוקה נובע מהשם המוצלח
פונז: מתפלא עליך, משתמשים בזה כי זה עובד
אח של: דווקא מסכים עם יובל. הנה נימוק בלה בלה והנה דוגמא לטכנולוגיה שהיא לא פופלרית במיוחד אבל אולי היה לה יותר פוטנציאל עם שם יותר טוב.
עומר: כן אבל יש עוד סיבות שהטכנלוגיה הזו לא פופולרית ולמידה עמוקה כן
אח של: הדוגמא לא עקרונית, הנה דוגמא אחרת למשהו כזה

ואני מזכיר שיובל כתב: חלק קטן
רשתות נוירונים - AMA 698532
אתה בטח מבין שדוגמא למשהו שלא הצליח עם שם גרוע לא מוכיחה כלום, בערך כמו דוגמה לשחקן הלא ידוע יוסי כהן שכנראה לא הצליח כי האות השלישית בשם שלו היא ס'. או אולי כי האוזניים שלו קצרות מדי. או אולי כי הוא מזל סרטן עם אופק לשור.
רשתות נוירונים - AMA 698533
רודני דנג'רפילד מספר איך שם יכול להיות בעייתי.
רשתות נוירונים - AMA 698538
מי דיבר על הוכחה? זאת היתה דוגמא. אילוסטרציה.
רשתות נוירונים - AMA 698540
כן, אפילו בתור דוגמה לא הבנתי למה היא תופסת, ראה מזל שור.
רשתות נוירונים - AMA 698542
טוב, יכול להיות שהדוגמא רק מקשה על הנקודה ולא תומכת בה. עזוב את הדוגמא.

הנה נימוק ללא דוגמא.

לאנשים יש העדפה (תת מודעת) לשמות מסויימים על פני אחרים, זה מעוגן בכל מיני תופעות אמפיריות מוכרות. למשל name bias, name letter effect.

[אני יודע שזה גם ביזנס גדול של כל מיני חברות ייעוץ לאיך לבחור את שם המותג שלך. והרבה פעמים ההצעות שלהן לא שוות את הכסף, בלשון המעטה. אבל יש לזה בסיס אמפירי.]

מה שאני אומר זה ששם מוצלח גם יכול לתרום תרומה קטנה להצלחה של טכנולוגיה מסוימת. בכל זאת גם גיקים הם אנשים והם לא חפים מהשפעות כאלה. ואני חושב שלמידה עמוקה זה שם מוצלח - אבל אין לי הוכחה אמפירית. בעיני זה מוצלח. אולי זה שם גרוע והטכנולוגיה הצליחה למרות השם הזה.
רשתות נוירונים - AMA 698543
טוב, מה אני יודע, כשהתחלתי להתוודע לטרנד הזה עוד קראו לזה רשתות נוירונים קונבולוציוניות מרובות שכבות.
כבר אז התוצאות נראו נאות.
רשתות נוירונים - AMA 698549
גם זה ששמעת על זה כבר אז, זה לא הוכחה לכלום.
רשתות נוירונים - AMA 698535
שמות נהדרים כמו קסנדרה או מונגו די בי (Mongo DB)?
רשתות נוירונים - AMA 698539
טובים בהרבה. הרבה יותר זכירים ופחות גנרים.

וכהקדמת תרופה למכה: ברור ששם זה לא קריטריון יחיד, אפשר להצליח גם עם שם גרוע.
רשתות נוירונים - AMA 698510
זאת באמת שאלה טובה האם שם מוצלח לשיטה (מדעית) יכול להגדיל, ולו בקצת, את הפופולריות שלה. אני לא מוכן להתחייב שבמקרה של למידה עמוקה התרומה של השם היא אפס עגול (אבל חושב שאם היא חיובית, היא קטנה מאד).

באוטוביוגרפיה (המרתקת) של סטן אולם, שכבר הזכרתי כמה פעמים באייל, הוא כתב על שיטת מונטה קרלו (שהוא היה אחד ההוגים שלה): "It seems to me that the name Monte Carlo contributed very much to the popularization of this procedure".

אני תוהה לאיזה שיטות מדעיות יש שם שמצלצל במיוחד גרוע. הכי טוב (כלומר גרוע) שמצאתי בחצי דקה של חשיבה זה Expectation Maximization.
רשתות נוירונים - AMA 698517
לא ממש מה שתמהת לגביו, אבל הנה פינת האסוציאציות החופשיות שלי:

1. המפץ הגדול, שם שהוצע ע"י פרד הויל כדי להגחיך את הרעיון ולא ממש הצליח לו.

2. שיטה דיגיטלית (יה! יה!) לדיאגנוזה של סרטן הערמונית. אחרי שתמהתי על מה מדובר התברר לי שמדובר ב digit במובן המקורי של המילה, כלומר אצבע (אתם יכולים לנחש בעצמכם לאן הרופא דוחף אותה).
רשתות נוירונים - AMA 698536
Simulated annealing .


חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים