בתשובה לעומר, 30/03/18 16:28
רשתות נוירונים - AMA 698331
תודה רבה על התגובה המושקעת.

תוכל בבקשה לפרט איך רגרסיה לוגיסטית, למשל, היא מקרה פרטי של רשת נוירונים?
רשתות נוירונים - AMA 698342
הצורה הפונקציונלית של רגרסיה לוגיסטית היא הרכבה של העתקה-אפינית עם פונקציית סיגמואיד, ואפשר לייצג אותה בקלות על ידי "רשת" בעלת נוירון יחיד עם אקטיבציה סיגמואידית. אימון של הרשת תוך שימוש ב-cross-entropy כפונקציית שגיאה, תוביל בדיוק לאומדן הנראות המירבית של מקדמי הרגרסיה. רשתות גדולות המשמשות לקלסיפיקציה בינארית אפשר להבין כהרכבה של חלק מסובך שלומד ייצוג מוצלח של התצפיות, עם חלק פשוט ששקול לרגרסיה לוגיסטית הקושרת בין הייצוג הנלמד לערך המטרה.
רשתות נוירונים - AMA 698446
ואללה, הסיגמואיד של פונקציית logit באמת יכול בדיוק להתלבש על פונקציית האקטיבציה של נוירון, אז זה מסתדר. אבל מה עם מודלים לינארים מוכללים אחרים, למשל רגרסיה פואסונית? או אפילו עם רגרסיה לינארית רגילה? איך מתמודדים ברשתות נוירונים עם פונקציות שהטווח שלהן לא חסום?
רשתות נוירונים - AMA 698513
כאשר ערך-המטרה אינו חסום (כמו במקרה של רגרסיה לינארית) המצב פשוט במיוחד: לא משתמשים באף פונקציית אקטיבציה, והשכבה האחרונה (והיחידה, במקרה של רגרסיה לינארית) היא רק פונקציה אפינית.

ככלל אצבע, כאשר מדובר ברשתות-נוירונים - ייצוג הוא אף פעם לא בעיה. הדימוי של רשת נוירונים כ-"אוסף של פונקציות זהות מסודרות בשכבות" הוא מאד מטעה. רשתות feed-forward (אני מתאר לעצמי שעליהן אתה חושב כשאתה חושב על רשתות-נוירונים) מייצגות פונקציות באמצעות מבנה (computational graph) שיכול להיות מורכב מאד, הרבה יותר מסתם "שכבות". וכאמור רשתות feed-forward הן רק חלק מהסיפור, ובהחלט לא הסיפור כולו.

אבל אפילו אם מגבילים אותן למבנה של שכבות, ואפילו אם מגבילים את מספר השכבות ל-‏2 - הן עדיין יכולות לייצג כל פונקציה.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים