המודל הנכון 241227
ראשית, ברכות לרגל תוספת הקידומת (החד-פעמית!) לשמי תתקבלנה בברכה בדוא"ל :-)

ועכשיו לעסק. אחת המשימות הניצבות בפני הסטטיסטיקאי היא לבחור את "המודל הנכון" לבעייתו. כשהמודל הוא "לא נכון", מתחילות לפעמים צרות. הנה דוגמא, באוירה האולימפית של ימים אלה.

מודל סטטיסטי נפוץ ביותר נקרא "רגרסיה לינארית", והוא מניח קשר מסוים בין שני משתנים: ערכו של משתנה אחד (למשל, גובהו של אדם בוגר) הוא "פחות או יותר" פונקציה לינארית של משתנה אחר (למשל, גובהו של אביו). למה הכוונה? אם נאסוף נתוני גובה אודות 50 זוגות בן/אבא, ונשרטט על גרף שצירו האופקי הוא "גובה האב" והאנכי הוא "גובה הבן" 50 נקודות על פי הנתונים הנ"ל, אז הנקודות תסתדרנה, פחות או יותר, על קו ישר (דוגמא: http://www.statslab.cam.ac.uk/~rrw1/stats/regress1.g...).

ברגרסיה ניתן להשתמש, למשל, לצרכי חיזוי: אם אספנו מספיק נתונים, נוכל לחזות (במידה צנועה של דיוק) את גובהו של אדם בהנתן גובהו של אביו.

ומתי *לא* כדאי להשתמש במודל של רגרסיה לינארית? בהרבה מקרים. למשל, כשהנקודות בעליל לא מסתדרות באופן סביר על קו ישר, או לצורך חיזוי "גובהה" של נקודה הממוקמת על הציר האופקי הרחק מעבר לנקודות שהגדירו את הקו הישר.

מאמר שנידון בעבר באייל (תגובה 168058 והלאה) נכשל בכשל האחרון. המאמר, בין השאר, מציג את הזמנים שקבעו זוכי מדליות הזהב האולימפיות בריצת 200 מ' בין 1948 ל- 1992, גברים ונשים: על גרף שצירו האופקי הוא "שנים" והאנכי הוא "זמן הריצה" מופיעות נקודות המייצגות את הזמנים שנקבעו באולימפיאדות הנ"ל. הנקודות של הנשים הן גבוהות יותר (הן רצות לאט יותר), אבל גם משתפרות (דהיינו, יורדות) בקצב מהיר יותר. שני קוי רגרסיה שהועברו - אחד לגברים ואחד לנשים - הובילו את מחברות המאמר לכתוב:
Linear models suggest that women could overtake men in the 2032 Olympics.

הבעייה היא שמודל רגרסיה לינארית הוא לחלוטין לא מתאים בסיטואציה שלנו לחיזוי כל כך ארוך טווח. התוצאה החזויה ל- 2032 היא בערך 18.5 שניות - והיא אבסורדית בעליל. למעשה, אם ממשיכים באותו הגיון, ניתן גם לצפות שבאולימפיאדת 2312 זוכת הזהב תרוץ 200 מ' בזמן של מינוס שנייה אחת.
המודל הנכון 241259
לא ראיתי את הגרפים המדוברים אבל אני מתקשה להאמין שהקו [שנים] מול [זמן ריצה] נראה ישר על טווח של 40 שנה. אני מתאר לעצמי שבעשור הראשון השיפור הוא בשניות, בעשור אחרי זה עשיריות שניה וכולי. לכל היותר יהיה בליפ קטן של כמה עשיריות בעשור האחרות בעקבות חומרים משפרי ביצועים.

[ ומזל טוב, כמובן.עכשיו תוכל להיות מפעיל עגורן.]
המודל הנכון 241461
שני הגרפים הם באמת קצת קמורים, אבל דווקא פחות משציפיתי. בכל מקרה, צריך לזכור שאוליפיאדות נערכות רק פעמיים וחצי בעשור, כך שקשה לזהות הבדלים מובהקים בין עשור לעשור.

(ותודה מקרב לב על הברכות.)
המודל הנכון 242641
ועכשיו תחשוף כבר את הבדיחה על העגורנאים? בבקשה? (כבר הזכרת אותה פעם, אבל אני עייף מכדי לחפש).

וליובל - מזל טוב!
המודל הנכון 242656
נכון, באמת לא בסדר. אני מקווה שלאחר כל הבילד אפ לא תתאכזבו:

בחור אחד הלך ללמוד פיסיקה ( נניח) וכשגמר תואר ראשון לא הצליח למצוא עבודה, אז הוא המשיך לתואר שני. לאחר התואר השני, שוב לא הצליח למצוא עבודה וכך המשיך לדוקטורט ולפוסט. בסוף לא היתה לא ברירה והתחיל לחפש ברצינות, אבל בכל מקום נבהלו מההשכלה שלו וזרקו אותו. בסוף, חבר שלו ראה מודעה בעיתון "דרושים מפעילי עגורנים" והציע לו לנסות.
"אבל בחיאת" אמר החבר " אל תגלה להם ברמז שאתה ד"ר, שוב יעיפו אותך, ואז מה יהיה?"

הלך לנמל באשדוד ופגש שם עוד כמה עשרות מועמדים. "אין לי סיכוי להתבלט ביניהם" חשב לעצמו. הראיון התחיל בסיור שמנהל העגורניסטים עשה לכולם.

" זאת ברטה הגדולה, העגורן הכי גבוה אצלינו. משקולת הנגד מאפשרת שיווי משקל גם במכולות של 4 טון!" התלהב המנהל. כאן מבצע גיבורינו חישוב קטן בליבו על בסיס חוק המנוף, אבל מתאפק שלא להכריז שהוא חישב את משקל המשקולת.

ממשיכים בסיור ובכל נקודה מגלה גיבורינו שיש תופעה פיסיקלית חשובה שמשליכה אור על ביצועים שונים של העגורנים, אבל בכל פעם הוא שותק, כדי שלא יגלו את ההשכלה שלו.

בסוף אומר המנהל, " וזוהי סוזי, העגורן עם הזרוע הארוכה ביותר, 50 מטר. אולי מישהו מכם יכול לאמוד את השטח שמכוסה כאשר סוזי מסתובבת סביב צירה?". כאן הוא לא יכול להתאפק יותר וצועק:
-מינוס פאי אר בריבוע, כאשר אר הוא 50 מטר, זה בסביבות-‏7854 מ"ר !!!

נדהם המנהל, " ואללה, אתה צודק, אבל למה מינוס?"

עונים לו כל שאר המועמדים במקהלה:

"הוא החליף גבולות אינטגרציה "
המודל הנכון 242960
LOL.
לא התאכזבתי 243021
:-)
המודל הנכון 388307
ג'סטין גטלין, שהוכתר לפני כמה שבועות כשיאן העולמי החדש בריצת 100 מטר, נאלץ לוותר על התואר כמה ימים לאחר מכן. התברר ש-‏9.766 השניות בהן עבר את המרחק עוגלו בטעות על ידי מארגני התחרות ל-‏9.76, במקום ל-‏9.77, שהוא השיא הקודם (של מייק פאוול).

הימור: עוד בחיי יתחילו למדוד זמנים בריצת 100 מטר ברזולוציה של אלפיות השנייה.
המודל הנכון 388313
הימור: עוד בחייך יתחילו לרוץ לכל מיני מרחקים כמו 300 מ', 50 מ' וכאלה, כדי שיהיו קצת שיאים חדשים לשבור.
המודל הנכון 388408
אופס - אספה פאוול, ולא מייק פאוול (שהוא אלוף העולם בקפיצה לרוחק).
המודל הנכון 388757
מייק פאוול הוא *שיאן* העולם בקפיצה לרוחק.
אלוף העולם הנכחי בקפיצה לרוחק הוא דוויט פיליפס מארה"ב
המודל הנכון 388776
צודק כמובן, תודה.
רגרסיה מרובה 241488
מה לגבי רגרסיה מרובה?
איך מבצעים
במידה וידוע על 3 גורמים אופציונאליים שמשפיעים?
איך מוצאים את קו הרגרסיה ואת המובהקות של האינטראקציה בין כל 3 הפרמטרים?ובין כל אחד לשני?ואיך יודעים מי אכן וכמה משפיע?
תודה
רגרסיה מרובה 241553
אלה שאלות טובות, אבל חוששני ש"האייל הקורא" הוא אינו המסגרת המתאימה לענות עליהן בפירוט. (או לפחות, לי אין עכשיו זמן לכתוב תשובה מספקת.)

בקיצור נמרץ: יש תיאוריה עשירה ויפה (הנשענת על ה- projection theorem מאנליזה פונקציונלית) עבור רגרסיה מרובה, וגם במסגרתה אפשר לדון במובהקות וכו'. פרטים נוספים מופיעים על מסך המחשב אחרי שמגגלים multiple regression.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים