בתשובה לירדן ניר-בוכבינדר, 17/09/11 6:19
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 581729
מה שאורי כתב זה לב העניין. אני אשתדל בהמשך לכתוב תשובה יותר מפורטת.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 581763
יש בציטוט שתי טעויות. הראשונה היא הגדרה/פרשנות שגויה למושג "מובהקות סטטיסטית", והשניה היא הטענה שאוטומטית, 5% מהמחקרים המתפרסמים הם שגויים. כדי להמשיך אין מנוס מלצלול לחלק מהפרטים, ולכן התגובה הזו תהיה ארוכה.

בשביל לנסות להסביר את משמעות המושג "מובהקות סטטיסטית" אשתמש בדוגמא. נניח שבא אדם וטוען שביכולתו להשפיע בכוח המחשבה על התוצאה של הטלת מטבע, כך שההסתברות לקבל "עץ" תהיה גבוהה מחצי. נותנים לו להפעיל את קסמיו על, נאמר, 100 הטלות מטבע, ורואים בכמה מהן התקבל "עץ". ברור שגם בלי יכולות על-טבעיות ייתכנו סטיות קלות משוויון מוחלט של 50 "עץ" ו-‏50 "פלי" - הרי מדובר בתהליך אקראי - ולכן לא נראה ב-‏52 תוצאות "עץ", למשל, ראיה משכנעת לטענתו. מה כן יהווה ראיה משכנעת? אם הוא יקבל משמעותית יותר מ-‏50 "עץ". אבל כמה זה "משמעותית יותר"? צריך להגדיר רף גבוה מספיק של מספר תוצאות "עץ", כך שההסתברות לעבור אותו במקרה - כלומר בלי שהנבדק משפיע על המטבע - יהיה מאד נמוך, למשל 0.01. אפשר לחשב ולראות שתחת ההנחה של הסתברות חצי-חצי בכל הטלה, ההסתברות לקבל 62 תוצאות "עץ" או יותר היא כמעט בדיוק 0.01, ולכן זה יהיה סביר להכריז (עוד לפני שעורכים את הניסוי) ש-‏62 "עץ" או יותר יהוו ראיה משכנעת לטענה.

המספר 0.01 בסיפור הזה הוא בדיוק המובהקות הסטטיסטית של המבחן שהגדרנו: הוא ההסתברות להכריז (בטעות) "הוא קוסם" כאשר בעצם אין שום קסמים, כלומר ההסתברות לקבל לפחות 62 "עץ" סתם בגלל יד המקרה, כשלנבדק אין שום השפעה על המטבע. למציאות שבה "אין קסמים" - או באופן כללי יותר, "אין משהו מיוחד" - קוראים "השערת האפס", ולמציאות שבה "יש משהו מיוחד" (בדוגמא - הנבדק אכן מסוגל להשפיע על המטבע) קוראים "ההשערה האלטרנטיבית". במבחן סטטיסטי בוחרים מובהקות (0.01, בדוגמא), עורכים ניסוי, ואם התוצאות עוברות את הרף המתאים למובהקות שבחרנו (יותר מ-‏62 "עץ", בדוגמא), דוחים את השערת האפס ויש פוטנציאל למאמר. במונחים האלה, "מובהקות סטטיסטית" היא ההסתברות לדחות את השערת האפס כאשר ידוע שהיא דווקא נכונה. אני לא רואה איך התיאור "הסיכוי שתוצאות המחקר משקפות נכון את המציאות ואינן מקריות" של הכתב רון פרסלר מתאים למושג.

עוד כמה מילים על המושג "מובהקות סטטיסטית": הבחירה ב-‏0.01 היתה שרירותית, ומספר מקובל הרבה יותר הוא ה-‏0.05 המפורסם, שהוא פחות מחמיר. בדוגמא שלנו, אם נבחר במובהקות של 0.05 אז הרף יונח ב-‏59 תוצאות "עץ", ואין כלל חד-משמעי בשביל לקבוע את הרף ה"נכון". זה המקום לדבר על מושג קשור, והוא ה-p-value (או בשמו האחר, "רמת מובהקות נצפית" - observed significance level). קוסם אמיתי לא היה מתעסק בכלל עם שישים ומשהו תוצאות "עץ", אלא היה מהמם אותנו עם, למשל, 81 "עץ". זאת תהיה באמת ראיה משכנעת הרבה יותר, כי הוא עבר רף שההסתברות לעבור אותו במקרה (תחת ההנחה שאין לו כוחות מיוחדים) היא הרבה יותר קטנה. כמה קטנה? ההסתברות להוציא במקרה 81 "עץ" או יותר היא בערך אחד חלקי עשרה מיליארד, והמספר אחד חלקי עשרה מיליארד הוא בדיוק ה-p-value של תוצאת המבחן - הוא ההסתברות לעבור (במקרה) רף שמונח בדיוק בתוצאה של הנבדק בניסוי. ככל שה-p-value יותר נמוך, זה "טוב יותר" לחוקר (הראיות נגד השערת האפס חזקות יותר). במילים יותר כלליות, ה-p-value הוא המובהקות הסטטיסטית המינימלית שאילו היינו בוחרים בה למבחן, היינו דוחים את השערת האפס.

ועכשיו נעבור לטענה "5% מהמחקרים שמתפרסמים, אינם נכונים". פרוצדורה זהה לזו שהפעלנו בדוגמת הטיית המטבע אפשר להפעיל בהרבה סיטואציות אחרות: כדי לבדוק האם ההסתברות ללידת בת היא גדולה מחצי, אפשר לעקוב אחרי 100 לידות ולבדוק בכמה מהן נולדו בנות; אם נקבל משמעותית יותר מ-‏50 בנות, נוכל להכריז (במובהקות זו או אחרת) שלבנות אכן סיכוי גבוה יותר להיוולד. אם נרצה לדעת האם אדון X יכול להבחין בטעימה עיוורת בין קולה לפפסי, אפשר לתת לו לטעום משתי כוסות זהות עם שני המשקאות, לשאול אותו מי לדעתו זה מי, לחזור על התהליך 100 פעמים, ולנתח את הנתונים באופן דומה. יש עוד אין-ספור מחקרים שונים ומשונים שאפשר לערוך. בחלקם הפרוצדורה הסטטיסטית תהיה וריאציה קלה על הפרוצדורה שתיארתי כאן‏1 , ובחלקם תידרש פרוצדורה סטטיסטית אחרת לחלוטין. המשותף לכל המחקרים הוא שתהיה בהם השערת אפס והשערה אלטרנטיבית, ואם התוצאות יאפשרו לנו לדחות את השערת האפס במובהקות סבירה (בד"כ לא יותר מ-‏0.05), יש מה לדבר על לפרסם מאמר. אבל מכאן לא נובע שבהגדרה, 5% מהמחקרים שגויים - הדבר היה נכון אילו בכל המקרים השערת האפס היתה נכונה, וזה כמובן לא המצב. רק אם נדע בדיוק באיזה אחוז מהמחקרים השערת האפס נכונה ובאיזה אחוז ההשערה האלטרנטיבית נכונה (וזה דבר שלא נדע לעולם, ושקשור בנכונות של חוקרים לחקור דברים שגרתיים למדי או נועזים), ורק אם נדע את ההסתברות, בכל מחקר, לא לדחות את השערת האפס למרות שהיא לא נכונה (זה מתקשר למושג "עוצמה" של מבחן, שלא אכנס אליו כאן), נוכל לאמוד את אחוז המחקרים השגויים. גם אז, יש הבדל בין "אחוז המחקרים השגויים" ל"אחוז המחקרים השגויים שמתפרסמים", מהרבה סיבות (למשל אפקט המגרה שהזכרתי במאמר).

יצאה לי מגילה. אם יהיה ביקוש, אכתוב ביום אחר על ההבדל בין מובהקות סטטיסטית ל"חשיבות מעשית" - לא כל מסקנה נועזת (למשל, "נשים נוהגות טוב יותר מגברים"), גם אם היא מאד מובהקת סטטיסטית, היא בעלת חשיבות, ולאו דווקא מהסיבות שחלק מהקוראים שהגיעו אתי עד לפה משערים.
_____________
1. כמו למשל בסיפור על הכבשה באמבטיה שתיארתי בתגובה 578355, שם ההסתברויות תחת השערת האפס הן לא חצי-חצי אלא 1/7 ו-‏6/7.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 581872
ביקוש.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 581897
עוד ביקוש.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 581903
ועוד אחד
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 581952
אוקיי, אז גם יש היצע.

הפואנטה היא שעם מדגם גדול מספיק, אפשר להבחין באופן מובהק סטטיסטית גם בהבדלים זעירים בין אוכלוסיות, בקורלציות מאד חלשות, וכו'. לדוגמא, נניח שבמדינה מסוימת שיחות טלפון של נשים אורכות 4.38 דקות בממוצע, ושיחות של גברים 4.37 דקות בממוצע (שימו לב - אלה המספרים האמיתיים, בקרב כל האוכלוסיה ובכל הזמנים, ולא התוצאות של מדגם כזה או אחר). ההבדל בין הממוצעים האלה הוא זעיר, ואפילו מדגם גדול יחסית של כמה אלפי שיחות לכל מין כפי הנראה לא יאתר אותו: יתקבל הפרש קל מאד, שאינו מובהק סטטיסטית, לכיוון הנשים, או אולי אפילו הבדל קל לכיוון הגברים. אבל אם ניקח מדגם גדול מאד, כן נצליח להבחין בהבדל באופן מובהק סטטיסטית. חוקר (או עורך עיתון) לא אחראי היה יוצא אז עם הכותרת "מחקר חדש מגלה כי נשים מאריכות בדיבור בטלפון יותר מאשר גברים". הוא היה צודק במובן טכני מאד צר, אבל מפספס את המהות - למי איכפת אם שיחות של נשים אורכות בממוצע חצי שניה יותר או פחות משיחות של גברים? לכל צורך מעשי, אין בין המינים הבדל.

כשלימדתי סטטיסטיקה לסטודנטים למינהל עסקים ב-NYU השתמשתי בדוגמא אחרת, אמיתית לחלוטין: האם לשוק המניות יש "מומנטום"? כלומר, האם יום אחרי שהשוק עולה, סביר להניח שהוא ימשיך לעלות, ולהיפך? מסתבר שכן. היו לי נתונים יומיים של מדד ה-S&P על פני כמה עשורים - מדובר בהרבה אלפי ימים - ואם מחשבים את הקורלציה בין התשואה ביום x לבין התשואה ביום x + 1 על פני כל התקופה הזו, היא יוצאת חיובית באופן מאד מובהק סטטיסטית, אבל זעירה. נו, אז אפשר להשתמש ב"תגלית" הזו כדי להרוויח כסף? כן, אבל מעט מאד מאד. אם כבר יש לך איזשהו סכום, עדיף להשקיע אותו באיזו תוכנית חיסכון סתמית, ולהרוויח הרבה יותר בלי שום סיכון.

בהרבה ספרי לימוד היום מדגישים את ההבדל בין מובהקות סטטיסטית (statistical significance) לחשיבות מעשית (statistical importance), וזה באמת דבר חשוב. הרבה פעמים אני נתקל בהצהרות "אבל זה מובהק סטטיסטית!", בלי שהמצהיר מבין שחשוב גם לדווח על "גודל האפקט" (effect size), שבדוגמא הראשונה, למשל, הוא בערך חצי שניה.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 581954
אופס, התכוונתי practical importance בפסקה האחרונה, ולא statistical importance.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582052
אהה, אבל אם ביום X+2 התשואה יורדת קצת, החשיבות המעשית משתנה לסוג מסוים של משקיעים.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582085
אני רחוק מלהיות מבין גדול במימון, אבל אם אני לא טועה, בהנחה שיש מתאם חיובי בין תשואות בימים עוקבים, אפשר בכל יום לקנות אופציית put או call על אינדקס ה-S&P ביום המחרת, בהתאם לתשואה שלו היום, ולטווח הארוך, לעשות כסף (מעט מאד ועם הרבה סיכון).
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582090
אם לוקחים בחשבון את עלות הפעולה (בעיקר העמלות) זה כפי הנראה לא יוצא ריווחי בכלל.

(בפסאודו ויכוח שהיה לי לא מזמן עם אא על שוק ההון, זאת טענה שהיתה אמורה לעלות שם מצידו. ליתר דיוק, בהשקעה לטווח ארוך העמלות משנות מעט, אבל אותם ''דמי משמורת'' שהבנק גובה תמורת אכסון מאה הביטים שלך על המחשבים שלו, עושים את כל חישובי התשואה עפ''י המדד לפשטניים מדי)
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582091
אדרבא!
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582092
בהתחלה כתבתי את התגובה בצחוק, והתכוונתי למכירות שורט. אך בעצם שהדוגמה שלך מדגישה שפונקצית החשיבות המעשית נקבעת - לפעמים? תמיד? - לפי ההקשר.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 651052
ועל כן אני תמה מזה כמה שנים כבר, איך מכונות האלגוריתמים המכוונות לרווחים הזעומים האלה, לא נשחטות על ידי העמלות.
יש לי הרגשה מאד חזקה, שלו הן היו משלמות את העמלה שאני/האזרח הממוצע משלם, העמלות על מיליון הפעולות ביום שהן עושות היו מוחקות את כל הרווחים שלהם אם לא יותר.

ואם הן לא משלמות את העמלות האלה - זו הטייה לא הוגנת של השוק ואפליה בין רובוטים לאנשים.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 651060
אני מנחש אם היית עושה מליון פעולות ביום באופן ידני היית יכול להגיע להסדר דומה עם הבנק (סוד ידוע שממעטים להזכיר הוא שכמעט כל העמלה הולכת לבנק, לא לבורסה). אגב, התוכנות הללו צריכות לעמוד באילוץ שאתה פטור ממנו: עליהן לוודא שאחוז מסויים מהפקודות אכן גורם לביצוע עיסקה, אחרת מוטל עליהן קנס.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 651062
אני לא רואה שום סיבה שזה יהיה נכון. הבנקים אמנם מורידים עמלות לבעלי חשבונות גדולים, אבל לא בסדרי גודל.
אז אם אני משלם חצי אחוז עמלה על פעולה, אולי מישהו ממש מקושר ישלם חצי פרומיל.
חצי פרומיל על מיליון פעולות מצטבר ליותר מכמות הכסף שהשקעת, אלא כמובן אם אתה מרוויח יותר מחצי פרומיל בממוצע. קשה לי להאמין שמישהו מרוויח קרוב לסדר הגודל הזה בעשירית/מאית שנייה.

ואם תאמר שהבנק מוכן לתת לחברת אלגוריתמים אלפית מהעמלה שהוא לוקח ממני, אני אומר לך שזו הונאה ואפליה.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 651064
''אלא כמובן אם אתה מרוויח יותר מחצי פרומיל בממוצע'' - זה המצב. זכור שהם משלמים רק עבור עיסקאות שבוצעו, לא עבור כל מליוני הפקודות שהוזרמו ולא התבצעו.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 651067
אתה מדבר מידיעה או מהשערה?
מה התועלת במיליוני פקודות שלא מתבצעות? אני חשבתי שבשוק משוכלל ונזיל (בין השאר בגלל הקיום של מסחר HFT) חלק ניכר מהפקודות מתבצע.

גם אז, כמו שאמרתי, יש פה בעייה.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 651069
ידיעה (אבל לא מעודכנת, ובמסגרת ההסתייגות הרגילה מהזכרון המתעתע שלי). התועלת במליוני הפקודות היא שהן לא עולות (כמעט) כלום, חלק (קטן) מהן כן מתבצע בסופו של דבר וזה מה שחשוב.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 651104
אתה וודאי זוכר את מאמר ישן שניתח את התופעה בצורה מדויקת. המחבר הוא אחד, א. קישון.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 651121
לא זכור לי.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 651152
הפיליטון "כיצד הרווחתי חצי מיליון לירות בבורסה בלי לסכן אפילו פרוטה אחת?" מהספר "באחד האמשים".

הוא מסתיים לערך כך: "...תוך חודשיים הרווחנו 4.703 ל"י בלי עבודה. אמנם מאפילה מעט אל ההישג הפיסקאלי הנאה, שעמלת הסוכן היא כפליים מהרווח, אבל זה דווקא היפה והמותח במשחק בבורסה, אף פעם לא יודעים היום כמה ירוויח הסוכן מחר..."
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582043
מה שהכי מפתיע אותי בכל הסיפור הוא ששלושה מקרים מתוך 100 (ההפרש בין 59 ל-‏62) מספיקים כדי לשנות את המובהקות פי חמישה. חשבתי שהפונקציה הזאת הרבה פחות חדה.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582044
תלולה, לא חדה.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582083
התלילות של הפונקציה הזו תלויה גם בגודל המדגם. בדוגמא, שם המדגם היה בגודל 100, כדי לשנות את המובהקות מ-‏0.05 ל-‏0.01 היה צריך להעלות את הרף ב-‏3% מהמדגם ("שלושה מקרים מתוך 100"). אילו המדגם היה בגודל 1000, למשל, היה צריך להעלות את הרף מ-‏526 ל-‏537, שזה 1.1% מהמדגם, כלומר הפונקציה היתה עוד יותר תלולה (במדגם יותר קטן, היא מן הסתם תהיה פחות תלולה).

התלילות כמובן תלויה גם בנקודה שבה מסתכלים על הפונקציה (היא הרי לא לינארית): אין דין שינוי של פי חמישה מ-‏0.05 ל-‏0.01 כדין שינוי של פי חמישה מ-‏0.1 ל-‏0.02.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582563
בהחלט לא כתבתי שמובהקות של 95% אומרת ש-‏5% מהמאמרים שגויים. להיפך, הדוגמא שהבאתי במאמר (של בדיקת האיידס) נועדה להראות בדיוק מדוע ה p-value לא מצביע על נכונות. בכלל, המובהקות הסטטיסטית היא ההסתברות לממצאים בהינתן מרחב המדגם ולא ההיפך, וכדי להפוך את כיוון הגרירה יש להשתמש בנוסחת בייז ולאמוד את ההסתברות האפריורית של השערת האפס, כפי שכתבת. אבל, בהנחה ההגיונית שמתפרסמים רק המאמרים הדוחים את השערת האפס, סף ה-‏5% אומר שב-‏5% מהמקרים בהם נדחתה השערת האפס היה מדובר בתופעה אקראית, בלי קשר אפילו להסתברות האפריורית. לכן כתבתי ש"_כבר מראש_, הסף מניח..." ועוד נתתי דוגמה: אחד מכל 20 מאכלים ימצא כקשור לסרטן. 5% של מאמרים שגויים, אם כן, הוא המינימום, ולכן הדגשתי "כבר מראש". בפועל, מכיוון שההסתברות האפריורית נמוכה יותר כמעט בכל המקרים, אחוז השגיאות גבוה יותר, וזאת אפילו מבלי להביא בחשבון את כל ההטיות שמגדילות עוד את מספר הטעויות.
במשפט "הסיכוי שתוצאות המחקר משקפות נכון את המציאות ואינן מקריות" התכוונתי לומר "ההסתברות לקבלת הנתונים בהינתן שהשערת האפס אינה נכונה", אבל אני חושב שהניסוח המקורי שלי פשוט יותר להבנה על ידי הדיוטות.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582572
שלום רון - קודם כל ברוך הבא. אני שמח שהשתלבת בדיון, ושתדע לך שאני קורא בשקיקה ובאופן קבוע את הטור החדש שלך.

לגופו של עניין: עדיין יש ביננו מחלוקת, אני חושב, או לפחות אי-הבנה. אני לא רואה איך אפשר ליישב את המשפט שלך "לא כתבתי שמובהקות של 95% אומרת ש-‏5% מהמאמרים שגויים" (מהתגובה כאן מעלי) עם הציטוט מהכתבה "אם הסיכוי הזה גבוה מ-‏95%, הסף המקובל באקדמיה, התוצאות נחשבות מובהקות. כבר מראש, הסף הזה מניח ש-‏5% מהמחקרים שמתפרסמים, אינם נכונים." בנוסף, לא ניסיתי "להשתמש בנוסחת בייז ולאמוד את ההסתברות האפריורית של השערת האפס" (בשום מובן שאני יכול לייחס למשפט הזה).

אבל בוא ניקח דוגמא מספרית. נניח שב-‏20 אחוז מהמחקרים שנערכים השערת האפס נכונה, וביתר ה-‏80 אחוז ההשערה האלטרנטיבית. עוד נניח שכדי שייצא ממחקר מאמר, צריך לדחות את השערת האפס במובהקות של 0.05 (המחקרים עם התוצאות הלא מובהקות נגנזים), ושהעוצמה של כל המבחנים היא מאד גבוהה, נאמר 0.99 (בגלל שהמדגמים גדולים, או שהאפקטים חזקים וכו'). אז בממוצע, מתוך כל 100 מחקרים, יתפרסמו 80.2 מאמרים: מאמר אחד שגוי שבו השערת האפס נכונה, ו-‏79.2 מאמרים נכונים שבהם ההשערה האלטרנטיבית נכונה. אחוז המחקרים השגויים מבין המחקרים המתפרסמים, אם כך, הוא 1:80.2, שזה בערך אחוז ורבע, כלומר די רחוק מ-‏5 אחוז. ברור שאפשר לשחק עם הפרמטרים ולקבל גם מספר גבוה יותר מ-‏5 אחוז, אבל אני חושב שהמחשתי כאן את הבעיה עם המשפט "כבר מראש, הסף הזה מניח ש-‏5% מהמחקרים שמתפרסמים, אינם נכונים."

לגבי פירוש "עממי" למושג המובהקות, לטעמי אפשרות לא רעה היא "מדד לחוזק הראיות התומכות במסקנות המחקר". אין ספק שצריך ניסוח מובן להדיוטות שלא בקיאים במונחים כגון "השערת האפס", אבל הניסוח שהופיע בטור ב"הארץ" ("הסיכוי שתוצאות המחקר משקפות נכון את המציאות ואינן מקריות") הוא לטעמי, עדיין, פשוט שגוי.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582637
צודק, המשפט בנוגע ל-‏5% אכן שגוי, אבל לא בדיוק מהסיבה שציינת פשוט כי התכוונתי למשהו אחר.
ראשית, השאלה היא "איזה חלק מהמחקרים שגויים?" אם נקרא למאורע השערת האפס H0 ולמאורע קבלת הנתונים D, אזי ערך ה-p שווה ל (P(D|H0 כלומר ההסתברות לקבלת הנתונים שנאספו בהינתן שהשערת האפס נכונה. כדי לדעת כמה מחקרים שגויים, אנחנו צריכים לחשב את (P(H0|D, כלומר ההסתברות להשערת האפס בהינתן הנתונים. על פי נוסחת בייז:
P(H0|D) = P(H0)*P(D|H0)/P(D) = P(H0)*p/(P(H0)*p + (1 - P(H0))*P(D|H1))
כאשר H1 הוא ההשערה הנבדקת, או המשלים ל-H0. עכשיו (P(D|H1 הוא לא פשוט לחישוב (ואני חושב שהוא גם לא המשלים ל p) אבל נניח שניתן לאמוד אותו. עדיין, כדי לדעת את הסיכוי לשגיאה, ואפילו את היחס בין הסיכוי לנכונות הטענה לפני ואחרי המחקר, אנחנו צריכים הערכה של ההסתברות האפריורית: (P(H0 (או (P(H1). לכן כמות השגיאות מושפעת מאוד מאותה הסתברות אפריורית. זהו הבסיס לטיעונים של יונידיס, והוא העריך את הסיכויים בתחומים שונים ברפואה : http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1182327/... מסקנותיו, שגובו בבדיקה אמפירית שערך, הן שכ-‏80% מהמאמרים ברפואה ובין שליש ל-‏40% מהמאמרים המפורסמים בכתבי העת היוקרתיים ביותר ברפואה שגויים או מופרזים. זה היה עיקרו של הטור.

מה שהתכוונתי באותו משפט אומלל ושגוי על 5% הוא לא על הערכת הנכונות של המאמרים מול העובדות אלא על המאמרים מנקודת מבטם של עורכי כתבי העת שבחרו בסף השרירותי של p. לא ערכתי חישוב, והאינטואיציה שלי נפגמה בשנים הרבות שחלפו מאז עשיתי את התואר וחצי שלי במתמטיקה, אבל היה נדמה לי (מבלי שהשקעתי בכך מחשבה מרובה) שבהיעדר כל מידע על (P(H0 או על (P(D, ההערכה של העורכים היתה שכ-‏5% מהמחקרים יהיו שגויים, ולכן כתבתי שהם ויתרו מראש על 5%. כמובן שזה משולל יסוד כי בהיעדר כל מידע על הסתברות או מרחב המדגם אין משמעות לנסיון להעריך אותה. מה שכן, הדוגמה על אחד מכל עשרים מאכלים שיימצא כמסרטן באופן מובהק סטטיסטית עדיין נכונה.

עכשיו הכל בסדר, או שעדיין אני טועה? :)

אגב, אני שמח לדעת שאנשים נהנים מפינת ה"ממצאים". לצערי, אני לא יכול לקחת קרדיט על המצאת הקונצפט שנגנב בחוסר בושה מהמגזין האמריקאי האהוב עלי, Harper's.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582682
קראתי עכשיו ברפרוף חלקים מהמאמר של יונידיס. מעניין מאד, וגם עצוב מאד. תודה על הלינק.

אני נזהר שלא להיכנס לענייני הסקה בייסיאנית כאן (ידעת על התהום שפעורה בין סטטיסטיקאים "רגילים" לסטטיסטיקאים בייסיאניים?), אז בוא נעזוב את חישוב ההסתברות של נכונות השערת האפס :-)

ולגבי עשרים המאכלים והסרטן - אני מסכים אתך לחלוטין שאם המחקרים ייעשו על-ידי עשרים חוקרים בלתי-תלויים שלא מודעים אחד לעבודת האחר, אז באמת נקבל (בממוצע) שאחד מהמאכלים יימצא כמסרטן באופן מובהק. מה שעצוב יותר זה שכפי הנראה רק המאמר (השגוי) הזה יתפרסם, וזה בדיוק אפקט המגרה שהזכרתי במאמר. מצד שני, אם חוקר יחיד יבדוק את עשרים המאכלים, והוא חוקר אחראי, אז הוא ישתמש באחת מהשיטות הקיימות להקטנת ההסתברות לגילוי שגוי (בד"כ תיקון בונפרוני או False discovery rate [Wikipedia]).
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582722
הנה הבדיקה האמפירית שיונידיס עשה על מחקרים "יוקרתיים" (הוא ספר כמה מחקרים שכאלו הופרכו או התגלו כמופרזים): http://jama.ama-assn.org/content/294/2/218.full.pdf+...

לא ידעתי על התהום הפעורה, אבל אשמח לדעת. שוב, למדתי מתמטיקה, לא סטטיסטיקה, ושם מתמקדים בעיקר בהסתברויות רציפות ולא דיסקרטיות, וגם זה היה כבר לפני לא מעט שנים. בכל אופן אשמח לדעת איך סטטיסטיקאים "רגילים" אומדים נכונות השערה. כלומר איך עוברים מ- (P(D|H0 ל- (P(H0|D ללא בייז. מכיוון שלסטטיסטיקה יש כל-כך הרבה השפעה על מה שאנחנו חושבים שאנחנו יודעים כיום, חשוב לי להבין.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583799
מתנצל על העיכוב בתגובה.

סטטיסטיקאים "רגילים"‏1 בכלל לא מנסים לאמוד הסתברויות כמו (P(H0|D כי עבורם הנכונות של השערת האפס היא לא מאורע שמשייכים לו הסתברות. ניסיתי לכתוב משהו על ההבדלים שבבסיס בין שתי ההשקפות, אבל לא יצא לי משהו מוצלח, אולי בגלל שאני לא מתעסק באופן קבוע בסטטיסטיקה בייסיאנית. אני כן יכול להגיד שהרוב המוחלט (להערכתי הרבה מעל 90%) של הניתוחים הסטטיסטיים שנעשים כיום בפועל - כלומר במסגרת יישום של סטטיסטיקה ברפואה, הנדסה, כלכלה וכו' - הם לא בייסיאניים, אבל דומני שהחלק הבייסיאני הולך וגדל. לגבי ה"תהום" - קולגה שלי סיפר לי לא מזמן איך פעם בכנס, חוקר חשוב התחיל את ההרצאה שלו במילים "I have converted to Bayesianism", והפך לשיחת היום.

בשיטוטיי ברשת לצורך כתיבת התגובה הזו נתקלתי בשני קישורים מוצלחים. הראשון הוא פוסט בבלוג של פרופסור ב-NYU, שמדגים איך שאלה מאד פשוטה‏2 מקבלת שתי תשובות הפוכות כשמנתחים אותה בכלים סטטיסטיים "רגילים" ובבייסיאניים. השני הוא המאמר Modern Science and the Bayesian-Frequentist Controversy של בראד אפרון מסטנפורד, שסוקר ממעוף ציפור מגביהת-טוס, ובשפה יפהפיה, את המקום של הסטטסיטיקה במדע. למרות הכותרת, אין במאמר הרבה תוכן "קשה" על ההבדלים שבין שתי הגישות, אבל הייתי ממליץ לכל מי שמתעניין בסטטיסטיקה לקרוא אותו (זה מאמר קצר ומאד נגיש). ציטוט יפה:

Using Bayes rule doesn’t make one a Bayesian. Always using Bayes rule does.

ועוד ציטוט שאהבתי מתוכו, שלא קשור למחלוקת הנ"ל:

A cartoon history of western thought might recognize three eras: an unpredictable pre-scientific world ruled by willful gods and magic; the precise clockwork universe of Newton and Laplace; and the modern scientific perspective of an understandable world, but one where predictability is tempered by a heavy dose of randomness. Deterministic Newtonian science is majestic, and the basis of modern science too, but a few hundred years of it pretty much exhausted nature’s storehouse of precisely predictable events. Subjects like biology, medicine, and economics require a more flexible scientific world view, the kind we statisticians are trained to understand.

1. באנגלית קוראים להם frequentists, כדי להבדיל אותם מהבייסיאניים, אבל "תדירותניים" מצלצל לי לא משהו.
2. מטילים מטבע לא בהכרח הוגנת 14 פעמים, והיא נוחתת על "עץ" 10 פעמים. האם ההסתברות שבשתי ההטלות הבאות היא תנחת על "עץ" גבוהה מחצי או קטנה?
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583811
1 שכיחותנים?
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583812
ואללה, יותר טוב.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583816
2 לא התרשמתי. התשובות הבייסיאנית והשכיחותניות קרובות מאד, ורק הפרמטרים נבחרו כך שיצא מעל ומתחת לחצי. הבדל משמעותי הרבה יותר הוא כאשר יצא רק "עץ", אבל אז ברור שהתשובה השכיחותנית (ליתר דיוק, ניראות מירבית) היא שגויה.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583817
לא התכוונתי שתתרשם מהבדל דרמטי בתוצאות, כי באמת אין. זה סתם קישור נחמד שמדגים יפה, ובלי הרבה מתמטיקה, את שתי הגישות.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583818
סוף סוף נמצא לי מחנה (:
כאשר צריך להעריך הסתברות על סמך m הצלחות מתוך n ניסיונות ואיני יודע מהי ההתפלגות אפריורי, אני משתמש ב:
p=(m+1)/(n+2)
שזה מה שמקבלים אם ממצעים על כל ההתפלגויות אפריורי האפשריות (=התפלגות אחידה) ומבצעים חישוב הדומה לזה שבקישור הראשון שלך.

יתרון אחד של הערכה זו לעומת זו השכיחותנית (p=m/n) הוא טיפולה האחיד בכל המקרים, כולל מקרי קצה, במיוחד כאשר מדובר במדגמים מזעריים.
יתרונה השני של הערכה בייסיאנית זו הוא (כאמור לעיל) שהיא נכונה. כלומר: אם נגריל סיכוי בין אחד לאפס ונטיל מטבע שנותן "עץ" עפ"י סיכוי זה, וננסה לנחש את הסיכוי עפ"י מספר ה"עצים", ההערכה הבייסיאנית תהיה מדוייקת יותר.
הנה קוד שבודק ומאשר זאת. ההפרשים אינם מרשימים - 6% במקרה זה, אבל הם מראים בבירור שההערכה השכיחותנית רחוקה יותר מן הסיכוי האמיתי מאשר זו הבייסיאנית.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583820
המשפט "אם נגריל סיכוי בין אחד לאפס ונטיל מטבע שנותן..." הוא בדיוק ההנחה הבייסיאנית הבסיסית. ברור שתחת ההנחה הזו, האנליזה הבייסיאנית היא הנכונה, וכך גם החיזויים שלה. השכיחותניים, מצד שני, לא מניחים שהסיכוי הנ"ל הוא משהו שמוגרל, אלא שהוא סתם קבוע לא ידוע.

אפופידס - אתה ואני כבר דיברנו פעם בדיוק על הבעיה הזו, וכבר אז אמרתי לך שאתה בחברה מצוינת, זו של לפלאס, שניסה לענות בדיוק בדרך הזו על השאלה "מהי ההסתברות שהשמש תזרח מחר בבוקר?" (ראו את Sunrise problem [Wikipedia]).
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583823
אכן דיברנו, אבל רק עכשיו התברר לי שאני מקבל עמלה שמנה על כל מומר חדש (:

תוכל להסביר לי מה ההבדל בין "לא ידוע" לבין "מוגרל"? הרי בפועל, כל עוד לא מערבים קוואנטים, תמיד מדובר על "לא ידוע" - כבדוגמת זריחת השמש.

אוסיף דוגמא נוספת: במסגרת מפגש ראשון עם תרבות חוצנית, אתה נשלח להתארח בפלנטה נביולון 8. בלילה הראשון שם, נודדת שנתך ובשעה 26:34 (היממה שם ארוכה יותר) אתה ניגש לחלון ומבחין בהבזק סגול חזק המציף את השמיים לכמה שניות ונעלם. אתה מגרד את פדחתך ולא מוצא לתופעה כל הסבר או מקור אפשרי שאתה יודע עליו וזה גם לא דומה למשהו הזכור לך. מאחר שכך, אתה אומר לעצמך "לפחות סטטיסטיקה אני יודע, אז אחשב מה הסיכוי להבזק דומה גם מחר". בהיותך שכיחותן, אתה מעריך שהסיכוי להבזק סגול גם מחר הוא 1. אבל אז מתעורר הבייסיאני המפוקח שבך ומעריך, עפ"י הנוסחא שבתגובתי הקודמת (תוצאת החישוב הזה) שהסיכוי להופעת ההבזק גם מחר הוא רק 2/3.

בשבוע בו אתה מבלה שם אתה ממשיך לחשב בשני אופנים את הסיכויי להישנות כל תופעה שאינה קשורה לשום דבר שאתה מכיר בה אתה נתקל (לעיתים יותר מפעם אחת), לטובת הארצן שיחליף אותך. בסופו של דבר מגיעים שניים לשהות של כמה שנים. לאחר שהם חוזרים לכד"א אתם נפגשים ואתה בודק את תיעודיהם הנוגעים לאירועים אותם תיעדת ומשווה את שכיחותם להערכות שנתתה. היכן תהיה השגיאה הממוצעת נמוכה יותר - בהערכות הבייסיאניות או באלו השכיחותניות?
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583825
מוגרל != מוגרל מהתפלגות אחידה.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583836
כמובן. טענתי היא שבהינתן שלא ידוע מהי ההתפלגות, ממצעים על כל ההתפלגויות האפשריות ומקבלים...התפלגות אחידה.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583845
מטבע יכול לפול גם על הצד הצר. למה אתה לא ממצע על כל ההתפלגויות על שלוש אפשרויות?
למה לקחת רק את האפשרויות "יהיה הבזק סגול" ו"לא יהיה הבזק סגול", והתעלמת מ"יהיה הבזק ירוק", ו"יהיה ריח של כרוב כבוש"?
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583879
אבל מה התפלגות ההתפלגויות ?
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 584069
השאלות שאתה שואל נוגעות לתשתית הלוגית/פילוסופית של תורת ההסתברות, שאני לא בקיא בה במיוחד. אנסה להגג קצת בכל זאת.

לגבי ההבדל בין "לא ידוע" ל"מוגרל" - אתה מן הסתם לא יודע מה אכלתי היום לארוחת הבוקר, אבל תסכים אתי שזה יהיה קצת מאולץ לחשוב על הגרלה בהקשר הזה. מהמלה "מוגרל" משתמע שקיימת איזושהי התפלגות ממנה מגרילים, ואולי הטענה המרכזית כנגד הגישה הבייסיאנית היא שכל ניסיון לנקוב במפורש בהתפלגות שכזו הוא בעייתי. למשל, אם מנסים לבחון האם מטבע נתונה, אמיתית לגמרי, היא הוגנת או לא, זה יהיה קצת מוזר להניח אפריורי (כלומר לפני שהטלנו אותה) התפלגות אחידה בין 0 ל-‏1 להסתברות שהיא מראה "עץ" (הרי ברור שההסתברות הזו היא באיזור 1/2); מצד שני, כל ניסיון לנקוב בהתפלגות אחרת יהיה שרירותי במידה רבה (זה מתקשר להבדל שבין informative prior לבין non-informative prior). כשהפרמטר שמנסים לאמוד לא מוגבל לתחום חסום שקצוותיו ידועים המצב יותר גרוע, כי קשה עוד יותר לחשוב על התפלגות אפריורית הגיונית: ההסתברות ל"עץ" בדוגמא הקודמת היתה בהכרח בין 0 ל-‏1, אבל כשמנסים לאמוד, למשל, דברים שקשורים לעוצמות של רעידות אדמה (שכידוע, אינן חסומות מלמעלה), אנחנו בבעיה. קיימת גישה סטטיסטית בשם Empirical Bayes שמנסה להתגבר על הבעיה הזו דרך שימוש בנתונים עצמם כדי להרכיב התפלגות אפריורית (נשמע אוקסימורון, נכון?), אבל אני לא מבין מספיק כדי לספר עליה עוד.

בנוגע לדוגמת החוצנים: אף סטטיסטיקאי - שכיחותן, בייסיאני, או מה שזה לא יהיה - לא ינסה להסיק או לחזות ממדגם של נתון אחד בלבד, ולכן אני מוחה בתוקף כנגד ההשמצה הפרועה "בהיותך שכיחותן, אתה מעריך שהסיכוי להבזק סגול גם מחר הוא 1". בכלל, יש תופעות שלא צריך להחיל עליהן אנליזה הסתברותית/סטטיסטית כי הן לא שייכות לתחום השיפוט של הדיסציפלינות האלה (זה מתקשר יפה להבדל בין העידן השני לשלישי בהיסטוריה של המחשבה האנושית אליבא דאפרון, כפי שציטטתי אותו בתגובה 583799). גם את האנליזה של לפלס על ההסתברות שהשמש תזרח מחר אף אחד לא לוקח היום ברצינות, וזה לא בגלל שהיום יודעים שהעולם קיים יותר מ-‏6000 שנה.

ולגבי השאלה האחרונה שלך, "היכן תהיה השגיאה הממוצעת נמוכה יותר - בהערכות הבייסיאניות או באלו השכיחותניות?", התשובה כמובן תלויה בהנחות המודל שלך על העולם. אם הן בייסיאניות, ואתה צודק בהתפלגויות האפריוריות שאתה מניח, אז כמובן שההערכות הבייסיאניות יהיו יותר מדויקות, ולהיפך. זו אולי נראית תשובה מתחמקת, אבל אם אתה מתכוון לערוך ניסוי אמיתי על כל מיני תופעות בחיים סביבנו, אז התוצאה שלו תהיה מאד תלויה בבחירה של התופעות שתחקור. בשאלות כמו "האם עצמים נופלים למעלה או למטה" הגישה הבייסיאנית תפסיד בנוק-אאוט, בשאלות כמו "האם גברים בממוצע גבוהים יותר מנשים" היא תפסיד בנקודות, ועל שאלות כמו "האם תרופה א' עובדת טוב יותר מתרופה ב"' ימשיכו הביוסטטיסטיקאים להתווכח. העניין שוב מתקשר לגבולות השיפוט של השיטה ההסתברותית/סטטיסטית.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 584242
הועלו כאן כמה עניינים הדורשים ממני חשיבה מחודשת. אחשוב ואשוב.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 585497
מדגם של נתון אחד בלבד עשוי להיות בעל משמעות רבה מאוד. למשל, פגשת אדם חדש. באינטרקציה הראשונה בינכם הוא פישל (פשלות הן עניין סטטיסטי) האם אמונך בו ישתנה לאחר המדגם היחיד?
בתיאוריה סטטיסטית, המצב מובהק (הא!) עוד יותר. מדגם של ניסוי אחד אינו שונה מהותית מכל מדגם אחר.
ספציפית, נניח שההבזק הסגול הופיע ברצף 10 פעמים. האם מוצדק להסיק שהסיכוי לו הוא 1?
השיטה הבייסיאנית מובילה לעיתים לתוצאות שנראות מוטעות, או נחותות, כמו למשל, שהשמש לא תזרח מחר. זכור, כי מבחינה פיזיקלית, יגיע יום כזה. אם הבייסיאנים היו יכולים לשרוד עד אז, הם היו צוחקים אחרונים.

לגבי השגיאה הממוצעת - בהנתן בדיקה של תופעות ש*באמת* אין עליהן מידע מוקדם, השיטה הבייסיאנית תנצח בנוק אאוט מרהיב. השכיחתן שהגיע בלילה ימדוד כל דקה וימהר להכריז שתמיד יהיה חושך, וזה שיגיע בחורף יחליט שתמיד קר.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 583841
מצחיק שעושים ניסויים אמפיריים כדי להוכיח התפלגות סטטיסטית, מצחיק עוד יותר שזה עובד, SPOOKY...
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582594
> סף ה-‏5% אומר שב-‏5% מהמקרים בהם נדחתה השערת האפס היה מדובר בתופעה אקראית, בלי קשר אפילו להסתברות האפריורית

זה פשוט לא נכון.
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582614
ההנחה שמתפרסמים רק מאמרים שדוחים את השערת האפס אינו נכונה, למיטב הבנתי - ברגע שמתפרסם מאמר שדוחה את השערת האפס של משהו, יתפרסמו גם שחזורים של אותו מחקר שמפריכים את הדחיה הזו - מה שעוד יותר מסבך את החישוב גם בגלל פרמטרים סובייקטיביים של עריכה - מן הסתם מאמר כזה שדוחה את השערת האפס עם p-value של 0.06 לא יתפרסם כהפרכה, אבל מאמר עם 0.5 דווקא כן (בתנאי שה-n שלו מספיק גבוה, כמובן).
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582646
הנסיון להפריך טענה ע"י הצגת p-value דוגמת 0.5 זה בדיוק מה שהזהרתי מפניו ב תגובה 581741 זה פשוט לא נכון (ודי נפוץ).
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582738
רגע, אם עשיתי מחקר עם n גבוה יותר מהמקורי, שמשחזר במדויק את המתודולוגיה ומצאתי שההבדל בין הקבוצות הוא נמוך מאוד והמובהקות היא 0.5 - זו לא הפרכה של המחקר המקורי? למה לא?
מחקר (לא) חדש על מחקרים חדשים שמגלים כי... מגלה כי... 582744
לעיתים קרובות לא ניתן לשחזר בדיוק את המתודולוגיה המקורית, ובטענות כאלו צריך מאוד להיזהר.

מכל מקום, זה לא "נכון" סטטיסטית לקבל השערה על סמך חוסר היכולת לדחות את האלטרנטיבה. אם אתה רוצה לדחות מסקנה של מישהו, תראה שהמסקנה לא סבירה (ב p קטן) לעומת השערה אחרת (הקונצנזוס הקודם, או השערה חלופית) שתיקח כאלטרנטיבה. זה יכול להיות קשה כשהמסקנה היא לא כמותית. למשל את הטענה "פלאפונים גורמים לסרטן" אפשר לשלול סטטיסטית‏1 רק אם מתקיים "פלאפונים מונעים סרטן" (מה שכנראה נכון), כי לגבי מצב בו פלאפונים ניטרליים לגבי סרטן, תמיד ניתן יהיה לטעון שהמדגם היה קטן מדי ולא עבר מספיק זמן. לעומת זאת, אם מחקר מראה שפלאפונים מעלים את השכיחות לסרטן מסויים בלפחות חמישה אחוזים, את הטענה הזו כבר ניתן לשלול (מול השערה אלטרנטיבית של 0%) בכל רמת וודאות.

1 וכאן רק אזכיר את מה שיובל כבר כתב, לא כל מה שמובהק יש לו חשיבות מעשית.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים