בתשובה לגלעד ברזילי, 28/09/02 14:47
אמינות סטטיסטית? 94651
אני לא בטוחה שברור לי המושג. אשמח להסבר.
אמינות סטטיסטית? 94657
מה שכיוונתי אליו, ולא דייקתי (להסבר מדוייק קראי את עוזי, אבל לאט), הוא כזה:
נאמר שיש לך 100 חומרים, 50 מסוג A ו50 מסוג B. עכשיו את מחליטה איזה חומר הוא מה ע"ס זריקת מטבע. אחרי שזרקת, התוצאות שלך (בממוצע) יהיו:

25 חומרים סוג A שזיהית כסוג A
25 חומרים סוג A שזיהית כסוג B
25 חומרים סוג B שזיהית כסוג A
25 חומרים סוג B שזיהית כסוג B

עכשיו נאמר שאני רוצה לבנות מדד שאומר לי מה האמינות של הטלת המטבע. אני מחליט לתת נקודה על כל זיהוי נכון, ולחסר נקודה על זיהו שגוי. מדד כזה, במקרה הזה, יתן לי אפס נקודות אמינות עבור הטלת המטבע (זיהית נכון 50 וטעית ב50), וזאת כי אין קשר בין הטלת המטבע והחומר.
אם היה קשר, נאמר שהתשמשנו במבחן אחר, יותר אמין, אז היו לי פחות false positives וגם פחות false negatives, והיית מקבלת מספר חיובי של נקודות. (או שלילי, זה לא משנה. הרי מבחן שתמיד טועה בזיהוי חומר B למעשה מזהה לי אותו... הערך המוחלט חשוב). מבחן של 100 או 100- נקודות במקרה זה, יהיה מבחן אמין להבדלה בין החומרים.

(זה הסבר אינטואיטיבי. בדרך כלל שמדברים על אמינות סטטיסטית מדברים על עוד דברים, אבל אז ההסבר צריך לכלול את המילה coefficient, וגם אני הייתי מתחיל להסתבך)
אמינות סטטיסטית? 94663
כן, למרות שכתבתי משהו שונה לגמרי, התכוונתי לכל מה שעוזי אמר מתחתי. (כן, בטח...)
אמינות סטטיסטית? 94667
אני רוצה לקשר את ההסבר (הנכון) של גלעד להסבר שנתתי למטה לאותה שאלה (תגובה תגובה 94662 ).

מטבע רגיל הוא "נביא של 0%" (כי הוא תמיד עונה תשובה אקראית). נביא-אמת הוא "נביא של 100%" (כי הוא תמיד עונה את התשובה הנכונה.
אפשר גם לדמיין לעצמנו "נביא של 40%", ש- 40% מהזמן נותן תשובה אמיתית, ובשאר הזמן כדור הבדולח שלו מתערפל, והוא עונה תשובה אקראית.

כעת, מגיע אלינו אדם שטוען ליכולות נבואה (בפתיל הזה, מדובר נניח בשיטת ניבוי רעילות מסויימת). ערכנו ניסוי, והוא ענה נכונה על 70 שאלות כן/לא מתוך מאה (כאשר התשובות הנכונות התפלגו 50/50).

במקרה, זוהי התוצאה שנצפה לקבל מנביא-של-‏40% (כי הוא יענה נכון על 40 שאלות, ויקלע במקרה ל- 30 משאר הששים).

יש כמה השערות מחקר שאנחנו עשויים לרצות לבדוק. למשל "זהו נביא של 40%", או "זהו נביא של יותר מ- 20%", או "הנביא הזה עדיף על הטלת מטבע".
בכל המקרים ה*סטטיסטי* יכול להיות, בדומה למה שגלעד הציע, מספר ההצלחות. ההתפלגות שלו היא (גם כאן) התפלגות נורמלית, שהממוצע שלה תלוי בהשערה שאנחנו מנסים להוכיח.

לא בדקתי את המספרים, אבל ברור שאת ההשערה הראשונה (נביא של 40%) לא נצליח להוכיח, כי נביא-של-‏35%-שהיה-לו-מזל יכול להצליח כמו נביא-של-‏40%, ולכן משיעור הצלחה של 40% לא ניתן להוכיח נביאות-של-‏40%.

את ההשערה השניה אפשר יהיה כנראה להוכיח (כי נביאים של 20% אמורים לקבל רק 60 תשובות נכונות, או קצת יותר, אבל לא 70). מעניין לשים לב שאם גודל המדגם (מספר השאלות, 100 במקרה שלנו) היה קטן יותר, אולי לא היינו משתכנעים שההשערה השניה נכונה (במדגם של 20 שאלות, נביא-של-‏40% אמור להצליח 14 פעם, ונביא-של-‏20%, רק 12; אבל גם הוא יכול להצליח 14 פעמים ביום טוב...). לעומת זאת במדגם ממש גדול (40000 שאלות למשל), היינו מן-הסתם משתכנעים אפילו שמדובר בנביא-של-לפחות-‏39%.

את ההשערה השלישית (נביא-עדיף-ממטבע) נוכל מן הסתם להוכיח אפילו אם *באמת* היה מדובר רק בנביא-של-‏20%.
אמינות סטטיסטית? 94662
להן הסבר (קצר) על המבנה המקובל של מחקר, הכולל ניתוח סטטיסטי.

החוקר מעלה השערה (למשל: הציונים של בנים ובנות בחשבון שונים אלו מאלו), מברר לעצמו מה יפריך את ההשערה (אם הם מצליחים במדה שווה), וקורא להשערה הנגדית הזאת H0. כעת החוקר משנס מותניו ומנסה *להפריך את H0* (זה הרי יוכיח שהוא צדק מלכתחילה). ‏1

החוקר שולח מאסטרנטים לאסוף נתונים (30 ציונים של בנים, 30 ציונים של בנות).
כעת בונים "סטטיסטי", שהוא מספר המחושב מתוך הנתונים הגולמיים (בדוגמא, זה יהיה ההפרש בין ממוצעי הציונים, מחולק בסטיית התקן המשותפת). במקביל (או מראש), מוצאים את ההתפלגות של הסטטיסטי בהנחת ההשערה H0 (בדוגמא, ההתפלגות היא זו המכונה "התפלגות נורמלית" ‏2).

(מהי ההתפלגות הזאת, בכלל? חישוב ההתפלגות שקול לעריכה וירטואלית של המון ניסויים מאותו סוג, שבהם ההשערה H0 *נכונה*, למשל איסוף של 60 ציונים וחלוקתם לקבוצות לפי שם המשפחה ולא לפי המין. מתוך מליון ניסויים כאלה, 39800 יהיו בין 0 ל- 0.1; 39400 יהיו בין 0.1 ל- 0.2; ... 380 יפלו בין 3 ל- 3.1, וכן הלאה) ‏3.

השלב האחרון הוא לחפש את הציון שקיבלנו (בפועל, במחקר הנוכחי) על עקומת ההתפלגות (שמצאנו בספר). למשל, נניח שקיבלנו את המספר 2.05. לפי ההתפלגות שבספר, מספר כזה יופיע באקראי (כזכור, בהנחה ש- H0 היא ההשערה הנכונה) בהסתברות 4%. החוקר די מרוצה - המשמעות של תוצאה כזו היא שאם באמת H0 נכונה (והחוקר מקווה שלא כך), המספר 2.05 יופיע רק בסיכוי של 4%. אבל במציאות, בניסוי שהחוקר ערך, הוא *באמת* קיבל את המספר הזה - אז נראה לו לא סביר להניח ש- H0 נכונה (כי אחרת דברים כך-כך לא סבירים כמו 2.05 לא היו קורים דוקא לו).

לעומת זאת, אם החוקר היה מקבל שהסטטיסטי הוא 0.9, דבר שהסתברותו 36%, זו לא תהיה עדות משכנעת ש- H0 שגויה, שהרי דברים בעלי סיכוי גבוה כל-כך קורים לנו כל הזמן.

מקובל במדעי החברה לדרוש שההסתברות לקבל את הסטטיסטי המסוים שהתקבל בפועל, תהיה מתחת 5%. אם זה כך, ההשערה H0 נחשבת למופרכת (ולכן השערת הנגד שממנה יצאנו - נכונה). המספר הזה (5%) נקרא "המובהקות הססטיסטית של המחקר".

הערה: אם חוזרים על ניסוי הרבה פעמים, זה דוקא *כן* סביר שיקרו דברים "לא סבירים" (שהסתברותם למשל 5%). בפרט, אחת מכל 20 טענות ש"הוכחו סטטיסטית" (ברמת מובהקות של 5%) צריכה להיות שגויה...
בתחומים מסויימים במדעי הטבע מקובל לדרוש רמת מובהקות של 1%, מה שמצד אחד מגדיל את האמינות של התוצאות, ומצד שני שולח יותר חוקרים מאוכזבים לתכנן את הפרוייקט הבא.

אם משהו לא ברור - נא להצביע.

1 למעשה, לשלב הזה קודם משהו בסיסי יותר, שבו החוקר מנסח את המודל שלו (בדוגמא: שציוני בנים וציוני בנות הם בעלי התפלגות נורמלית עם אותה סטיית תקן).
2 איך יודעים מה ההתפלגות? זו שאלה שאני *באמת* אשמח לענות עליה - אבל מומלץ לשאול רק אם את באמת רוצה לדעת...
3 מאיפה לוקחים את המספרים האלה? אותה תשובה כמו ‏2.
אמינות סטטיסטית? 94665
בתור מי שבא מעולם של הסתברות ולא מעולם של סטטיסטיקה, להבנתי, כשהחוקר מפריך את H0 הוא בעצם אומר שהניסויים (בדיקת הציון של הבנים והבנות) הם לא i.i.d (*), וזה מה שרצינו להראות.
אבל, ייתכן שH0 נכונה ו*עדיין* הניסויים הם לא i.i.d, פשוט כי המדגם קטן מידי. ולמיטב זכרוני, מה שמבטיח התפלגות גאוסיינית זה WLLN (**), שבעצמו מתקיים רק בשאיפה לאינסוף, לא?

(*) Indipendent Identical Distribution
(**) Weak Law of Large Numbers
אמינות סטטיסטית? 94671
חלילה לחוקר מלהוכיח שהדגימות שלו אינן IID...
בדוגמא שלי המודל הוא ששתי האוכלוסיות מתפלגות נורמלית, ו-H0 היא ההשערה שלשתי האוכלוסיות יש אותה תוחלת. הפרכת ההשערה מראה שזה לא כך, אבל עדיין (יש לקוות) הדגימות בכל אוכלוסיה *בפני עצמה* הן IID.

לעניין גודל המדגם - כל שתי דגימות אמורות להיות IID (שיטת הדגימה אמורה להבטיח זאת). נכון שגם בהנחה הזו, הסטטיסטי יתפלג נורמלית רק אם האוכלוסיות באמת מתפלגות נורמלית (ואז גודל המדגם *לא משנה*), או שהדגימה גדולה מספיק.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים