בתשובה לאייל מזדמן, 29/08/03 19:12
מאמר מאוד חשוב אבל 167724
תגובה 167221 עונה על שאלתך, אבל הייתי מחדד עוד טיפה. גם הטענה "הסיכוי שהמדגם טועה ביותר מ-‏3% נמוך מ-‏5%" מניחה הנחות שונות על ההתפלגות א-פריורי, אי-תלות ועוד דברים שעוזי הזכיר. ההתאמה של הנחות אלו למציאות, לעניות דעתי, היא נמוכה עד גבה-בינונית.

כלומר: ניקח את 100 הסקרים הטלפוניים האחרונים שנעשו בארץ, ונדמיין שעבור כל אחד מהם נערך במקביל משאל על כלל האוכלוסייה והתוצאה האמיתית ידועה. בכמה מהסקרים צדק הסוקר, ותחזיתו זהה לתוצאה האמיתית עד כדי "טעות הדגימה המירבית"? הניחוש שלי: הרבה פחות מ-‏95 (שזו ה-"תחזית המתמטית" בתנאים אידאליים). ניחוש נועז יותר: פחות מ-‏50 מהסקרים "נכונים" במובן זה.

זו טענה אינטואיטיבית לגמרי, ואין דרך סבירה לאשר או להפריך אותה. הנה אחד הנימוקים התומכים שלי: את האוכלוסייה היהודית‏1 בישראל אפשר לפלח, נניח, עפ"י דתיים/חילוניים, עשירים/עניים, צעירים/זקנים ועירוניים/שאינם עירוניים. בהרבה מאוד סקרים יש הטייה משמעותית של התוצאה בכל אחד מהפלחים הללו, ואף בכל הצירופים שלהם. יש 16 צירופים אפשריים, ולכן ב-‏504 נדגמים (אם נבחרו היטב!) מיוצגים כ-‏32 איש מכל פלח. זה ממש מעט, אפילו ביחס לגודל הפלח, וגורר טעות דגימה רחבה יותר מזו המחושבת עפ"י ההנחה שהנסקרים הם הומוגניים.

1 ברוב הסקרים שראיתי מתייחסים למדגם של האוכלוסייה היהודית הבוגרת בארץ.
אם כבר פילוח 167749
כשמפלחים את האוכלוסיה לתת-קבוצות (כלומר, דוגמים כל תת-קבוצה בפני עצמה, ומשקללים את התוצאות), לא כדאי לדגום מספר שווה של נשאלים מכל פלח.
אם מספר הנדגמים פרופוציונלי לגודל הפלח, השונות *קטנה* יותר מאשר ללא פילוח.
(למעשה, החלוקה האופטימלית של מספר הדגימות תהיה באופן פרופורציוני לגודל כפול (sqrt(p*q של כל פלח).
אם כבר פילוח 168330
1. תודה על ההסבר לגבי טעות דגימה - דווקא לי נראה שהצורה שמשתמשים בביטוי בעיתון הוא די מדוייק. אם הם חישבו נכון אז בדוגמה של אלון מתגובה 166777 יש סיכוי של 95% שמיס פיגי אכן תנצח.

2. האם יש מודלים מתמטיים שמנסים להעריך את הטעות בצורה טובה יותר מאשר הצורה הנאיבית שהיא ההנחה שהמדגם הוא בלתי תלוי? האם משתמשים בהם? אם לא, למה?

לי קרה פעם שמכר רופא שערך איזשהו מחקר, שאל אותי שאלות במסגרת המחקר וביקש גם את הטלפונים של כל בני משפחתי.
כשסיפרתי על כך לידידה שלומדת מדעי החברה, היא אמרה שזה בסדר, מאחר ובטח הייתי רק שייך לקבוצת הביקורת, שבטח קשר משפחתי לא משפיע על נושא המחקר, וממילא אפשר "לפצות" על התלות בכך שהוא יקח מדגם גדול יותר.
לא נראה שהיא היתה מודעת לכך שהגדלת המדגם יכולה *לפגוע* בדיוק שלו. אני מניח שהיא לא דוגמא מייצגת, אבל בכל זאת, זה הטריד אותי.
אם כבר פילוח 168340
ואולי הוא דווקא חקר את הקשר המשפחתי של הבעיה שלו? היא ביקש את הטלפונים של כל בני המשפחה שלך - יכול להיות שהוא חקר *משפחות* ולא אנשים בודדים.
אם כבר פילוח 168417
הוא היה מוכן לקבל כל טלפון שאני אתן לו: אחים, גיסים, חברים, בני דודים - העיקר שיהיו מוכנים לענות על השאלות.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים