בתשובה לסמיילי, 24/05/06 9:37
מדגם אקראי != מגדם מייצג 387119
1) אחת הברירות שהעמדת בפני היתה מוטעית:

..."הראשון מבצע סקר אקראי טהור, בוחר באופן אקראי 500 אנשים מספר הטלפונים ושואל אותם"...

בחירת אנשים מספר טלפונים אינה אקראית טהורה, ואת זה בדיוק ממחישה הדוגמה בלינק - שם נדגמה אוכלוסיית ארה"ב ע"י ספר הטלפונים. מכיוון שהיה רוב מוחץ לרפובליקאים בקרב בעלי האמצעים שהיה באפשרותם אז (1936) להחזיק טלפון, נחזה בטעות ניצחון לרפובליקאים. זה וודאי אינו מדגם אקראי טהור של האוכלוסיה.

אם המכון הראשון היה מציע לי סקר אקראי טהור - למשל הגרלה מתוך מרשם האוכלוסין של 500 איש מתוך בני ה18 ומעלה, ואז יצירת קשר איתם, אני חושב שהייתי מעדיף זאת על פני מדגם מייצג שמבוסס על הערכה של התפלגות האוכלוסיה לקבוצות.

מכיוון שהרי אין למכון השני ידיעה מדוייקת של כמות הדתיים באוכלוסיה, הוא מתבסס מן הסתם על סקר קודם שמדד את כמות הדתיים, ולכן מבצע למעשה סקר על סקר, מה שיחליש את התוצאות, ואז לא בטוח שהן יהיו טובות יותר ממדגם אקראי טהור.

2) במקרה של סקר בחירות, השיטה שהצעת מוצאת חן בעיני יותר, מכיוון שהמדגם שלך מייצג את האוכלוסיה על פי אירוע (הבחירות הקודמות) שאתה כן יודע את ההתפלגות המדוייקת שלו באוכלוסיה כולה.

השיטה עצמה יפה, אך קשה לי להאמין כי היא מיושמת במדויק במציאות הישראלית.

אני מבין שאתה מעורב בתעשיית הסקרים. האם באמת המכונים מתקשרים עד שיש להם 22 איש מצביעי יהדות התורה לשעבר בסקר של ה500?

נראה לי שזאת משימה מאוד מאוד ארוכה ומייגעת לאור רמת המוכנות לענות לסקרים באוכלוסיה כזאת, וקל לי יותר להאמין שהסוקרים ממציאים.

במקרה של יהדות התורה מכיוון שלא צפויים שינויים גדולים גם ככה, אז המכונים פוגעים, אבל במקרה של המפלגות הערביות למשל אז הרבה פעמים הם טועים. שוב, לפי השיטה שתיארת, בכל סקר צריכים להיות כ40 איש שהצביעו בבחירות האחרונות למפלגה ערבית.
האם יש כ10% סוקרים המדברים ערבית בכל מכון סקרים?

3) שאלה:
נניח שיש לך מדגם מייצג לפי אופן ההצבעה בבחירות האחרונות, מה בעצם השגיאה הסטטיסטית שלך עכשיו?

4) לגבי דייקנות והצלחת הסוקרים, אני חולק עליך:

דווקא ב96, לא הייתה שום בעיה עם התחזית , מכיוון שתוצאות האמת היו עמוק בתוך השגיאה הסטטיסטית.

בכלל, אין לי שום בעיה עם סקרים שנערכים אחרי הבחירות, ובמיוחד כאלה שנערכים בקלפיות עצמן. שם אין כמעט שום הטיה מההטיות הרבות הקיימות במשאלים טלפוניים, כמות הנדגמים עצומה, וגם אז השגיאה הסטטיסטית לא קטנה בכלל (ראה ההבדלים בין ערוץ 1, 2 ו10).

הסקרים המתפרסמים לפני הבחירות הם עם שגיאות גדולות מאוד ונכשלו לדוגמה במקרים הבאים:

א)סקרים שניבאו לפרס ניצחון מוחץ על עמיר פרץ, עד יום הבחירות.
ב) שגיאה גדולה הרבה מעבר לשגיאה הסטטיסטית בין מספר המנדטים שניבאו לקדימה לבין מספרם בפועל
ג) מפלגת הגימלאים
ד) המפלגות הערביות קיבלו לאורך 115 הסקרים ב3 החודשים שלפני הבחירות בעקביות 8 מנדטים. בפועל - 10. גם שם זו אוכלוסיה עם רמת נאמנות יחסית גבוהה. מדוע המדגם לא ייצג אותם כראוי?
ה) הליכוד קיבל פחות מנדטים מכמעט כל סקר שנערך לפני הבחירות.

בכל אחת מהדוגמאות הללו, הייתה טעות בין הסקרים למציאות של כ20% ומעלה (אינסוף במקרה של מפלגת הגימלאים). זה נראה לי כמו אחוזים משמעותיים.

אגב, חלק מהטענה שלי למכוני הסקרים היא שלגבי מפלגות קטנות השגיאה הסטטיסטית חייבת להיות לפחות זה, ולכן הטענה של 4% שגיאה היא הטעייה. הם מתכוונים 4% מכלל האוכלוסיה, אך נותנים לכולם להבין שזאת השגיאה שלהם לגבי מספר המנדטים של כל מפלגה. מפלגה שמקבלת 8% מהקולות, אם יש שגיאה של 4% זו למעשה שגיאה של 50% למפלגה הקטנה.

אני לא טוען שאפשר בהכרח לעשות סקרים הרבה יותר מדוייקים, ובטח שאין לי אישית כרגע כוונה לעשות כן. אני כן טוען שמכוני הסקרים בארץ (לפחות רובם) לוקים בחפיפניקיות עד כדי שקר.
הסוקרים מתיימרים לשגיאות קטנות מהאפשרי, ובפועל טועים יותר מהשגיאה הסטטיסטית הצפויה.

זהו.
מדגם אקראי != מגדם מייצג 387131
1)
א. שום בחירה לא יכולה להיות אקראית טהורה (אם, למשל, תגריל באופן אקראי מספר הטלפונים, הגדלת את הסיכוי של בעלי המספר הכפול, והרדת את הסיכוי של חסרי הטלפון/ בעלי הטלפון החסוי). זה ההבדל בין מחקר במדעי החברה למחקר במדעי הטבע.

ב. יש בישראל גוף שנקרא "הלשכה המרכזית לסטטיסטיקה" (http://www.cbs.gov.il/) שמפרסם מידי שנה הרבה נתונים לפיהם אפשר לנרמל את המדגם.

ג. העובדה שמרבית (למעשה, כל) החברות במשק (הישראלי והעולמי) בוחרות כן להשתמש במכון סקרים שמנרמל את המדגם יותר מאומרת דרשני.

2.
א. אני לא מעורב בתעשיית הסקרים, מעבר להיותי נסקר מפעם לפעם (כמו רובנו, אני מניח). שמתי לב שהשאלה הזאת (לאיזה מפלגה הצבעת בבחירות האחרונות) חוזרת (בצורה כזאת או אחרת) תמיד כשמדובר בסקר פוליטי.

ב. המשימה באמת ארוכה ומייגעת, אבל בשביל זה משלמים להם הרבה כסף. קשה לי לראות אותם ממש מרמים ביודעין, לא מדובר בסתם כתבה לעיתון, מדובר במוניטין שלהם ובאוכל של הילדים שלהם. (מצד שני, אחרי שראיתי את "כל אנשי הקמפיין", כנראה שבישראל מוניטין טוב והגון זה לא בהכרח הדרך לעסק מצליח).

ג. הרבה מאד סקרים (בעיקר בתחילת מערכת הבחירות) פשוט לא סוקרים את האוכלוסיה הערבית, והמכונים סוקרים אותה בנפרד בסקרים אחרים. צריך לשים לב לאותיות הקטנות.

3. נראה לי שאותו הדבר, 5% ‏1.

4.
א. סקרים פנים מפלגתיים הם בעיה גדולה מאד לסוקרים, גם בגלל אחוז ההצבעה וגם בגלל הרכב האוכלוסיה הלא ידוע. במקרה של פרץ היתה בנוסף מגמה שהתחזקה אחרי הפרישה של וילנאי.

ב. זה תמיד יהיה.

ג. הגמלאים זה מקרה מובהק של מגמה, שהסקרים דווקא הצליחו לחזות (לא את הגודל שלה, אבל את הכיוון), ולא רק לחזות אלא אפילו לנפח.

ד. אצל הערבים יש כמה בעיות, לא סוקרים אותם באותה מידה כמו היהודים, רבים מהם החרימו את הבחירות האחרונות, רבים מהם גרים במקומות ללא תשתית. אבל צריך לזכור שההבדל בין המנדט הערבי העשירי לבין המנדט ה20 לעבודה היה כמה מאות קולות. זה דבר שאי אפשר לחזות.

ה. את התוצאה של הליכוד אני עדיין לא מבין. אולי זה מגמה כלשהי, אולי בגלל הפיצול של הליכוד היה קשה לנרמל את המצביעים של הליכוד, לא יודע.

אני לא חושב שמכוני הסקרים לוקים בחפיפניקיות, אבל מה שכן, הסיקור של הסקרים לוקה בחפיפניקיות.

1 אולי כדאי שתשאל את יוסי לוי, ההוא שכתב את http://www.notes.co.il/joseph/19235.asp
מדגם אקראי != מגדם מייצג 387196
2) לא צריך לחפש 22 נציגים למגזר מתוך 500 נסקרים. מספיק לחפש כמות מינימלית כלשהי של נציגים, ולתת להם משקל כאילו היו 22 נסקרים, בשקלול התוצאות הסופי.

לגבי המפלגות הערביות, הסיבה העיקרית לטעות הייתה אחוז ההצבעה בקרב האוכלוסיה היהודית, שירד חזק, בעוד שאחוז ההצבעה באוכלוסיה הערבית לא ירד באופן משמעותי לעומת הבחירות הקודמות. המשמעות היא שאותו מספר קולות למפלגות הערביות התרגם להרבה יותר מנדטים עבורן.
מדגם אקראי != מגדם מייצג 418774
2) שוב חזרנו לאותה בעייה שהצגתי בהתחלה. אם מחפשים כמות מינימלית ומשקללים כאילו היו 22 נסקרים, הרי שאצפה להגדלה משמעותית של השגיאה הסטטיסטית, בעוד דווקא במגזרים אלה השונות בין הסקרים שנערכו קטנה בהרבה מהמצופה אפילו בלי השקלול הזה.
מדגם אקראי != מגדם מייצג 418787
אם בקרב אוכלוסיה מסויימת יש אחוז הצבעה מאוד גבוה למפלגה אחת, הטעות הסטטיסטית הפוטנציאלית תהיה מאוד קטנה.
מדגם אקראי != מגדם מייצג 418799
בוא ניקח את זה לקיצוניות. נאמר שעל פי המדגם המייצג בבחירות האחרונות הצביעו 22 מכל 500 ליהדות התורה. עפ"י שיטתך, נגיד שמצאתי 3 כאלה שהצביעו כך, ואני שואל אותם למי יצביעו בבחירות הבאות. במקרה הסביר יותר יענו שלושתם שגם הפעם הם יעשו זאת.

אם תיקח את התוצאה ותשקלל כאילו היו 22. בצורה זו לעולם לא תמצא בסקר שכוחה של מפלגה זו התגבר (אלא אם מצביעי מפלגות אחרות ישנו את עורם).

מה שקורה לדעתי עם מפלגות כמו יהדות התורה הוא שכוחן עולה לינארית כמו חלקם היחסי של החרדים באוכלוסיה הכללית - דבר שלא תראה בסקר שלך.

מעבר לזאת, אם בכל זאת אחד מהשלושה יטען שהוא חזר בינתיים בשאלה ויצביע למפלגה אחרת, כוחה של יהדות התורה עפ"י הסקר יפול בשליש. שוב אני חוזר לטענתי המקורית - לאורך 100 סקרים אמורים להיות מקרים כאלה, אך הפלא ופלא, הם אינם מופיעים בתוצאות הסקרים.
מדגם אקראי != מגדם מייצג 418802
מדוע? אם הסקרים מניחים קשר סוציולוגי בין השתייכות לקבוצות מסויימות לבין הצבעה, כל שהם צריכים לעשות הוא לדגום בצורה כזו או אחרת את אותה אוכלוסיה, ולראות מה התפלגות ההצבעה בהן - אחר כך, מספיק לראות מה קורה מבחינה מספרית בקבוצה הזו של האוכלוסיה.

וכן, סוקרים מתקנים את הסקרים שלהם. אתה לא מקבל את המידע הגולמי, אלא מידע מתוקן על פי ידע קודם. זה מפתיע אותך?
מדגם אקראי != מגדם מייצג 418981
האמת, כן, די מפתיע. כשהם מציגים את הסקרים בעיתון הם לא מספרים על איך הם ביצעו את הסקר ואילו תיקונים הם ערכו.

ובמבחן התוצאה (שעקרונית אני לא אוהב אותו אבל נעזוב את זה), הם אכן נכשלים שוב ושוב מעבר לרמת השגיאה שהם עצמם מגדירים, אז מה שווה ההגדרה שלהם.

כשאני חושב על זה, מכון סקרים צריך להשוות את סקריו מהעבר לתוצאות האמת ולהגדיר מעתה שזאת רמת השגיאה שלו (במידה והוא ממשיך להשתמש באותן טכניקות). כל הטענות של 4% שגיאה הן פשוט לא רלוונטיות בעיניי.
מדגם אקראי != מגדם מייצג 418990
אני לא חושב שהם נכשלים שוב ושוב. הסקר היחיד שאפשר להגיד עליו בבטחון שהוא ''נכשל'', הוא המדגם ביום הבחירות. עליו באמת אפשר להגיד אם הוא קרוב או לא לתוצאות האמת. כל סקר שנערך יום, יומיים או שבועיים לפני הבחירות משקף רק את התוצאות ''אם הבחירות היו נערכות היום'', ומסתמך על ההנחה שמי שעונה שהוא מתכוון להצביע באמת ילך להצביע. הטעות היא להסתכל על הסקרים באופן בדיד, ולא לחפש את הטרנדים שהם משקפים - זה מה שהכי חשוב שם, בסופו של דבר.
מדגם אקראי != מגדם מייצג 419175
אם התיאוריה שלי נכונה והשגיאה הסטטיסטית של הסקרים גדולה ממה שהם טוענים, אז קצת בעייתי להסתכל על הטרנדים, מכיוון שאז קשה לשייך את התנודות לטרנד אמיתי או לרעש.

זה מביא אותי לנקודה אחרת, שהיא עד כמה הסקרים הללו משפיעים על הבוחרים עצמם. בוא ניקח מצב היפותטי שבו הסוקרים היו משקרים, ולמרות שבסקרים שלהם קדימה היתה צריכה לקבל כ30 מנדטים, הם היו מפרסמים כאילו לקדימה 0 מנדטים. יש לי תחושה עזה שזה היה גורם לכך שהתוצאה האמיתית היתה אפס מנדטים. (יש בזה גם הגיון, אתה רוצה/לא רוצה להצביע למפלגה הגדולה וכו').

מכיוון שלטעמי לסקרים יש השפעה גדולה על ההצבעה עצמה, אני חושב שעל עורכיהם להיות הוגנים, להקפיד על כללי אתיקה מחמירים, ולפרסם בין השאר את שיעור השגיאה האמיתי שלהם.

אגב, אולי אפילו צריך לאסור פרסום סקרים בחודש של לפני הבחירות, לא יודע.
מדגם אקראי != מגדם מייצג 419201
לאורך זמן, אפשר לזהות מגמות (המילה ברחה לי בתגובה הקודמת) - זה לא נכון לעשות מה שהעיתונים עושים פעמים רבות, ולהשוות את התוצאות החדשות לתוצאות של שבוע שעבר וזהו - כי השינויים הללו הם בד''כ בטווח הטעות הסטטיסטית. אבל אם מסתכלים על תוצאות לאורך חודש, אפשר לפעמים לזהות מגמות.

וכן, לסקרים יש השפעה על הבוחרים. אני לא חושב שאפשר, במדינה דמוקרטית, לאסור על פרסום סקרים בתקשורת. ניסו, אגב, אבל אני לא מאמין שזה יעמוד במבחן בג''צ אם אי פעם יצליחו להעביר חוק כזה.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים