איך לתפוס שקרנים בעזרת סטטיסטיקה 386373
מסתבר שאפשר לא רק לשקר בעזרת סטטיסטיקה, אלא גם לתפוס שקרנים בעזרתה.

עוד לפני שנערכו הבחירות האחרונות, הייתה לי תחושה שמשהו מסריח בסקרים. לא התעצלתי, והחלטתי לבדוק אותם.
ניתחתי את תוצאות כל הסקרים שהתפרסמו בעיתונות ב3 החודשים שלפני הבחירות‏1, וגיליתי תופעה מעניינת, שמעידה לדעתי על אמינותם הנמוכה של הסוקרים:

סטיית התקן בין תוצאות סקרים שונים עבור מפלגות קטנות, ובייחוד עבור מפלגה שקשה להגיע לבוחריה, כמו מפלגת יהדות התורה, הייתה קטנה בהרבה מהשגיאה הסטטיסטית שהיתה צפויה להיות עבור מספר הסקרים וגודל המדגמים.

אנסה להסביר את זה קצת יותר טוב:
נניח שבאוכלוסיה הכוללת, יש ליהדות התורה באמת 6 מנדטים. כאשר שואלים 500 איש למי יצביעו, גם אם נניח שאין שום הטיות, אז לפעמים יצא באמת מהסקר שיש להם 6, אבל לפעמים יצא גם 5 או 4, ולפעמים 7 או 8. זו התפלגות סטטיסטית פשוטה (בינומית) ואפשר לחשב - עבור 100 סקרים – בכמה מתוכם יצא בדיוק 6 מנדטים, בכמה 5 וכן הלאה. לפי החישוב שעשיתי, רק כ 33% מהסקרים צריכים לתת בדיוק 6 מנדטים! אם אסכם את החישוב אז:
33% מהסקרים צריכים לתת 6 מנדטים
44% יתנו או 5 או 7 מנדטים
18% יתנו 4 או 8 מנדטים
3% יתנו 3 או 9 מנדטים
1% יתנו 2 או 10 מנדטים או תוצאה קיצונית יותר

מתוך 115 סקרים שבוצעו בשלושת החודשים לפני הבחירות, היו התוצאות כדלהלן:
54% מהסקרים ניבאו 6 מנדטים
34% ניבאו 5 מנדטים
12% ניבאו 7 מנדטים
וזהו!!!!
זהו מצב שכמעט בלתי אפשרי שיקרה, והוא מעיד לדעתי על שקר ברור של מכוני הסקרים. היו חייבים להיות סקרים שמראים על 4 מנדטים או פחות, או 8 או יותר, אבל אף מכון סקרים לא קיבל תוצאות כאלה.
אינני יודע מה הם כן עושים, אבל משהו לא כשר בתוצאות שהם קיבלו. לי אישית נראה שבמקרה של אוכלוסיות שקשה למכוני הסקרים להגיע אליהן, הם קובעים איזשהו מספר מנדטים ופשוט לא זזים ממנו, או שייתכן שהסוקרים הטלפוניים פשוט ממציאים מספר מצביעים למפלגות כאלה על פי ה"מצופה" מהם.

שקר נוסף ובוטה אף יותר, הוא השימוש של מכוני הסקרים במנטרה של: "השגיאה הסטטיסטית היא 4%". זה פשוט לא נכון גם בלי שצריך לבדוק כלום, אבל אין לי כח להסביר‏2

1 השתמשתי באתר שאסף את נתוני כל הסקרים
2 אולי כן אספר אם הקהל ידרוש
איך לתפוס שקרנים בעזרת סטטיסטיקה 386375
הקהל דורש.
איך לתפוס שקרנים בעזרת סטטיסטיקה 386390
מכוני הסקרים כלל אינם מסתירים את העובדה שהם "מתקנים" את תוצאות הסקרים כדי לפצות על הטיות ידועות מראש - למשל חוסר היכולת שלהם להגיע לאוכלוסיות מסויימות. כך, למשל, אם סקר אחד יבדוק חמישה אנשים מישוב מסויים שבעבר נתן את רוב קולותיו למפד"ל, אבל ארבעה מהנסקרים ידווחו שבכוונתם להצביע לעבודה - הקולות האלו "יאוזנו" על ידי הסוקרים, מתוך הנחה שיש כאן טעות דגימה. רק אם אחרי מספר סבבי דגימה עדיין תופיע התופעה המוזרה הזאת, הסוקרים יתחילו לחשוב שאולי יש כאן שינוי במגמת ההצבעה, והדבר יבוא לידי ביטוי בתוצאות הסקרים.

המסקנה: סקר אחד לא אומר כלום. המשמעות נמצאת אך ורק במגמה לאורך זמן. הניתוחים הקבועים של "השבוע מפלגה X ירדה בשני מנדטים - זה בגלל שראש המפלגה אמר Y" הם אדיוטיים.
איך לתפוס שקרנים בעזרת סטטיסטיקה 386554
החישוב שלך ממש לא נכון. אתה צריך לקחת בחשבון את העובדה שדעת הקהל משתנה עם הזמן, את העובדה שהטעות הסטטיסטית מתייחסת לכלל הסקר (ולא רק עבור התוצאה עבור מפלגה אחת) וכו'.
איך לתפוס שקרנים בעזרת סטטיסטיקה 386701
(אם סקר היה נערך על-פי המודל הפשטני שהוצג כאן,) שינויים בדעת הקהל אמורים להגדיל את פיזור התוצאות בסקרים, ולא להקטין אותו; הנתון ה"רשמי" לגבי הטעות הסטטיסטית אינו רלוונטי, משום שהחישוב נעשה בהנחה של התפלגות בינומית.
איך לתפוס שקרנים בעזרת סטטיסטיקה 386702
שינויים עם מגמה (או מגמות) בדעת הקהל אמורים לגרום להתפלגות להיות לא בינומית.
איך לתפוס שקרנים בעזרת סטטיסטיקה 386730
לא נכון. בכל פעם שדוגמים את האוכלוסיה, התפלגות מספר התומכים בכל מפלגה היא בינומית (והתפלגות וקטור התמיכה - מולטינומית); אלא אם אתה מעוניין לדון במודל מסובך יותר, שבו הציבור משנה את דעתו תוך-כדי השעתיים שבהן נערך הסקר.
איך לתפוס שקרנים בעזרת סטטיסטיקה 386760
אבל יוסאריאן לקח 115 סקרים שנערכו לאורך תקופה של 3 חודשים. גם אם בכל סקר ההתפלגות בינומית, למה זה אומר שההתפלגות של כל הסקרים תהיה בינומית (כאשר התמיכה במפלגה משתנה לאורך הזמן) ואיך זה הגיוני לצפות שהתמיכה במפלגה בסוף התקופה תהיה במרכז הבינום?
איך לתפוס שקרנים בעזרת סטטיסטיקה 386767
על זה כתבתי בתגובה הקודמת - כל תנועה של מרכז ההתפלגות לאורך זמן תביא לפיזור גדול יותר של תוצאות הסקרים. במקום להתפלג בינומית (על-פי החישוב שהוצג כאן), ההתפלגות תימרח עוד יותר, ומספר הסקרים שבהם התוצאה *לא* תהיה 6 מנדטים רק יגדל.
במלים אחרות, הנימוק הזה יכול להסביר עודף פיזור של הסקרים, ולא עודף ריכוז שלהם.
איך לתפוס שקרנים בעזרת סטטיסטיקה 386773
כל מה שרציתי להגיד הוא שהחיפוש אחרי בינום הוא לא נכון.
איך לתפוס שקרנים בעזרת סטטיסטיקה 386992
הסיבה להתפלגות הבינומית היא כדלהלן:
בכל סקר שאנו עורכים - אנו מבצעים 500 ניסיונות. למפלגה בעלת 6 מנדטים מהאוכלוסיה הכוללת, יש 5% מהקולות. על כן צפויים לה בסקר 5% מ500 הקולות האפשריים, שהם 25 איש.
זהו ניסוי בינומי עם 500 ניסיונות והסתברות p=0.05 להצלחה. ואנו שואלים - מהי ההסתברות שיהיו בדיוק בין 23 ל27 קולות (6 מנדטים). זה יוצא פלוס מינוס המספרים שפירטתי בתגובה המקורית, ובסה"כ, יש יותר סיכוי שיצאו 28-31 (7 מנדטים) או 19-22 (5 מנדטים) קולות בסקר (סה"כ טעות של מנדט) מאשר יש סיכוי שיצא בדיוק המספר האמיתי באוכלוסיה (6). כמו כן יש סיכוי לא מבוטל כלל לקבל תוצאות קיצוניות יותר כמו 4 או 8 מנדטים.
ההסתברויות שיוצאות מהוות את מה שנצפה לראות במספר סקרים רב, ובפועל צריך להיות הרבה יותר פיזור.
כמו שעוזי כבר ענה לך, במידה ויש שינוי דעה, נוסף כעת לרעש הסטטיסטי גם רעש נוסף שהוא השינוי בדעה. אלה רעשים בלתי תלויים ולכן אמורים להצטבר זה על זה כשורש סכום ריבועי הרעשים, כלומר מידת הפיזור בין הסקרים שצברנו לאורך הזמן אמורה לעלות ולא לרדת.

לסיכום, אין שום סיכוי שהסקרים שהתפרסמו לא היו נגועים במניפולציות של קביעת תוצאה מראש ותיקונים למיניהם של מכוני הסקרים. לא לחינם הסוקרים בארץ טועים כל כך הרבה פעמים ובאחוזים כה משמעותיים
איך לתפוס שקרנים בעזרת סטטיסטיקה 387017
*הם מודים בפה מלא שהם מבצעים תיקונים סטטיסטיים*. איך אפשר לקרוא לזה שקר?
מדגם אקראי != מגדם מייצג 387025
שים את עצמך כבעל עסק לממכר בשר עטלפים. אתה רוצה לקבל החלטה אם למכור בשר כשר או לא. נכון, אתה יכול לקבל החלטה אידיאולוגית. אבל אם אתה רוצה לקבל החלטה רציונלית, כזאת שתבחר ת האפשרות הרווחית יותר, אתה תרצה לדעת כמה אנשים יקנו את בשר העטלפים בזכות זה שהוא כשר, וכמה יפסיקו לקנות אותו בגלל שהוא כשר, ולשקלל את הרווחים הצפויים מול מחיר הכשרות. לצורך קבלת הידע הזה אתה תרצה, מן הסתם, לבצע סקר. נגיד שבאים עליך שני מכוני סקרים, הראשון מבצע סקר אקראי טהור, בוחר באופן אקראי 500 אנשים מספר הטלפונים ושואל אותם, השני מבצע סקר מול מדגם מייצג, לוקח 500 אנשים בעלי מאפיינים סטטיסטיים דומים למאפיינים הידועים של החברה הישראלית (כמו התפלגות הגילאים, המינים, העדות, גודל המשפחה, ההכנסה החודשית, מקום המגורים, מספר הרכבים, רמת הדתיות ועוד). איזה מכון מחקר תעדיף? שים לב, אתה לא סטודנט משועמם, אתה בעל עסק וההחלטה הזאת יכולה לעלות לך בכסף, הרבה מאד כסף, הרבה יותר מהפרש העלויות בין שני מכוני הסקרים. אז כמו שהבנת, מכוני הסקרים לא בוחרים את המדגם שלהם באופן אקראי לחלוטין, המדגם שלהם אמור להיות מייצג. שים לב שזה בדיוק מה שהם כותבים בתחתית כל סקר (ז"א "מייצג" ולא "אקראי"). בגלל זה הם שואלים שאלות שנראות לא רלוונטיות (כמו, "מה הצבעת בבחירות האחרונות"). בגלל זה העוסקים במכוני הסקרים הם בעלי תואר דוקטור ולא בוגרי שנה ראשונה. בגלל זה עולה כל כך הרבה לבצע סקרים.

אחד הסיפורים המפורסמים בתחום הוא הסיפור של מערכת הבחירות של 1936 (בארה"ב, מדינת ישראל עוד לא קמה). http://www.idi.org.il/hebrew/article.asp?id=2763 אז התחיל הסיפור של ה"מדגם מייצג" והתחילו לבצע סקרים באופן מודרני.

אחת המאפיינים הפשוטים לביצוע הוא ההצבעה בבחירות האחרונות, ז"א, יודעים מה היו תוצאות הבחירות האחרונות, כמה הצביעו וכמה לא, ולכן קל לבדוק האם המדגם שלך הוא מייצג. ז"א, במדגם שלך תרצה שיהיו בסביבות ה4.3% מצביעי "ג" בבחירות הקודמות. בגלל שיהדות התורה היא מפלגה בעלת נאמנות גבוהה, אין להתפלא שהסוקרים הצליחו לחזות את התוצאה שהם קיבלו במערכת הבחירות הזאת (4.7%).

לסיכום, הסוקרים בארץ לא "טועים כל כך הרבה פעמים ובאחוזים כה משמעותיים", לא יחסית לסוקרים בחו"ל ולא יחסית לסקרים שהיו נערכים על ידך. למעשה, בניגוד לאגדה האורבנית שצמחה אחרי 1996, הסוקרים בארץ מצליחים מאד יפה.
מדגם אקראי != מגדם מייצג 387051
הכל נכון, פרט לזה שבחירת ''האפשרות הרווחית ביותר'' היא החלטה כלכלית ולא דווקא החלטה רציונלית.
וואלה, צודק 387058
מדגם אקראי != מגדם מייצג 387076
למה החלטה כלכלית איננה לאו דווקא רציונלית?
מדגם אקראי != מגדם מייצג 387125
אם אינני טועה, החלטה כלכלית היא דווקא כן לאו דווקא רציונלית. כלומר, מאד יתכן שעדיף לאותו אוטומטון-רציונלי להתחשב בנדודי השינה (הבלתי רציונליים) שעלולים להיות לו אם הוא יפטר עובד ותיק, ולא לתת לשורה התחתונה להחליט בשבילו.
מדגם אקראי != מגדם מייצג 387127
ולדוברי העברית שבינינו? (צריך י' בין הנונים?)

ז"א, אותה השאלה לא השתנתה - למה נדודי שינה הם בלתי רציונליים?
מדגם אקראי != מגדם מייצג 387130
אני מתחיל לחשוד שזה תלוי בהגדרה שלך לרציונליות. אפשר לנחש שאם היו שואלים אדם מה הוא מעדיף, לילה עם נדודי שינה או לילה בלעדיהם, הוא יבחר באפשרות השניה. אין לו סיבה רציונלית להנדיד את שנתו. מספיק טוב?
מדגם אקראי != מגדם מייצג 387132
תלוי היכן היא נודדת, לא?
מדגם אקראי != מגדם מייצג 387133
הנה לך עוד נתון חשוב: השינה הנודדת נודדת לה במאת האחוזים, ואילו השינה שאינה נודדת, איננה נודדת אלא באחוזים נמוכים עד-מאד.
מדגם אקראי != מגדם מייצג 387151
נדודי שינה אינם בלתי רציונליים, הם א רציונליים. ההתחשבות בהם נראית לי רציונלית בהחלט.
מדגם אקראי != מגדם מייצג 387144
הבנתי. באמת אחרי ששאלתי חשבתי שאתה מדבר על הגדרה מעין פסיכולוגית (רציונליות שווה בערך למודעות, ולהיפך). עדיין אני אני לא מבין אם אתה אומר שהחלטה כלכלית היא רציונלית או לא.
מדגם אקראי != מגדם מייצג 387156
אני מפרש כך: "החלטה כלכלית" = החלטה שממקסמת את הרווח. "החלטה רציונלית" = החלטה שמתחשבת גם בגורמים אחרים, אם יש כאלה; היא ממקסמת משהו אחר, מורכב יותר. אם כך, הנתון (הרציונלי) שבני אדם אינם יצורים רציונליים, צריך להלקח בחשבון בזמן ההחלטה (הרציונלית).
מדגם אקראי != מגדם מייצג 387222
קראתי את מה שכתבת כמה פעמים ועדיין אני מרגיש כמו טַמבַּל. בכל זאת אני אנסה להמשיך, ואני עומד לעשות פה איזה מישמש.

אפילו אם נשאר בהגדרה המצומצמת שלך ל"החלטה כלכלית" (אחרת זה קן צרעות עם דרש על כל מלה), צריך להבדיל בין פעולת ההחלטה ובין מרחב ההחלטה (אני לא שלם עם ההגדרות האלה, אבל אני מקווה שתבין).

"רציונלי" אומר שכשאתה צריך להחליט, אתה תעשה את זה בצורה אינטיליגנטית, מסודרת, קוהרנטית, בצורה שתוכל להסביר את השלבים. אבל רציונליות, כמו שדויד יום אמר על התבונה, לא יכולה להניע פעולה. הוא דיבר על התשוקות passions, כמו שפעם היו נוהגים לקרוא, ודי בצדק, לרגשות. הרציונליות לא אומרת מתי תשתמש בה, לאיזו מטרה, מה יביא לדי צורך לקבל החלטה רציונלית, "טעם החיים."

"סבירות" reasonable היא מרחב החיים שדורש הפעלה של רציונליות. כשאתה נתקל בסיטואציה שגורמת לך להגיב, או שאליה אתה רוצה להגיב (ה"פסיון" הפסיבי), אז אתה יכול להפעיל מנגנון החלטה רציונלי. הרציונליות היא ה"איך," והסבירות (מאותו שורש בלע"ז) היא "בעבור מה."

באותו הקשר, יונג דיבר על הדת כאותו גורם-על שנותן סיבה והקשר למעשי האדם. הרצונות, ההחלטות, פתרון הבעיות וכיוב' שלנו נעשים על רקע שנותן להם סיבתיות ומשמעות. יכולת פתרון בעיות בצורה רציונלית שונה מהמניע ליישום היכולת השיטתית הזו.

לכן, החלטה כלכלית, מצומצמת לכדי "מיקסום רווחים" (ראה הערה פותחת) יכולה להעשות בצורה רציונלית רק כאשר אתה סובר שיש ללירה ערך (ובזה אני גם מתארך את עצמי).
מדגם אקראי != מגדם מייצג 387468
בהנתן כל האבחנות האלה בין החלטה רציונלית והחלטה כלכלית, זה כבר נשמע טפשי להדגיש שהן לא זהות. אבל בכל זאת מזהים ביניהן לעתים קרובות כל-כך (כמו בדוגמא שהובאה כאן פעם על השאלה שהוצגה לסטודנטים, כמה אנשים כדאי לחברה לפטר).
הרי אין שום דרך להעביר סיטואציה מעשית לספרי הלימוד בכלכלה. הסטודנטים אינם יכולים לעבוד בחברה עשרים שנה, להכיר כל מרצפת, כל בורג וכל לקוח - ורק אז להתלבט. מוכרחים למצות מן המציאות רק את הפרטים ה"חשובים" לצורך ההחלטה. הפלא הוא שעם הנתונים שנשארו, ההחלטה ה*רציונלית* הופכת להיות זהה עם ההחלטה הכלכלית.
מדגם אקראי != מגדם מייצג 387473
וויליאם ג'יימס כבר אמר שאמנות החכמה זה האמנות לדעת ממה להתעלם.
מדגם אקראי != מגדם מייצג 387219
הגדרה מקובלת לרציונליות היא התאמת האמצעים למטרה. על פי ההגדרה הזאת, החלטה כלכלית היא רציונאלית רק אם המטרה היא כלכלית - אלא אם מניחים שכסף הוא ''אמצעי אוניברסאלי''.
מדגם אקראי != מגדם מייצג 387223
אני מקווה שתגובה 387222 לעוזי איכשהו רלוונטית גם לדבריך.
מדגם אקראי != מגדם מייצג 387119
1) אחת הברירות שהעמדת בפני היתה מוטעית:

..."הראשון מבצע סקר אקראי טהור, בוחר באופן אקראי 500 אנשים מספר הטלפונים ושואל אותם"...

בחירת אנשים מספר טלפונים אינה אקראית טהורה, ואת זה בדיוק ממחישה הדוגמה בלינק - שם נדגמה אוכלוסיית ארה"ב ע"י ספר הטלפונים. מכיוון שהיה רוב מוחץ לרפובליקאים בקרב בעלי האמצעים שהיה באפשרותם אז (1936) להחזיק טלפון, נחזה בטעות ניצחון לרפובליקאים. זה וודאי אינו מדגם אקראי טהור של האוכלוסיה.

אם המכון הראשון היה מציע לי סקר אקראי טהור - למשל הגרלה מתוך מרשם האוכלוסין של 500 איש מתוך בני ה18 ומעלה, ואז יצירת קשר איתם, אני חושב שהייתי מעדיף זאת על פני מדגם מייצג שמבוסס על הערכה של התפלגות האוכלוסיה לקבוצות.

מכיוון שהרי אין למכון השני ידיעה מדוייקת של כמות הדתיים באוכלוסיה, הוא מתבסס מן הסתם על סקר קודם שמדד את כמות הדתיים, ולכן מבצע למעשה סקר על סקר, מה שיחליש את התוצאות, ואז לא בטוח שהן יהיו טובות יותר ממדגם אקראי טהור.

2) במקרה של סקר בחירות, השיטה שהצעת מוצאת חן בעיני יותר, מכיוון שהמדגם שלך מייצג את האוכלוסיה על פי אירוע (הבחירות הקודמות) שאתה כן יודע את ההתפלגות המדוייקת שלו באוכלוסיה כולה.

השיטה עצמה יפה, אך קשה לי להאמין כי היא מיושמת במדויק במציאות הישראלית.

אני מבין שאתה מעורב בתעשיית הסקרים. האם באמת המכונים מתקשרים עד שיש להם 22 איש מצביעי יהדות התורה לשעבר בסקר של ה500?

נראה לי שזאת משימה מאוד מאוד ארוכה ומייגעת לאור רמת המוכנות לענות לסקרים באוכלוסיה כזאת, וקל לי יותר להאמין שהסוקרים ממציאים.

במקרה של יהדות התורה מכיוון שלא צפויים שינויים גדולים גם ככה, אז המכונים פוגעים, אבל במקרה של המפלגות הערביות למשל אז הרבה פעמים הם טועים. שוב, לפי השיטה שתיארת, בכל סקר צריכים להיות כ40 איש שהצביעו בבחירות האחרונות למפלגה ערבית.
האם יש כ10% סוקרים המדברים ערבית בכל מכון סקרים?

3) שאלה:
נניח שיש לך מדגם מייצג לפי אופן ההצבעה בבחירות האחרונות, מה בעצם השגיאה הסטטיסטית שלך עכשיו?

4) לגבי דייקנות והצלחת הסוקרים, אני חולק עליך:

דווקא ב96, לא הייתה שום בעיה עם התחזית , מכיוון שתוצאות האמת היו עמוק בתוך השגיאה הסטטיסטית.

בכלל, אין לי שום בעיה עם סקרים שנערכים אחרי הבחירות, ובמיוחד כאלה שנערכים בקלפיות עצמן. שם אין כמעט שום הטיה מההטיות הרבות הקיימות במשאלים טלפוניים, כמות הנדגמים עצומה, וגם אז השגיאה הסטטיסטית לא קטנה בכלל (ראה ההבדלים בין ערוץ 1, 2 ו10).

הסקרים המתפרסמים לפני הבחירות הם עם שגיאות גדולות מאוד ונכשלו לדוגמה במקרים הבאים:

א)סקרים שניבאו לפרס ניצחון מוחץ על עמיר פרץ, עד יום הבחירות.
ב) שגיאה גדולה הרבה מעבר לשגיאה הסטטיסטית בין מספר המנדטים שניבאו לקדימה לבין מספרם בפועל
ג) מפלגת הגימלאים
ד) המפלגות הערביות קיבלו לאורך 115 הסקרים ב3 החודשים שלפני הבחירות בעקביות 8 מנדטים. בפועל - 10. גם שם זו אוכלוסיה עם רמת נאמנות יחסית גבוהה. מדוע המדגם לא ייצג אותם כראוי?
ה) הליכוד קיבל פחות מנדטים מכמעט כל סקר שנערך לפני הבחירות.

בכל אחת מהדוגמאות הללו, הייתה טעות בין הסקרים למציאות של כ20% ומעלה (אינסוף במקרה של מפלגת הגימלאים). זה נראה לי כמו אחוזים משמעותיים.

אגב, חלק מהטענה שלי למכוני הסקרים היא שלגבי מפלגות קטנות השגיאה הסטטיסטית חייבת להיות לפחות זה, ולכן הטענה של 4% שגיאה היא הטעייה. הם מתכוונים 4% מכלל האוכלוסיה, אך נותנים לכולם להבין שזאת השגיאה שלהם לגבי מספר המנדטים של כל מפלגה. מפלגה שמקבלת 8% מהקולות, אם יש שגיאה של 4% זו למעשה שגיאה של 50% למפלגה הקטנה.

אני לא טוען שאפשר בהכרח לעשות סקרים הרבה יותר מדוייקים, ובטח שאין לי אישית כרגע כוונה לעשות כן. אני כן טוען שמכוני הסקרים בארץ (לפחות רובם) לוקים בחפיפניקיות עד כדי שקר.
הסוקרים מתיימרים לשגיאות קטנות מהאפשרי, ובפועל טועים יותר מהשגיאה הסטטיסטית הצפויה.

זהו.
מדגם אקראי != מגדם מייצג 387131
1)
א. שום בחירה לא יכולה להיות אקראית טהורה (אם, למשל, תגריל באופן אקראי מספר הטלפונים, הגדלת את הסיכוי של בעלי המספר הכפול, והרדת את הסיכוי של חסרי הטלפון/ בעלי הטלפון החסוי). זה ההבדל בין מחקר במדעי החברה למחקר במדעי הטבע.

ב. יש בישראל גוף שנקרא "הלשכה המרכזית לסטטיסטיקה" (http://www.cbs.gov.il/) שמפרסם מידי שנה הרבה נתונים לפיהם אפשר לנרמל את המדגם.

ג. העובדה שמרבית (למעשה, כל) החברות במשק (הישראלי והעולמי) בוחרות כן להשתמש במכון סקרים שמנרמל את המדגם יותר מאומרת דרשני.

2.
א. אני לא מעורב בתעשיית הסקרים, מעבר להיותי נסקר מפעם לפעם (כמו רובנו, אני מניח). שמתי לב שהשאלה הזאת (לאיזה מפלגה הצבעת בבחירות האחרונות) חוזרת (בצורה כזאת או אחרת) תמיד כשמדובר בסקר פוליטי.

ב. המשימה באמת ארוכה ומייגעת, אבל בשביל זה משלמים להם הרבה כסף. קשה לי לראות אותם ממש מרמים ביודעין, לא מדובר בסתם כתבה לעיתון, מדובר במוניטין שלהם ובאוכל של הילדים שלהם. (מצד שני, אחרי שראיתי את "כל אנשי הקמפיין", כנראה שבישראל מוניטין טוב והגון זה לא בהכרח הדרך לעסק מצליח).

ג. הרבה מאד סקרים (בעיקר בתחילת מערכת הבחירות) פשוט לא סוקרים את האוכלוסיה הערבית, והמכונים סוקרים אותה בנפרד בסקרים אחרים. צריך לשים לב לאותיות הקטנות.

3. נראה לי שאותו הדבר, 5% ‏1.

4.
א. סקרים פנים מפלגתיים הם בעיה גדולה מאד לסוקרים, גם בגלל אחוז ההצבעה וגם בגלל הרכב האוכלוסיה הלא ידוע. במקרה של פרץ היתה בנוסף מגמה שהתחזקה אחרי הפרישה של וילנאי.

ב. זה תמיד יהיה.

ג. הגמלאים זה מקרה מובהק של מגמה, שהסקרים דווקא הצליחו לחזות (לא את הגודל שלה, אבל את הכיוון), ולא רק לחזות אלא אפילו לנפח.

ד. אצל הערבים יש כמה בעיות, לא סוקרים אותם באותה מידה כמו היהודים, רבים מהם החרימו את הבחירות האחרונות, רבים מהם גרים במקומות ללא תשתית. אבל צריך לזכור שההבדל בין המנדט הערבי העשירי לבין המנדט ה20 לעבודה היה כמה מאות קולות. זה דבר שאי אפשר לחזות.

ה. את התוצאה של הליכוד אני עדיין לא מבין. אולי זה מגמה כלשהי, אולי בגלל הפיצול של הליכוד היה קשה לנרמל את המצביעים של הליכוד, לא יודע.

אני לא חושב שמכוני הסקרים לוקים בחפיפניקיות, אבל מה שכן, הסיקור של הסקרים לוקה בחפיפניקיות.

1 אולי כדאי שתשאל את יוסי לוי, ההוא שכתב את http://www.notes.co.il/joseph/19235.asp
מדגם אקראי != מגדם מייצג 387196
2) לא צריך לחפש 22 נציגים למגזר מתוך 500 נסקרים. מספיק לחפש כמות מינימלית כלשהי של נציגים, ולתת להם משקל כאילו היו 22 נסקרים, בשקלול התוצאות הסופי.

לגבי המפלגות הערביות, הסיבה העיקרית לטעות הייתה אחוז ההצבעה בקרב האוכלוסיה היהודית, שירד חזק, בעוד שאחוז ההצבעה באוכלוסיה הערבית לא ירד באופן משמעותי לעומת הבחירות הקודמות. המשמעות היא שאותו מספר קולות למפלגות הערביות התרגם להרבה יותר מנדטים עבורן.
מדגם אקראי != מגדם מייצג 418774
2) שוב חזרנו לאותה בעייה שהצגתי בהתחלה. אם מחפשים כמות מינימלית ומשקללים כאילו היו 22 נסקרים, הרי שאצפה להגדלה משמעותית של השגיאה הסטטיסטית, בעוד דווקא במגזרים אלה השונות בין הסקרים שנערכו קטנה בהרבה מהמצופה אפילו בלי השקלול הזה.
מדגם אקראי != מגדם מייצג 418787
אם בקרב אוכלוסיה מסויימת יש אחוז הצבעה מאוד גבוה למפלגה אחת, הטעות הסטטיסטית הפוטנציאלית תהיה מאוד קטנה.
מדגם אקראי != מגדם מייצג 418799
בוא ניקח את זה לקיצוניות. נאמר שעל פי המדגם המייצג בבחירות האחרונות הצביעו 22 מכל 500 ליהדות התורה. עפ"י שיטתך, נגיד שמצאתי 3 כאלה שהצביעו כך, ואני שואל אותם למי יצביעו בבחירות הבאות. במקרה הסביר יותר יענו שלושתם שגם הפעם הם יעשו זאת.

אם תיקח את התוצאה ותשקלל כאילו היו 22. בצורה זו לעולם לא תמצא בסקר שכוחה של מפלגה זו התגבר (אלא אם מצביעי מפלגות אחרות ישנו את עורם).

מה שקורה לדעתי עם מפלגות כמו יהדות התורה הוא שכוחן עולה לינארית כמו חלקם היחסי של החרדים באוכלוסיה הכללית - דבר שלא תראה בסקר שלך.

מעבר לזאת, אם בכל זאת אחד מהשלושה יטען שהוא חזר בינתיים בשאלה ויצביע למפלגה אחרת, כוחה של יהדות התורה עפ"י הסקר יפול בשליש. שוב אני חוזר לטענתי המקורית - לאורך 100 סקרים אמורים להיות מקרים כאלה, אך הפלא ופלא, הם אינם מופיעים בתוצאות הסקרים.
מדגם אקראי != מגדם מייצג 418802
מדוע? אם הסקרים מניחים קשר סוציולוגי בין השתייכות לקבוצות מסויימות לבין הצבעה, כל שהם צריכים לעשות הוא לדגום בצורה כזו או אחרת את אותה אוכלוסיה, ולראות מה התפלגות ההצבעה בהן - אחר כך, מספיק לראות מה קורה מבחינה מספרית בקבוצה הזו של האוכלוסיה.

וכן, סוקרים מתקנים את הסקרים שלהם. אתה לא מקבל את המידע הגולמי, אלא מידע מתוקן על פי ידע קודם. זה מפתיע אותך?
מדגם אקראי != מגדם מייצג 418981
האמת, כן, די מפתיע. כשהם מציגים את הסקרים בעיתון הם לא מספרים על איך הם ביצעו את הסקר ואילו תיקונים הם ערכו.

ובמבחן התוצאה (שעקרונית אני לא אוהב אותו אבל נעזוב את זה), הם אכן נכשלים שוב ושוב מעבר לרמת השגיאה שהם עצמם מגדירים, אז מה שווה ההגדרה שלהם.

כשאני חושב על זה, מכון סקרים צריך להשוות את סקריו מהעבר לתוצאות האמת ולהגדיר מעתה שזאת רמת השגיאה שלו (במידה והוא ממשיך להשתמש באותן טכניקות). כל הטענות של 4% שגיאה הן פשוט לא רלוונטיות בעיניי.
מדגם אקראי != מגדם מייצג 418990
אני לא חושב שהם נכשלים שוב ושוב. הסקר היחיד שאפשר להגיד עליו בבטחון שהוא ''נכשל'', הוא המדגם ביום הבחירות. עליו באמת אפשר להגיד אם הוא קרוב או לא לתוצאות האמת. כל סקר שנערך יום, יומיים או שבועיים לפני הבחירות משקף רק את התוצאות ''אם הבחירות היו נערכות היום'', ומסתמך על ההנחה שמי שעונה שהוא מתכוון להצביע באמת ילך להצביע. הטעות היא להסתכל על הסקרים באופן בדיד, ולא לחפש את הטרנדים שהם משקפים - זה מה שהכי חשוב שם, בסופו של דבר.
מדגם אקראי != מגדם מייצג 419175
אם התיאוריה שלי נכונה והשגיאה הסטטיסטית של הסקרים גדולה ממה שהם טוענים, אז קצת בעייתי להסתכל על הטרנדים, מכיוון שאז קשה לשייך את התנודות לטרנד אמיתי או לרעש.

זה מביא אותי לנקודה אחרת, שהיא עד כמה הסקרים הללו משפיעים על הבוחרים עצמם. בוא ניקח מצב היפותטי שבו הסוקרים היו משקרים, ולמרות שבסקרים שלהם קדימה היתה צריכה לקבל כ30 מנדטים, הם היו מפרסמים כאילו לקדימה 0 מנדטים. יש לי תחושה עזה שזה היה גורם לכך שהתוצאה האמיתית היתה אפס מנדטים. (יש בזה גם הגיון, אתה רוצה/לא רוצה להצביע למפלגה הגדולה וכו').

מכיוון שלטעמי לסקרים יש השפעה גדולה על ההצבעה עצמה, אני חושב שעל עורכיהם להיות הוגנים, להקפיד על כללי אתיקה מחמירים, ולפרסם בין השאר את שיעור השגיאה האמיתי שלהם.

אגב, אולי אפילו צריך לאסור פרסום סקרים בחודש של לפני הבחירות, לא יודע.
מדגם אקראי != מגדם מייצג 419201
לאורך זמן, אפשר לזהות מגמות (המילה ברחה לי בתגובה הקודמת) - זה לא נכון לעשות מה שהעיתונים עושים פעמים רבות, ולהשוות את התוצאות החדשות לתוצאות של שבוע שעבר וזהו - כי השינויים הללו הם בד''כ בטווח הטעות הסטטיסטית. אבל אם מסתכלים על תוצאות לאורך חודש, אפשר לפעמים לזהות מגמות.

וכן, לסקרים יש השפעה על הבוחרים. אני לא חושב שאפשר, במדינה דמוקרטית, לאסור על פרסום סקרים בתקשורת. ניסו, אגב, אבל אני לא מאמין שזה יעמוד במבחן בג''צ אם אי פעם יצליחו להעביר חוק כזה.
מדגם אקראי != מגדם מייצג 387192
כמובן שגם כאן יש בעיה. אחרי כל מערכת בחירות, בסקרים ששואלים "למי הצבעת בבחירות האחרונות", אחוז המצביעים למפלגה הגדולה ביותר צומח פלאים, הרבה מעבר למה שהיא קיבלה באמת. bandwagon effect עם השעייה.
מדגם אקראי != מגדם מייצג 387194
מי השעה את האפקט?

השהייה.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים