בתשובה לג'וד, 25/01/16 10:18
שת''פ עם האויב 672608
אלסוויר מוציאה לאור כ-‏2,000 כתבי עת, ואני כמובן לא מכיר את כולם. בפרט, אני לא מכיר את Meat Science, ובהחלט יכול להיות שהוא גרוע (כמו שני כתבי עת אחרים של אלסוויר שכתבתי עליהם בתגובה 591459). כל אלה שאני כן מכיר הם מבוססים על ביקורת עמיתים. לשיטת ביקורת העמיתים יש בהחלט בעיות, אבל לדעתי יתרונותיה עדיין עולים על חסרונותיה, ולכן אני לא מסכים עם ההתבטאות "המוסד של ביקורת עמיתים לא יכול להיות שווה הרבה".

לאיזו שאלה שלך לא עניתי? כנראה פספסתי, ואני מתנצל מראש.
שת''פ עם האויב 672708
הבעיה שאני רואה היא שאנחנו לא יודעים איזה מין ביקורת עמיתים המחקר עבר, ואנשים נוטים ליחס משקל רב לביקורת עמיתים ורואים בה אישוש למחקר. וגם ההפך, אם מחקר לא עבר ביקורת עמיתים הוא כאילו שיקרי.

מה ששאלתי הוא זה, אני אנסה שוב:
נניח שיש קשר בין עישון סיגריות לסרטן. עושים מחקר גדול על 100,000 איש כדי למדוד את הקשר הזה, מראיינים כל אחד ושואלים אותו כמה סיגריות הוא מעשן ביום, ועוקבים למשך כמה שנים, לפעמים עשרות שנים. יש מחקרים שדוגמים מדי פעם שוב האנשים. סיגריות זה מדד די אובייקטיבי ולא משתנה מיום ליום, ולכן הנתונים שאנשים מספקים הם די מהימנים, ואם באמת קיים קשר בין עישון לסרטן, תוצאות המחקר יראו מתאם מובהק ועליה ממשית גבוהה בסיכון לסרטן ריאות בגלל עישון.

לעומת זה אם - לדוגמה - רוצים לראות קשר בין צריכת כולסטרול למחלות לב, מראיינים אנשים מה הם אכלו בשנה שעברה, ומתוך זה מחשבים כמה כולסטרול הם אכלו. אלה נתונים לא מהימנים כי אנשים לא זוכרים מה הם אכלו, זוכרים אולי שהם לרוב אוכלים חביתה בארוחת ערב אבל לא זוכרים שאכלו שתיים וגמרו את החביתה של הילד, לא זוכרים את הביצים הנסתרות במאכלים אחרים שהם שאכלו במשך היום, לא זוכרים רוגלך שאכלו או סלט ביצים בארוחת בוקר בעבודה, ובתקופות הם משנים את הרגלי האוכל שלהם. בנוסף באופן כללי יש אנשים שנוטים לחשוב שהם אוכלים פחות ממה שהם אוכלים באמת, במיוחד במזון מהחי ובחטיפים.
זאת אומרת שהנתונים של המחקר מלאים שגיאות. איך זה ישפיע על הרגרסיה, על המובהקות ועל אחוז העלייה בסיכון שהמחקר ימצא.
נראה לי שהנתונים השגויים ישפיעו בחוזקה כי מחקר לא יכול לתת יותר מידע ממה שיש לו, השגיאות יפזרו את הנתונים סביב קו הרגרסיה, ישטיחו אותה זאת אומרת יהיה כביכול פחות קשר בין כולסטרול למחלות לב, ויורידו את המובהקות ואת העלייה ברמת הסיכון על פי המחקר.
לכן אם במחקר כל כך מלא שגיאות אם בכל זאת נמצא שיש עליה קטנה בסיכון, פירוש הדבר שבסיכוי גבוה במציאות העלייה בסיכון היא גבוהה יותר.
האם הצלחתי להסביר את עצמי? ואם כן, האם לדעתך זה נכון.
שת''פ עם האויב 672711
עוד טיפה הסבר:
במחקר גדול על אלפי אנשים הסיכוי שבמקרה יימצא מתאם בין משתנים שבמציאות אין ביניהם קשר, הוא אפסי. זאת אומרת שאם במחקר עם הרבה נתונים משובשים לכאן ולכאן בכל זאת נמצא מתאם כנראה שזה לא מקרי, ובגלל השגיאות המתאם בפועל גבוה יותר ממה שהמחקר מצא.
שת''פ עם האויב 672712
אם אנשים מדווחים שהם אכלו כמות ביצים הרבה יותר קטנה מהכמות האמיתית - נניח דיווחו על ביצה ביום במקום שלוש - והתוצאה היתה שיש עלייה קטנה בסיכון, מה שזה אומר במציאות זה בדיוק הפוך מהמסקנה שלך:
אם תוצאת המחקר היתה שביצה ביום מעלה מעט את הסיכון למחלות לב, התוצאה האמיתית היא ששלוש ביצים ביום מעלות מעט את הסיכון למחלות לב. מה שאומר שביצה אחת ביום מעלה מעט מאד, אם בכלל, את הסיכון למחלות לב.
שת''פ עם האויב 672718
כן, אבל...

בצד השני של המשוואה עומד דיווח חסר של אנשים שכן אוכלים ביצים מוסוות באותם מזונות שמכילים ביצים (כמו עוגות וכאלה) ולא מדווחים עליהן, כך שמה שמחושב במחקר כקו האפס נמצא בעצם מעל המקום הנכון. אם הנטיה להשמיט אותן ביצים עלומות (אין צורך לתקן, אני יודע) בערך שווה בכל הספקטרום של צרכני הביצים הטעויות מתקזזות ואנחנו נשארים עם מסקנה נכונה שרק צריכה להיכתב אחרת, משהו כמו "צריכה של כל ביצה נוספת למה שנמצא במזונות מעובדים מעלה/מורידה...".

קצת חבל לי למחוק הכל ולהתחיל מחדש אז הנה ניסוח קצר אחר: מתוך אותן שלוש ביצים היפותטיות, שתי ביצים הן מכנה משותף לכולנו - מלבד הטבעונים! - ולכן המחקר בודק רק את ההשפעה של ההפרש, שהוא הביצה האחת המדווחת ע"י אוכלי החביתות מול אפס ביצים שמדווחים השאר.

אבל הטענה הכללית של ג'וד נכונה בעיני, והדיווחים העצמיים הרטרוספקטיביים על הרגלי התזונה לא שוים הרבה. רק מי שמנהל יומן אכילה מפורט ומסתייע במחשבוני תזונה יודע באמת מה הוא אוכל.
שת''פ עם האויב 672722
אני מוכן להסכים שהם לא שווים "הרבה", אבל למה הדיווחים עם עישון סיגריות או פעילות גופנית שווים יותר? אם אנחנו לא סומכים על דיווחים עצמיים רטרוספקטיביים ככלל (ואת זה כבר אמרת שאפשר לפתור עם ניהול יומן תוך כדי הניסוי, אבל לא משנה כרגע), לא ברור לי למה דוקא מחקרי התזונה הם אלה שבהם אתה מפקפק יותר מאשר מחקרים אחרים בתחום הסוציולוגיה/פסיכולוגיה/בריאות.
שת''פ עם האויב 672728
כי אנשים שסופרים סיגריות יודעים בדיוק כמה הם עישנו, וגם אלו שלא סופרים יכולים להגיע לאומדן קרוב מאוד לפי כמות הקופסאות שקנו. לעומת זאת הדיווחים של אנשים על תזונה בדיעבד לוקים בחסר.

כשעישנתי ידעתי שאני מעשן קופסה (20) ליום. כאשר ספרתי סיגריות כהכנה להפסקת העישון זה יצא לא פחות מ 17 ולא יותר מ 24 ליום. בספירת קופסאות שקניתי לאורך זמן (6 פקטים בדיוטי פרי, 1200 סיגריות) זה יצא 19 ליום בדיוק.
לעומת זאת אם אצטרך לדווח על התזונה שלי בלי שאני עורך רישום מדוקדק בזמן אמת אני משוכנע שאני אפספס בענק. עשיתי נסיון קצר לרשום בסוף היום את התזונה של אותו יום וגם בכך התקשיתי. הייתי צריך להתרכז ולהזכר שעה אחרי שעה ואז פתאום היה קופץ לי הזכרון שאכלתי גם את זה ושתיתי גם את זה. למחרת אין סיכוי שהייתי זוכר הכל.
שת''פ עם האויב 672741
ובנוסף כמעט כל סיגריה שנקנית זוכה לגשים את ייעודה בניגוד לחלקים די ניכרים מהמזון שנקנה. על הכמות הכללית של סיגריות שנקנות יש ללמ''ס נתונים טובים בזכות המכסים והמסים שמוטלים עליהן.
שת''פ עם האויב 699609
מחקר חדש מראה כי אכילת ביצה ביום מפחיתה את הסיכון להתקפי לב ושבץ.
שת''פ עם האויב 699613
א. מתאם ולא סיבתיות.
ב. ר’ המחקר. התוצאות הגולמיות לפני הניתוח לא חד משמעיות. ליתר דיוק: ברוב המשתנים שנמדדים שם, יש דווקא מתאם חיובי בין התופעות השליליות לצריכת כמות גדולה יותר של ביצים.
ג. וכמובן: מחקר בודד.
שת''פ עם האויב 672726
הרגרסיה תתפזר ותשטח לך, כי יהיו לך הרבה נקודות של אנשים שאכלו מעט ביצים והכולטסרול שלהם גבוה.
שת''פ עם האויב 672727
ברור, כי יש הרבה גורמים לכולסטרול גבוה, וביצים הן מהקטנים שבהם, אם בכלל.
אם המחקר לא היה מגלה כלום, הטיעון שלך היה מסייע, אבל ברגע שהמחקר כן הצליח להפריד סיגנל (כלשהוא) מהרעש, אי-הדיווח פה רק מקטין את הקורלציה.
או שיותר מדויק להסתכל על זה כמו שהשוטה ציין.
שת''פ עם האויב 672731
הביצים הן רק דוגמה כי זה לא דיון תזונתי, אפשר להחליף את הדוגמה בבשר אדום וסרטן המעי הגס.
גם הכולסטרול הוא רק דוגמה, השאלה שלי היא עקרונית על כל מחקר מסוג זה שבו הנתונים מלאים שגיאות.

השוטה דיבר על מצב תיאורטי שבו כולם כאיש אחד מדווחים על פחות מהמזון המסוים ובאותו שיעור פחות.
שת''פ עם האויב 672734
מה קצת מקל על הדיווח השגוי, זה שמכל הדוגמאות שהובאו פה נראה שיש הטייה ברורה - אנשים מדווחים על *פחות* ממה שהם אכלו, ואין כמעט דיווחים מופרזים.
בנוסף, ההטייה הזאת מוגבלת מלמטה - אף אחד לא ידווח על מינוס שתי ביצים שהוא אכל, ולכן כל השגיאות האלה הן לא שגיאות שמפוזרות באופן רנדומלי אחיד, אלא שגיאות שיש להן הטייה וכיוון ברורים למדי.
בהינתן כל זה, יש לי הרגשה אינטואיטיבית שניתן לשקלל הטיות כאלה בניתוח הנתונים, בניגוד לשגיאות רנדומליות לחלוטין.
שת''פ עם האויב 672740
אחת הבעיות היא שהזכרון של האנשים סלקטיבי כך שהם מדווחים על פחות מזונות ''לא בריאים'' ממה שהם צורכים בפועל ובה בעת על יותר מזונות ''בריאים''. אני משער ששילוב של המידע שנמצא ברשתות השיווק עם מה שנמצא במזבלה (כלומר נקנה ולא נאכל) כשהוא מושווה למה שעולה מהדיווחים מאפשר לבצע את השקלול הנכון. לא ידוע לי אם נערכים מחקרים בצורה הזאת ואם רשתות השיווק מוכנות לשתף פעולה.
שת''פ עם האויב 672833
אבל מידע מהסופרמרקט, הגרנולריות שלו היא ברמה שבין שכונה לעיר; ומידע מהמזבלה, הגרנולריות שלו היא ברמת המטרופולין או המחוז (אתה יכול לרדת לרמת הבית המשותף אם תחקור פחי אשפה; ברוב מדינות המערב, ובפרט ישראל, עדיין לא תוכל לשדך את המידע הזה לקמעונאי המזון). ובין מחוזות, אם זכית בפיס ומצאת הבדל מובהק כלשהו, לך תנטרל השפעות סוציואקו, סגנון חיים, וסביבה.

הייתי הולך על כיוון אחר. נדמה לי שאתה ממילא צריך את הסכמת הנחקרים למחקר, רק כדי שתוכל לקבל את המידע הרפואי (ואתה מוכן לבלוע את ההטיה שאתה מטה בזה את הרגלי הצריכה וסגנון החיים שלהם; בשמחה, לפחות זו הטיה שמועילה להם). אם כך, בנה מנגנון שבו הקניות שלהם והאשפה שלהם עוברים דרכך.
ואז נשאר לך רק לנטרל אכילות מחוץ לבית, בפרט בעבודה ובבית הספר. חרמפף.

ניסיון ב', מתחום המחשוב הלביש: מצלמה זעירה על טבעת על אצבע או שתיים, שמכוונת כך שמה שאתה אוכל מצולם. אם השרת לא בטוח מה זה שאתה אוכל, או ממה זה עשוי, היישום שואל אותך על המקום.

ניסיון ג', אולי מקריב דיוק תמורת הקלה טכנולוגית: ענק שמרגיש כשאתה בולע משהו - אפשרי, לא? - ומקפיץ את היישום בסמארטפון ששואל אותך מה אתה אוכל, או לפחות שתצלם את הצלחת אם יש.
שת''פ עם האויב 672838
אני התכוונתי שהחשבון ייעשה ברמה הארצית (על סמך מדגם מייצג, כמובן) וישווה את מה שמחושב מדיווחי התושבים לנטו שבין הכמות שנקנתה לכמות שנזרקה, כלומר לכמות הכללית שנצרכה בפועל. אם עולה מהמדגם ש-‏60,000 טונות של חסה נאכלות כביכול בחודש אבל בפועל אתה יודע שרק 30,000 טונות נאכלו קיבלת את הפקטור המקשר בין הדיווח לבין המעשה (2 במקרה שלנו), בממוצע ארצי כמובן. דומני שזה מה שאנחנו מחפשים.

בדיקות האשפה לכל בית בנפרד הן אפשרות טובה במגבלות שציינת. לא ידוע לי על טכנולוגיה שמאפשרת לך לדעת מה מישהו אכל ובעיקר איזו כמות הוא אכל מאותו דבר. סתם חיישן שיצפצף כשאתה בולע מזון ויזכיר לך לרשום אותו ביומן האכילה שלך הוא אפשרות, אם תמצא מספיק נחקרים שיהיו מוכנים לזה.
שת''פ עם האויב 672840
הטיה: זה גורם לנחקר להיות מודע למה שנאכל (השוו לדיאטה שבה צריך לרשום את כל מה שאוכלים).
שת''פ עם האויב 672743
זה ניחוש, שום דבר במחקר עצמו לא יכול לספק לך מידע על זה. אולי ניחוש יותר טוב יהיה שככל שאדם אוכל יותר בשר כך אחוז הדיווח כלפי מטה שלו הוא יותר גדול? או ככל שהוא שמן יותר הוא מדווח על פחות, או ככל שהוא אישה יותר הוא מדווח על פחות, או ככל שהוא דתי יותר הוא מדווח פחות.
שת''פ עם האויב 672733
אני (כמו רוב האנשים בעולם) לא מכיר את כל תחומי המדע. ביקורת עמיתים מורידה מאוד את ההסתברות לשגיאות (לדוגמה: בניתוח התוצאות).

לכן, במקביל, חוסר הנכונות להעמיד את המאמר לביקורת עמיתים היא (באופן כללי) חוסר נכונות לבדוק דרישות בסיסיות על ידי מי שמכיר את התחום היטב. במאמר כזה יש סיכוי גדול לקבל פאדיחות.

מה שלא ברור מאליו במה שכתבת הוא כל ההטיות. לדעתך ההטיות הן דווקא לכיוון של שכחת מרכיבים יקרים מהחי. מה עם המרכיבים הזולים יותר (לדוגמה: תירס וקמח)? יכול להיות שאת צודקת ויכול להיות שלא. אבל זה בדיוק סוג הדברים שאפשר לבדוק במחקרים (לבקש מקבוצות שונות של אנשים לדווח על מה שהם אכלו ולעקוב בצורות שונות בקירוב אחרי מה שהם אכלו). זה לא לגמרי פשוט (איך למנוע מהם להרגיש במעקב ובכך לדקדק בדיווח יותר מהרגיל), אבל יש לי הרגשה שזה אפשרי וכבר נבדק.
שת''פ עם האויב 672738
אני לא זוכר אם כבר הובא הקישור הזה שמופיעה באתר מומלץ ונלקחה מבלוג של גל חיימוביץ' שמוכר לותיקים בחבורה. מאמר ארוך אבל שווה כל רגע.

כמו שמוסדות פסאודו-אקדמאיים הורידו לזנות את המושג "תואר אקדמאי", מגזינים פוּשטים הפכו גם את ביקורת העמיתים למושג שמקבל ערך רק בהקשר הנכון, כלומר רק אם הפרסום הוא בעיתון מכובד.
שת''פ עם האויב 672739
מופיע, מופיע. טפי.
שת''פ עם האויב 672744
תיקון: קישור למאמר (במקום לתג).
שת''פ עם האויב 672746
אחד החסרונות שהמאמר לא מזכיר (לפחות על פי דפדוף מהיר), זה שלא בטוח שכל העמיתים היו עוברים בהצלחה את מבחן ה''עמית או טורף''.
רוצה לומר, כשאתה שופט אנונימי של אותם אנשים בדיוק שמתחרים איתך על אותו מספר משרות מצומצם בחירוק שיניים, גם זכי הלבב יתקשו להישאר שופטים נייטרליים, ורשעי הלבב על אחת כמה וכמה.

אבל כנראה שכמו דמוקרטיה, זאת השיטה הרעה במיעוטה לשפוט איכות של מחקרים אקדמיים.
שת''פ עם האויב 672747
נדמה לי שזה כן הוזכר שם, אבל קראתי את זה די מזמן.

האנלוגיה לדמוקרטיה כמעט והופיעה גם בתגובה הקודמת שלי :-)
שת''פ עם האויב 672847
>> אנחנו לא יודעים איזה מין ביקורת עמיתים המחקר עבר.

נכון. אנחנו גם לא יודעים איזה מין בדיקות בטיחות עברה כל מעלית שאנחנו משתמשים בה, ויכול להיות שהבודקים מתרשלים באופן פלילי מפעם לפעם, אבל זה לא אומר שצריך לבטל את בדיקות הבטיחות למעליות. כן צריך למסד ולאכוף נהלים שיבטיחו - עד כמה שאפשר - את איכות בדיקות הבטיחות של מעליות, וכנ"ל עם ביקורת עמיתים במחקר האקדמי.

לעניין הסיגריות (שהוא אצלך רק מבוא צדדי, אני חושב, אבל בכל זאת): מחקר מהסוג שתיארת, שבו אוספים נתונים על הרגלים של אנשים ואז בודקים איך ההרגלים קשורים לתחלואה, הוא מה שנקרא "מחקר רטרוספקטיבי". הערך הסטטיסטי של מחקרים רטרוספקטיביים הוא נמוך יותר מזה של מחקרים פרוספקטיביים מבוקרים עם רנדומיזציה, כי הם חשופים ליותר הטיות ולא מנטרלים השפעה של משתנים מתערבים (confounding). למשל, בדוגמת מחקר העישון שלך, גם אם תתגלה תחלואה גבוהה הרבה יותר אצל המעשנים הכבדים, לא ניתן יהיה לדעת האם העישון גורם לתחלואה - יכול להיות שיש משהו (גן?) שגורם לאנשים גם לרצות לעשן וגם לחלות.

בנוסף לבעיות הידועות הנ"ל של המחקרים הרטרוספקטיביים, יש בתת-המקרה של מחקרים מבוססי-שאלונים את בעיית איכות הדיווח. אין מה להגיד, בעיה קשה, שבוודאי עיוותה את המסקנות של אלפי מחקרים.

במקרה הספציפי שלנו - צריכת כולסטרול מדווחת מול מחלות לב - עלו פה בדיון שתי דרכים למדל את הדיווח החלקי: אם אני מבין נכון, הפונז הציע מודל שבו הכמות המדווחת היא חלק קבוע (שליש, אצלו בדוגמא) מהכמות האמיתית, ושכ"ג הציע מודל שבו יש כמות כולסטרול קבועה לא מדווחת אצל כולם. בשני המקרים מדובר בטרנספורמציה לינארית של קו הרגרסיה‏1, ולכן התשובה לשאלה "האם יש קשר מובהק סטטיסטית בין צריכת כולסטרול למחלות לב" תהיה אותו הדבר גם כשהדיווח מדויק לחלוטין וגם כשהוא חסר. לכן אני לא מסכים עם החלק של המשפט שלך "השגיאות … יורידו את המובהקות...". מה שכן ישתנה זה מקדם הרגרסיה, כלומר הכימות של הקשר: אם בלי התחשבות בדיווח החלקי היינו מסיקים שעלייה מחצי ביצה ליום לשלוש ביצים ביום תגדיל את הסיכוי למחלה ב-x אחוז, עכשיו (אחרי התחשבות בדיווח החלקי) נסיק שהיא תגדיל ב-y. מה יותר גדול, x או y? אם אני לא טועה, זה כבר תלוי בסוג הניתוח ובנתונים.
________
1. אני מתייחס לניתוח הסטטיסטי הכי נאיבי של הסיטואציה: רגרסיה לינארית / לוגיסטית פשוטה.
שת''פ עם האויב 672857
תודה יובל על כל התשובות.
בדוגמת הכולסטרול המודלים של שכ''ג והפונז פחות מעניינים כי הם תיאורטיים, מעניין אותי מה קורה במציאות, כהשגיאות יותר קרובות לאקראיות.
לפי התשובות שלך אני מבינה בעקיפין שהמתאם שקיים במציאות היה מתמסמס וקו הרגרסיה היה משתטח, כאילו אין מתאם בין אכילת כולסטרול למחלות לב.

גם אם יש תת דיווח על אכילת בשר, אי אפשר להניח שהוא באחוז שווה או בשיעור שווה אצל כולם. מודל יותר סביר הוא שמי שאוכל הרבה בשר מדווח על אחוז גבוה פחות. מי שאוכל מעט בשר מדווח קרוב למציאות.
כמו כן, כפי שאמרנו, קיימת שיכחה פשוטה, ובנוסף לזה בפרקי זמן כה ארוכים של שנים אנשים במערב משנים את התזונה שלהם בגלל נסיבות חיצוניות או התאהבות באיזה אוכל או בריאות.

מסיבה זו, אגב, מחקר סין הוא מחקר טוב, כי הוא נעשה על חברות סיניות מסורתיות, ובחברות כאלה התזונה של האנשים דומה בקרב האנשים ואינה משתנה כפי שבמערב. ביישוב אחד שהמחקר התבצע בו היה הבדל גדול בין שני שאלונים שמולאו בפרקי זמן שונים. בגלל ההבדלים הגדולים המחקר לא נכלל ברגרסיה, והסיבה להבדלים היתה שהאנשים האלה הם נוודים למחצה, ובעונות מסוימות בשנה אכלו יותר בשר.
שת''פ עם האויב 672883
האם מחקרים דומים לאותם מחקרים שלא מצאו מתאם לאכילת כולסטרול כן הצליחו למצוא מתאמים (חיוביים או שליליים) לכל מיני מאכלים? אם כן, למה שם לא מדובר על שגיאה אקראית?

כמוכן למיטב הבנתי די קשה לא להבחין באכילת בשר. לא ברור לי לפי מה את טוענת שיש תת דיווח דווקא של זה.
שת''פ עם האויב 672919
ברור שיש מחקרים שמצאו מתאמים, כולל מתאם בין אכילת בעלי חיים לכולסטרול. אני שואלת לגבי הכימות שלהם, כי השגיאות בנתונים גורמות לכך שקו הרגרסיה משתטח. כלומר אם נניח שבמציאות ביצה אחת ליום מעלה סיכון למחלת לב ב-‏50%, במחקר נקבל משהו מתון בהרבה, כמו למשל שביצה אחת ליום מעלה סיכון למחלת לב ב-‏10%.
שת''פ עם האויב 673039
האפקט של חוסר הדיוק בדיווח של האנשים הוא כנראה לא כזה גדול. אני אתן דוגמה מספרית.
אני מניח שרירותית את המודל הבא:
100,000 איש
סיכוי למחלת לב אצל מי שלא אוכל ביצים 10%.
סיכוי למחלת לב אצל מי שאוכל ביצה ליום 15%, כלומר 50% יותר‏1.
מספר הביצים שאדם אוכל הוא מספר מקרי בין 0 ל-‏1.
מספר הביצים שאדם מדווח שאכל הוא המספר האמיתי כפול מספר מקרי בין 0.4 ל-‏1.4 (נטיה קטנה לדווח פחות מהערך האמיתי).
אם עושים רגרסיה לינארית, אז במקום עליה בסיכוי של 50% לביצה אחת, נקבל עליה של 39%.

1 יש גם מחקרים שהראו יחס הפוך בין אכילת ביצים ומחלת לב כלילית, ובמטה-אנליזה של המחקרים מקבלים שביצה ביום מורידה את הסיכוי ב-‏1%, כאשר תוצאה זו היא ללא מובהקות. כלומר, לפי המחקרים שנעשו, אפשר לומר שכנראה אין השפעה גדולה (סדר גודל של 50%) של אכילת ביצים. תתכן השפעה קטנה, כאשר יתכן שההשפעה שלילית ויתכן שהיא חיובית.
שת''פ עם האויב 672886
מחקר סין הוא מחקר גרוע, אך כיוון שלפי דעתך זה מחקר טוב, האם בדקת מה מחקר זה אומר על הקשר בין אכילת כולסטרול ומחלות לב?
מחקר סין מצא קשר *הפוך* בין צריכת כולסטרול וכל מחלות לב וכלי דם (כלומר, הייתה פחות תמותה ממחלות אלו באיזורים בהם צרכו יותר כולסטרול). לגבי מחלת לב כלילית, גם היה קשר הפוך (עם מובהקות לאחר תקנון למשתנה הכנסה).
שת''פ עם האויב 672892
כבר נאמר פה שאין שום סיבה שהשגיאות יהיו אקראיות. אם שגיאות הדיווח של אנשים על מעשיהם ותפיסותיהם היו אקראיות, לא היינו לומדים מכהנמן וחבריו על הטיות אופייניות כאלה ואחרות שניתנות למדידה וכימות. הסיבה שקוראים למשהו ''הטייה'' היא שהשגיאה שהוא גורם איננה אקראית, אלא בעלת כיוון ועוצמה יחודיים.

גם המודל היותר סביר בעינייך שתיארת, הוא שגיאה לינארית של המדידה, ובכיוון מוגדר. ולכן מה שאמר על זה יובל תקף גם כאן. (ולא, יובל לא אמר שהמתאם היה מתמסמס).
שת''פ עם האויב 672918
אוקי אבל אני שואלת על שגיאה אקראית.
בדיון הקודם שהיה פה אנשים אמרו ששגיאה אקראית כאילו מתקנת את עצמה (אולי אתה אמרת או צפריר), כי יש אנשים שמגזימים כלפי מעלה ויש שמגזימים כלפי מטה, והשגיאות מתקזזות. אני חושבת שזו טעות, שגיאות אקראיות לא מתקנות את עצמן ברגרסיה, הן משבשות אותה.

ספיציפית לגבי אכילה של מזון כלשהו, גם אם קיימת פונקציית שגיאה אין לך מושג מהי, להניח שהיא לינארית זה ניחוש ללא יסוד, ולכן איך לך מושג איך לתקן. אם בכלל קיבלת שקיים מתאם, כי יכול להיות שהשגיאה יצרה מצג שווא של חוסר מתאם.

אני לא דיברתי על פונקציית שגיאה לינארית, כתבתי שיותר סביר שככל שמישהו אוכל יותר בשר, כך אחוז הדיווח שלו כלפי מטה יהיה יותר גדול. זה לא לינארי.

וזה גם לא המקור היחיד לשגיאה, אנחנו מדברים על פרקי זמן של שנים ועשרות שנים, והתזונה של בני אדם משתנה לאורך השנים האלה, לכן הנתונים שאספת מלאים שגיאות לשני הכיוונים.
שת''פ עם האויב 672922
גם כשמי שאוכל יותר בשר שגיאת הדיווח שלו (כלפי מטה) גדלה, עדיין פונקצית השגיאה היא מונוטונית עולה וכמות הבשר עולה ככל שאוכלים יותר בשר.
גם אם זה יוצא עלייה ריבועית ולא ביחס ישר, זה עדיין לא קשה לעשות לזה רגרסיה לינארית (למרות השם המטעה, רגרסיה לינארית ניתן לעשות גם לפולינומים מסדר גבוה מאחד, בדיוק באותה קלות חישובית).

ושגיאות גדולות - גם אם אקראיות - מצריכות מדגם גדול יותר, אבל עדיין לא משבשות לחלוטין את הרגרסיה (לפחות כל עוד השגיאה לא גדולה משמעותית מהסיגנל - שזה בהחלט לא המצב כאן. אף אחד לא מדווח שהוא אכל במאה וחמישים אחוז פחות ממה שהוא אכל באמת).
שת''פ עם האויב 672925
אתה מניח שזה שאוכל יותר ידווח על קצת יותר. על סמך מה?
יותר סביר שהוא ידווח כמו זה שאוכל מעט. אם נניח שאגוזי ליום זה מעט, זה שאוכל שני אגוזי ידווח שהוא אוכל אחד, ותקבל שאין קשר בין כמות האגוזי ליום לבין סוכרת.
שת''פ עם האויב 672927
מעניין, את טוענת ששני אגוזים ליום הופכים מישהו שהיה אמין ב-‏100% כשאכל אגוז אחד ביום, לשקרן גדול. זאת נשמעת לי ספקולציה מופרכת יותר מכל מודל שהוצע כאן, בטח כשאת צריכה לטעון שזה מתקיים בדיוק לעשרות אלפי אנשים.
וזה עוד לפני שהזכרנו שגם מי שאוכל אגוזי אחד ליום, אוכל יותר אגוזי-ם מרוב האוכלוסיה שאיננה אוכלת אפילו אגוזי אחד ליום.
כשאת הופכת את כל הנתונים האלה למספרים גדולים (במיצוע על תקופות ואנשים), הנתונים הופכים להרבה יותר רציפים וקפיצות של אחד לשניים (או שניים לאחד) הן לא רלוונטיות ולא מציאותיות.

ותהייה נוספת - מעבר לאי הסבירות הסטטיסטית או הלוגית, למה את חושבת שאנשים כל כך מתביישים בכמה אגוזים (או ביצים) הם אוכלים? את מבינה שלרוב האנשים אלה פעולות שאין בהן שום בושה ואין שום סיבה עמוקה לשקר לגביהן?
שת''פ עם האויב 672929
אתה ממעיט בהשפעה של ההונאה העצמית. אנשים נוטים להעריך שהם אוכלים יותר "בריא" (בהתאם למשמעות המעודכנת של "בריא") ממה שהם עושים בפועל, ומדווחים את האמת שהם מכירים‏1. בדומה, אנשים שמנסים לרדת במשקל נוטים לדווח שהם אוכלים פחות ממה שהם אוכלים באמת וכשהם עורכים יומן אכילה מדוקדק, כלומר רושמים כל מה שהם צורכים בעת האכילה (ולא "אני ארשום עוד מעט"), הם מופתעים לא פעם מהתוצאה. אצל מי שמנסה לעלות במשקל, אותו זן משונה בסכנת הכחדה, נתקלים בתופעה הפוכה בדיוק. לכן אין כאן שקר מכוון או בושה אלא חולשה אנושית מוכרת. אני חושב שג'וד צודקת גם בכך שהטיה מערכתית כזאת, אם לא יודעים לנרמל אותה, אכן פוגעת בתקפות המחקרים.
_____________
1- בניגוד לכמה מהמגיבים באתר, אני בטוח שאתה יודע להבדיל בין טעות לבין שקר.
שת''פ עם האויב 672934
אין לי ספק שיש הטיות דיווח משמעותיות. אבל:
א. אני אתפלא אם הן כל כך גדולות ובגודלן ואקראיות בכיוונן כך שהן יחסלו כל קורלציה רבת משתתפים. למשל, כמו שאמרת, "זן בסכנת הכחדה" היא הדרך הפיוטית לומר שהרזים שמגזימים יהיו רחוקים (סטטיסטית) מלקזז את האכלנים המפחיתנים.
ב. הייתי מצפה ממחקרים לעשות מעקב נוסף על דיווח בעל פה, בטח עם כל שלל האמצעים הטכנולוגיים הנגישים לכל אחד מאיתנו היום‏1.

1 בדיוק השבוע התפרסמה במוסף הארץ כתבה מעניינת ומעוררת מחשבות על אמנית שעוסקת בניטור עצמי בלתי פוסק שכולל את דפוסי האכילה, השנה, ההליכה הנשימה ועוד לאורך 24 שעות ביממה, ולעיתים לאורך שבועות. קל לחשוב איך באמצעים שכוללים את הסלולרי שלך ועוד אולי מדיד קטן אפשר לעשות עליך מעקב כל כך מדויק, שהוא ידע עליך הרבה יותר ממה שאתה (חושב שאתה) יודע על עצמך‏2.
למשל, כדי לסבר את האוזן, מדי סוכר רציפים כבר קיימים ונפוצים יותר מעשר שנים, למיטב ידיעתי, וממד כזה הרבה יותר קשה להסתיר את כמות חטיפי האגוזי שאכלת לאורך היום.
2 קל למשל לדמיין - ובקרוב מאד (אם לא אתמול) גם ליישם - מנגנון שעוקב אחרי כל קניות המזון שלך, רק דרגה אחת מעל הפירוט שקיים כבר עשרים שנה של הקניות בכרטיס הויזה, ויודע בדיוק כמה אגוזי אתה קונה.
שת''פ עם האויב 672941
א. אני לא טוען שהן מחסלות כל קורלציה, אבל הן מכניסות הטיה מערכתית שאם לא מתחשבים בה עלולה להיות משמעותית.
ב. תתפלא עד כמה הבקרות בחלק לא מבוטל מהמחקרים עלובות.

2 אבל הוא לא יודע כמה אגוזי אני זורק (או מחלק לחברים של הילדים שלי). הסוּפר יודע כבר היום בדיוק מה המשפחה שלי קונה, בלי להזדקק לטכנולוגיה מסובכת יותר מקורא בר-קוד.
שת''פ עם האויב 672950
2 ראה ‏1 בתגובה הקודמת.
שת''פ עם האויב 672931
מה פתאום, אתה אומר את זה לא אני, אני אומרת שכולם טועים ואנחנו לא יודעים איך.
יש כל מיני מקורות לשגיאה, סתם שכחה כי מי זוכר מה הוא אכל בשנה שעבר, הטייה של מזונות רעים כלפי מטה, ושינויים בחיים.

אני טוענת שכל מתאם שקיים במציאות יתבטא בצורה חלשה יותר במחקרים כאלה אם בכלל.
ואם למרות הכל כן נמצא מתאם, לחלוטין לא סביר שזה במקרה, ומאד סביר שבמציאות הוא יותר גבוה. זה מה שרציתי לשאול יובל, האם הוא חותם על המשפט האחרון.
שת''פ עם האויב 672937
אם נמצא מתאם, אני נוטה להסכים איתך שהוא לא מקרי, ולגמרי לא מסכים איתך שבמציאות הוא יותר גבוה, ונתתי‏1 כבר כמה דוגמאות מפורטות לתרחישים הפוכים.

1 האמת שאת נתת, אני רק ניתחתי אותם והגעתי לתוצאה הלא חביבה עלייך.
שת''פ עם האויב 672943
אי הבנה כי טענת שיש מווטוניות, ובמודל שלי אין מונוטוניות.

(והוא רק דוגמה לכך שאפשר לנחש כל מיני מודלים כי אנחנו לא יודעים איך השגיאות מתנהגות, ואין בסיס להדביק להן מודל שנוח לנו )
שת''פ עם האויב 672944
אבל את זאת שרצתה לטעון (באישור פרופסור מוסמך שעדיין לא ענה) ש''מאד סביר שהמתאם יותר גבוה''. אני הראיתי שיכולים להיות תרחישים אחרים, גם הפוכים, ולכן זה מספיק כדי לערער את הטענה ש''יותר סביר שהמתאם יותר גבוה''. זה לא בהכרח אומר שהמתאם הפוך, כמו בדוגמאות שלי, זה רק אומר שבמקרה הטוב אי אפשר להבחין לכאן או לכאן, בניגוד לטענה שלך.
שת''פ עם האויב 672969
בגלל זה כתבתי ב"סבירות גבוהה". כי במקרה הממוזל שכל האוכלוסיה על שמניה ורזיה מדווחת שאכלה X% פחות ממה שבאמת אכלה, או על X גרם פחות ממה שאכלה (עד אפס), וכולם אותו X, ולמעשה אין אקראיות, בתסריט כזה המתאם יישאר. אלה המודלים שהצגת, אבל הם יקרו בסבירות נמוכה עד מאד.

אין לנו בסיס לדמיין שום מודל לשגיאות. כל מודל שנדביק הוא מונפץ. אם כבר סביר שהמציאות דומה יותר למודל שהצגתי שבו מי שאוכל יותר נוטה לדווח על פחות, ואלה שאוכלים מעט מדווחים יותר במדויק. וסביר שהמציאות אקראית יותר בגלל תכונות אישיות שמתערבות בדיווח, שיכחה, ושינוי תזונה, ואקראיות ממסמסת את המתאם.

יובל לא ענה על זה בדיוק אז אני מחכה לשמוע, אם הוא ימצא את הידיים והרגליים בשרשור הזה.
שת''פ עם האויב 673016
אכן נחכה ליובל, אבל יש לי הערה אחרונה:
נראה שאת מנסה לתפוס את המקל משני קצותיו - גם לטעון שהמחקרים האלה לא מדויקים ואמינים בגלל שגיאות המדידה/דיווח, וגם לטעון שכשנמצא מתאם נמוך, בעצם זה מראה על מתאם גבוה. זה לא עובד. אם המחקרים לא מדויקים ואי אפשר לסמוך עליהם, אז מתאם נמוך יכול להסוות מתאם גבוה יותר, נמוך יותר או חוסר מתאם בכלל.

ואם ניתן לבדוק מתאם באמינות מספקת ולהתגבר על כל השגיאות המוזכרות, אז בואי לפחות נקבל ברצינות את התוצאה ולא נזרוק אותה לפח כי היא לא מוצאת חן בעינינו.
שת''פ עם האויב 673018
הטענה היא שהטיות הדיווח פועלות בכיוון של הקטנת האפקט, כך שאם אכן התגלה אפקט למרות הבעייתייות הזאת הרי שהוא חזק יותר במציאות.
שת''פ עם האויב 673019
זאת טענה חסרת בסיס. גם הנתונים שהבאת בתגובה האחרונה (מרובת הקישורים) לא נראים שתומכים בטענה הזאת.
לדעתי ג'וד מבלבלת בין גודל האפקט למובהקות שלו, ומזה כל התסבוכת. אפקט של עלייה של 10% יכול להיות הרבה יותר מובהק בניסוי מסוים מאפקט של עלייה של 90%. ההבדל בין שני המושגים דומה להבדל בין הממוצע לסטיית התקן - יותר רעש במדידה מגדיל את סטיית התקן אבל לא את הממוצע. בשביל לטעון שהשגיאה היא עצמה בכיוון מסוים, צריך הוכחות יותר רציניות, בייחוד כשהבאנו דוגמה (די סבירה) שבה הקטנת הדיווח גורמת דוקא להגדלת האפקט.
שת''פ עם האויב 673040
"אם המחקרים לא מדויקים ואי אפשר לסמוך עליהם, אז מתאם נמוך יכול להסוות מתאם גבוה יותר, נמוך יותר או חוסר מתאם בכלל"
לא, וזאת הטענה הראשונה שלי, במחקר גדול הסיכוי לקבל במקרה מתאם במקום שהוא איננו קיים, הוא נמוך מאד.

"ואם ניתן לבדוק מתאם באמינות מספקת ולהתגבר על כל השגיאות המוזכרות"
השגיאות המוזכרות - אם כוונתך למודלי השגיאה שאתה הצעת, הם חיפוש מתחת לפנס כי הם ניחושים נוחים בלי בסיס מציאותי, והם אפילו לא פוגמים במתאם.

"אז בואי לפחות נקבל ברצינות את התוצאה ולא נזרוק אותה לפח כי היא לא מוצאת חן בעינינו."
אתה מנהל איתי תת-דיון שאני לא שותפה לו, איזה תוצאה לא מוצאת חן בעיניי?
שת''פ עם האויב 673080
בדיון הספציפי הזה, התוצאה שלא מוצאת חן בעינייך, כנראה, היא שיש מתאם *נמוך* בין אכילת ביצים\צריכת כולסטרול לבין הסיכון למחלות לב.
שת''פ עם האויב 673050
>> יובל לא ענה על זה בדיוק אז אני מחכה לשמוע

ייקח לי קצת זמן, אבל אענה.
שת''פ עם האויב 673614
התכוונתי לכתוב תגובה מפוארת אבל אני לא מגיע לזה. הנה כמה הערות בכל זאת.

ברגרסיה רגילה, המונח "שגיאה" (error) מציין את המרחק בין ערך ה-y של נקודה לבין הערך על קו הרגרסיה שבדיוק מעל ערך ה-x של הנקודה, כמו בתרשים הזה. ג'וד - את השתמשת במונח "שגיאה" כדי לציין את ההבדל בין ערך ה-x המדווח של נקודה (כמות החלב שאנשים טוענים שהם צורכים) לבין הערך ערך ה-x האמיתי (הכמות שהם באמת צורכים). כדי לשמור על טרמינולוגיה נקייה, בואו נקרא לגודל האחרון "סטיית דיווח". (העניין מתקשר ל-Deming regression, אבל לא בדיוק.)

לא בדקתי ולא ידוע לי על מחקרים בנושא, אבל נראה לי הגיוני מה שג'וד טוענת - שסטיית הדיווח לא מתפלגת סימטרית סביב 0, אלא שהיא בעלת נטייה שלילית, כלומר אנשים נוטים לתת דיווח חסר של צריכת החלב שלהם. אממה, כדי שנוכל לקיים דיון כמותי על המשמעות ההסקתית של התופעה הזאת, חייבים למדל אותה איכשהו. במעלה הפתיל היו שני ניסיונות לעשות את זה, אבל את כתבת "אין לנו בסיס לדמיין שום מודל לשגיאות [= סטיות הדיווח]. כל מודל שנדביק הוא מונפץ." אם ככה, אז פשוט אין איך להתקדם בדיון. גם רגרסיה כשלעצמה היא מודל "מונפץ" - למה להניח שהתצפיות בלתי תלויות? למה קו רגרסיה ישר? למה להתייחס לריבועי השגיאות? כבר שנו חכמים: "All models are wrong, but some are useful".

מה שמסבך עוד יותר את העסק זה העובדה שמשתנה ה-y הנצפה שלנו - התוצאה של צריכת חלב כזו או אחרת - הוא באופן טבעי בינארי: התקף לב כן היה או לא היה‏1. אנחנו מנסים לאמוד את ההסתברות שמאורע מסוים (התקף לב) יקרה כתלות בערך x כלשהו (צריכת חלב). הווריאנט של רגרסיה שמתאים למקרים כאלה נקרא "רגרסיה לוגיסטית". צריך וריאנט נפרד כי "הסתברות" - הגודל שאנחנו מנסים לאמוד – היא בהכרח בין 0 ל-‏1, וישר רגרסיה רגיל במוקדם או במאוחר יחרוג מהתחום הזה. לכן מקובל לעבוד עם טרנספורמציה (בד"כ פונקציה שנקראת logit) שתטפל בבעיה הזו. אבל ברגע שעובדים עם טרנספורמציות לא לינאריות מתחילות בעיות עם האינטרפרטציה של "מתאם", "שגיאה" (במובן המקורי של המונח, ולא "סטיית דיווח"), ועוד. אז צריך מאד להיזהר בדיון.
______________
1. אפשר לדבר גם על משתנה y שהוא לא בינארי, למשל תוחלת החיים, אבל נדמה לי שהדיון לא הלך לשם.
שת''פ עם האויב 673634
במחקרי תזונה לא לוקחים בחשבון את סטיות הדיווח. כך שלא חשוב אם הסטיות הן אקראיות או מתנהגות לפי מודל כלשהו, כי במילא לא עושים כלום ומתייחסים לנתונים כאמת.
והתהייה שלי היא מה זה עושה למסקנות המחקר.

למשל, אם מודל הסטיות הוא שככל שאוכלים יותר כולסטרול נוטים לבלף בלוף גדול יותר, נקבל שאין מתאם בין כולסטרול במזון לכולסטרול בדם, כי אנשים אוכלים אותה כמות כולסטרול ולחלק מהם יש כולסטרול גבוה בדם ולחלק נמוך. או שנקבל שיש מתאם רק ברמות צריכה נמוכות אבל אם אוכלים הרבה זה כבר לא משנה.
דברים כאלה.

את הפסקה השניה לא כל כך הבנתי. הדוגמה הספציפית בדיון היא רמת כולסטרול במזון לעומת רמת כולסטרול דם, זאת אומרת שזה רציף ולא בינארי. אבל מזמן תהיתי איך מחשבים עלייה בסיכון למחלה למשל, אז אקרא על ה LOGIT הזה.
תודה על התשובה.
שת''פ עם האויב 673005
תיקון מינוח: שגיאות אקראיות מתקזזות (בהסתברות לא רעה) כאשר משתמשים במדגם מספיק גדול. אבל לא כל השגיאות הן אקראיות. אם הדיווח מוטה מסיבה זו או אחרת (והשימוש במילה "מוטה" לא מיועד לרמוז על הטיה פעילה), ההטיות הללו יבואו לידי ביטוי בתוצאות. ליתר דיוק, גם המתאם שאותו אנחנו מחפשים הוא איזושהי הטיה של המדגם במובן מסוים (כלומר: לעומת מדגם שבו אין קשר בין שני המשתנים).

מעבר לכך, בגלל הניחושים הללו שאלתי האם נעשו מחקרים על הטיות הדיווח של אנשים. יש לנו כאן כל מיני אינטואיציות שונות, אבל הרבה יותר טוב להיעזר בנתונים אמתיים כדי לנסות להעריך את השגיאה.
שת''פ עם האויב 673011
על הטיות הדיווח של סה"כ הצריכה הקלורית: (המאמר המלא לא נגיש לי, כיאה לדיון בו אנחנו נמצאים). מתוך המסקנות: "We observed a large downward bias in reporting food intake related to social desirability score." אם להאמין לתקציר יש להם גם הצעות לטיפול בבעיה.

הדיווח בנוגע לאכילת פירות וירקות נגוע בבעיה די דומה (בלי להכנס לפרטים, אם הודיעו לנחקרים שהמחקר נועד לבדוק צריכת פירות וירקות הם הגזימו בדיווח בכיוון הזה), הנה. מהמסקנות: "Self-reports of fruit and vegetable intake using either a food frequency questionnaire or a limited 24-hour recall are both susceptible to substantial social approval bias."

יש, כמובן, עוד די הרבה, וגוגל ישמח להפנות אותך. כשתיבת החיפוש היתה "self reporting food consumption bias" הוא מצא יותר משני מליון תוצאות.

ממבט חטוף נראה לי שכאן יש סיכום לא רע של המצב. ג'וד - יכול להיות שחלק מהשאלות שהפנית ליובל נענות שם, כאמור אני רק הצצתי.
שת''פ עם האויב 673020
ראיתי לפני כמה חדשים כתבה מתורגמת (בגלובס, אני חושב) על הטיה כלפי מטה באומדן הקלוריות שיש במאכלים.
הנבדקים העריכו בממוצע את כמות הקלוריות באוכל "לא בריא" גבוה יותר מאשר בארוחה שכוללת את אותו אוכל "לא בריא" בתוספת אוכל "בריא".
לדוגמה הנבדקים העריכו את כמות הקלוריות בארוחה הכוללת צ'יזבורגר וצ'יפס לבד ביותר מאשר בארוחה הכוללת את אותם צ'יזבורגר וצ'יפס וגם מקלות סלרי.
שת''פ עם האויב 673025
מה, לא ידעת שלחסה (וגם לסלרי באותה מידה של בטחון ורצינות) יש כמות שלילית של קלוריות, כי אתה מוציא יותר אנרגיה כדי לעכל אותם מהאנרגיה שאתה מפיק מהם?
שת''פ עם האויב 673032
גם לאנטי חומר?
המעי הקטן והמפץ הגדול 673035
בדיוק להיפך, אנטי-חומר שיגע בחלק כלשהוא של מערכת העיכול שלך ישחרר את הכמות ה*מקסימלית* של אנרגיה שניתן להפיק מחומר כלשהוא.
המעי הקטן והמפץ הגדול 673037
אה.
אז שעועית זה אנטי חומר?
(וחייב למחזר:האם אנטי פסטה מנטרלת פסטה?)
I'm having a friend for dinner 673038
(בטח, בייחוד כשהם מלווים באיזה קיאנטי טוב)
שת''פ עם האויב 673041
נכון, זה מחקר מעניין על הנטייה לתת תשובות רצויות והוא דן בחלק מהשאלות שמטרידות אותי. העליתי אותו לדרופבוקס.

גם אני קראתי רק ברפרוף, למשל ככל שאנשים אכלו יותר שומן הם דיווחו על פחות.
שת''פ עם האויב 673043
אם במציאות יש מתאם, שגיאות יגדילו את הפיזור סביב קו הרגרסיה.
אז מקדם הרגרסיה יישאר אותו דבר אבל המדד של הפיזור (שכחתי איך קוראים לו) יהיה גדול.
אז איך שגיאות מקזזות זו את זו?
שת''פ עם האויב 673081
מקדם הרגרסיה נשאר אותו דבר בדיוק בגלל שהשגיאות מקזזות זו את זו.
שת''פ עם האויב 673085
אכן, וזה מה שכתוב בחלק הראשון של המשפט שלי, אבל מה שחשוב זה החלק השני.
מקדם הרגרסיה, כלומר השיפוע של הקו, יישאר, אבל הנקודות לא יהיו מסודרות לאורך הקו אלא מרוחות בפיזור, ופירוש הדבר שחלק גדול מהאוכלוסיה אינה מתנהגת בהתאם למתאם.
יובל יסביר את זה.
שת''פ עם האויב 673088
ברור שחלק מהאוכלוסיה לא מתנהגת (וחמור מזה - מודדת את עצמה ומדווחת) *בדיוק* על פי המתאם. הרי אחרת אפשר היה לשאול שלושה אנשים ולקבל תוצאה אמינה. בגלל שיש שגיאה ב*מדידה* של האפקט הנמדד, יש את הפיזור הזה. אבל כשלעצמה זו לא "בעייה" כל עוד המדגם מספיק גדול ושיפוע הקו לא נפגע.
כדאי אולי להזכיר שכל מה שמעניין אותנו זה השיפוע של הקו הזה, וכל השאר זה המכשולים בדרך ללמדוד אותו. אם השיפוע לא נפגע, אפשר להכריז שקיבלנו מדידה מוצלחת ולהסיק מסקנות‏1. גם כשמודדים את מחירי הדיור הממוצעים, נגלה שחלק (אולי אפילו ניכר) מהדירות, ערכן לא עלה בדיוק כמו הממוצע. חלק עלו פחות, וחלק עלו יותר. ועדיין העלייה הממוצעת היא נתון מעניין וחשוב, שלא כדאי להתעלם ממנו בגלל הפיזור של הדגימות שלנו.

1 כמובן שבמקרים קיצוניים עם שגיאות עצומות, זה שם איזה סימן שאלה על התוצאה, זה טריויאלי.
שת''פ עם האויב 673106
שיפוע זה יפה מאד אבל אנחנו שואלים את עצמנו עד כמה הוא באמת מסביר את ההתנהגות, זאת אומרת בדוגמה שלנו כמה מתוך עליית הכולסטרול בדם מוסברת על ידי עליי הכולסטרול במזון. אם הנקודות מפוזרות במרחקים גדולים מקו הרגרסיה זה אומר שקו הרגרסיה אף שהוא יפה ותלול הוא מסביר מעט מאד, ושיש סיבות אחרות שמשפיעות על הכולסטרול בדם.
אני מדברת בשפת בני אדם ולא בשפת סטטיסטיקאים כדי לא לטעות בשמות, נדמה לי שזה נקרא R.
יובל יסביר לנו איך זה משפיע על מסקנות המחקר.
שת''פ עם האויב 673107
המשפט השני שלך לא נכון. אבל בואי נחכה ליובל.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים