בתשובה ליובל נוב, 02/02/16 20:18
שת''פ עם האויב 673614
התכוונתי לכתוב תגובה מפוארת אבל אני לא מגיע לזה. הנה כמה הערות בכל זאת.

ברגרסיה רגילה, המונח "שגיאה" (error) מציין את המרחק בין ערך ה-y של נקודה לבין הערך על קו הרגרסיה שבדיוק מעל ערך ה-x של הנקודה, כמו בתרשים הזה. ג'וד - את השתמשת במונח "שגיאה" כדי לציין את ההבדל בין ערך ה-x המדווח של נקודה (כמות החלב שאנשים טוענים שהם צורכים) לבין הערך ערך ה-x האמיתי (הכמות שהם באמת צורכים). כדי לשמור על טרמינולוגיה נקייה, בואו נקרא לגודל האחרון "סטיית דיווח". (העניין מתקשר ל-Deming regression, אבל לא בדיוק.)

לא בדקתי ולא ידוע לי על מחקרים בנושא, אבל נראה לי הגיוני מה שג'וד טוענת - שסטיית הדיווח לא מתפלגת סימטרית סביב 0, אלא שהיא בעלת נטייה שלילית, כלומר אנשים נוטים לתת דיווח חסר של צריכת החלב שלהם. אממה, כדי שנוכל לקיים דיון כמותי על המשמעות ההסקתית של התופעה הזאת, חייבים למדל אותה איכשהו. במעלה הפתיל היו שני ניסיונות לעשות את זה, אבל את כתבת "אין לנו בסיס לדמיין שום מודל לשגיאות [= סטיות הדיווח]. כל מודל שנדביק הוא מונפץ." אם ככה, אז פשוט אין איך להתקדם בדיון. גם רגרסיה כשלעצמה היא מודל "מונפץ" - למה להניח שהתצפיות בלתי תלויות? למה קו רגרסיה ישר? למה להתייחס לריבועי השגיאות? כבר שנו חכמים: "All models are wrong, but some are useful".

מה שמסבך עוד יותר את העסק זה העובדה שמשתנה ה-y הנצפה שלנו - התוצאה של צריכת חלב כזו או אחרת - הוא באופן טבעי בינארי: התקף לב כן היה או לא היה‏1. אנחנו מנסים לאמוד את ההסתברות שמאורע מסוים (התקף לב) יקרה כתלות בערך x כלשהו (צריכת חלב). הווריאנט של רגרסיה שמתאים למקרים כאלה נקרא "רגרסיה לוגיסטית". צריך וריאנט נפרד כי "הסתברות" - הגודל שאנחנו מנסים לאמוד – היא בהכרח בין 0 ל-‏1, וישר רגרסיה רגיל במוקדם או במאוחר יחרוג מהתחום הזה. לכן מקובל לעבוד עם טרנספורמציה (בד"כ פונקציה שנקראת logit) שתטפל בבעיה הזו. אבל ברגע שעובדים עם טרנספורמציות לא לינאריות מתחילות בעיות עם האינטרפרטציה של "מתאם", "שגיאה" (במובן המקורי של המונח, ולא "סטיית דיווח"), ועוד. אז צריך מאד להיזהר בדיון.
______________
1. אפשר לדבר גם על משתנה y שהוא לא בינארי, למשל תוחלת החיים, אבל נדמה לי שהדיון לא הלך לשם.
שת''פ עם האויב 673634
במחקרי תזונה לא לוקחים בחשבון את סטיות הדיווח. כך שלא חשוב אם הסטיות הן אקראיות או מתנהגות לפי מודל כלשהו, כי במילא לא עושים כלום ומתייחסים לנתונים כאמת.
והתהייה שלי היא מה זה עושה למסקנות המחקר.

למשל, אם מודל הסטיות הוא שככל שאוכלים יותר כולסטרול נוטים לבלף בלוף גדול יותר, נקבל שאין מתאם בין כולסטרול במזון לכולסטרול בדם, כי אנשים אוכלים אותה כמות כולסטרול ולחלק מהם יש כולסטרול גבוה בדם ולחלק נמוך. או שנקבל שיש מתאם רק ברמות צריכה נמוכות אבל אם אוכלים הרבה זה כבר לא משנה.
דברים כאלה.

את הפסקה השניה לא כל כך הבנתי. הדוגמה הספציפית בדיון היא רמת כולסטרול במזון לעומת רמת כולסטרול דם, זאת אומרת שזה רציף ולא בינארי. אבל מזמן תהיתי איך מחשבים עלייה בסיכון למחלה למשל, אז אקרא על ה LOGIT הזה.
תודה על התשובה.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים