בתשובה לג'וד, 31/10/15 8:21
עד אנחנו מחכים ליובל נוב 666834
הגעתי. קודם כל דיסקליימר: אני לא מומחה בתתי-התחומים הסטטיסטיים הרלוונטיים לדיון הזה (ניתוח נתוני אורך, ניסוח שאלונים, מחקרי תזונה).

אני חושב שאת מבלבלת בין שני מושגים: מקדם קורלציה ומקדם רגרסיה. בניסוח לא פורמלי, ובהקשר המקובל של רגרסיה לינארית פשוטה (כלומר חד-משתנית), קורלציה מודדת כמה צפוף הנקודות מונחות סביב קו הרגרסיה. לקורלציה יש תכונה שהיא אינווריאנטית לטרנספורמציות לינאריות, כלומר

corr(aX + b, Y) = corr(X, Y)

המשמעות המעשית היא שבין אם הנשאלים היו מדווחים במדויק על כמות הקלוריות שהם צורכים, ובין אם כולם היו משקרים ומדווחים בדיוק על חצי (נניח) מהכמות האמיתית, היה מתקבל בדיוק אותו מקדם קורלציה.

אבל הגודל שאני חושב שמעניין אותך הוא לא הקורלציה, אלא מקדם הרגרסיה, שהוא השיפוע של הישר ("האמיתי") שסביבו מפוזרות הנקודות. ככל שהישר הנ"ל תלול יותר, כך הגדלה של צריכת הקלוריות היומית ביחידה אחת תגדיל (בממוצע) במידה רבה יותר את המשקל. שקרים או טעויות בדיווח אכן ישפיעו על האומדן למקדם הרגרסיה.

תרצי אולי לנסח את השאלה שלך שוב, תוך אבחנה בין שני המושגים האלה?

ובהקשר של תגובה 651191: כתבת "הפונקציה היא לינארית אצל כל אדם", ואני משער שהתכוונת "לינארית אבל אחרת אצל כל אדם". זה כמובן נכון הרבה פעמים, אבל ברגע שמכירים בכך, אין פה שום בעיה סטטיסטית. גגלי "random effect model" וראי איך מטפלים במודל שכזה.
עד אנחנו מחכים ליובל נוב 666856
השאלה הראשונה היא על מקדם הקורלציה.
נניח שכל אלפי המשתתפים טועים בדיווח שלהם לכל הכיוונים, גם למעלה וגם למטה בצורה אקראית. מקדם הרגסיה a לא ישתנה, כלומר הקו יהיה באותה זווית כמו קודם, אבל הנקודות יהיו מפוזרות במרחק משני הצדדים שלו ומקדם המתאם יהיה נמוך.

הסטטסיטיקאי של המחקר לא יכול להתעלם ממקדם הקורלציה הנמוך ולומר שעל כל עליה X בבשר מעובד יש עליה aX בסרטן. מה הוא עושה עם זה?

אני מניחה שהוא ישקלל את זה בכל מיני כלים מסובכים ויקבל a נמוך ממה שהוא באמת. למעשה במחקרים כאלה אנחנו מעוניינים בשיעור הסיכון RR, אינני יודעת איך מחשבים אותו אבל מניחה שאותה שגיאה התחלתית תתבטא בכל התוצאות, זה לא יכול להיות אחרת. נכון?

ואז יתפרסם שכל 50 גרם בשר מעובד מעלים סיכון לסרטן ב-‏18%. אוקי, זה המספר הטוב ביותר שהצליחו לקבל מהנתונים, אבל אי אפשר להשוות את המספר הזה לשיעור עליית סיכון בגלל עישון שהוא הרבה יותר קרוב למציאות. אני צודקת? זאת בעצם השאלה שלי.

המצב במציאות הוא גרוע יותר כי הטעויות אינן אקראיות, ודווקא מי שאוכל הרבה ממשהו רע ידווח על פחות, זאת אומרת שגם מקדם הרגרסיה יימעך.

תודה יובל שזכרת גם את השאלה הקודמת שלי מפעם, גיגלתי random effect model. קצת שכחתי מה היה הסיפור עם זה, למיטב זכרוני אפשר ליישם את זה על מחקר כולסטרול אם עושים לכל משתתף בדיקה קלינית מקדימה כדי לראות את התגובה שלו לכולסטרול במזון. אני לא יודעת אם זה ריאלי למחקר תצפיתי.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים