בתשובה לג'וד, 30/10/15 12:27
עד אנחנו מחכים ליובל נוב 666771
לדוגמה שני משתנים, כמות הקלוריות ומשקל עודף.
שואלים אנשים כמה קלוריות הם אוכלים ליום ושוקלים אותם.
אנו מניחים שבמציאות יש בין המשתנים קשר מתימטי לינארי.
מציירים את הנקודות על גרף כשבציר X קלוריות ובציר Y משקל עודף.
כדי למצוא את הקורלציה אנו מחפשים את הפונקציה הלינארית הכי טובה שמחברת את הנקודות, זאת אומרת עושים רגרסיה לינארית.
אם האנשים היו נותנים נתונים מדויקים היינו מקבלים קו שהנקודות נמצאות צפוף לאורכו.

אבל כשמדובר במה הם אכלו אנשים טועים, גם באופן אקראי וגם באופן לא אקראי זאת אומרת נוטים להמעיט בכמויות הדברים "הרעים" שהם אכלו. נניח שהם טועים רק באופן אקראי והטעויות מאזנות זו את זו, אז נקבל את אותה פונקציה לינארית, אבל הנקודות יהיו מפוזרות סביבה בפיזור גבוה.

מה פירוש פיזור גבוה, פירושו שהמרחקים בין הנקודות לבין הקו הישר הם גדולים, זה מה שמודד מקדם הקורלציה. הוא היה אמור להיות קרוב ל-‏1 אבל נקבל מספר נמוך יותר.

במקרה קיצוני המסקנה המחקרית תהיה: ככל הנראה יש קשר בין קלוריות למשקל עודף אבל קשר די חלש ולא צריך להיכנס לפניקה ולעשות שינויים מפליגים בדיאטה.

אם בציר X נשים משהו עדכני יותר כמו בשר מעובד ובציר Y תחלואה בסרטן, נקבל שיש ביניהם מתאם חלש בהרבה ממה שהוא במציאות.

המסקנה האינטואיטיבית שלי היא שבמחקרים תצפיתיים שמסתמכים על עדות של אנשים על פרטי פרטים של מה שהם אכלו, כל קורלציה שתימצא היא נמוכה בהרבה מהמציאות.
האם אכן זה מה שקורה, האם מישהו עשה מחקר השוואתי כזה בין קורלציה במציאות לבין קורלציה שמתקבלת במחקרים, ואם זה נכון מה עושים עם זה. נראה לי שאי אפשר לטפל בזה מתוך הסטטיסטיקה כי היא לא יכולה לספק יותר מידע ממה שיש בנתונים שהיא קיבלה, אבל איך החוקר שעושה שימוש בסטטיסטיקה אמור להתייחס לזה. כיום מתייחסים למספרים האלה כעובדת טבע.
עד שאנחנו מחכים ליובל נוב 666772
תיקון כותרת: עד שאנחנו מחכים ליובל נוב
עד שאנחנו מחכים ליובל נוב 666815
עד יכונן ועד ישים את ירושלים תהילה בארץ
עד שאנחנו מחכים ליובל נוב 666858
:-) תודה
עד אנחנו מחכים ליובל נוב 666776
דיווח לא מדויק של המשתתפים גם משפיע על הערפלנים ולכן גם על התיקון שלהם.
בנוסף, יש ערפלנים שלא נבדקים כלל. היו כבר מקרים שבהם קורלציה חזקה במחקרי תצפית התבררה ככנראה לא נכונה לאחר שנעשו מחקרי התערבות בנושא.
עד אנחנו מחכים ליובל נוב 666788
רעש מדידה קיים באינספור תחומים, מהמדעים המדויקים ועד אלה שפחות. לשמחתנו, הוא לא מאפס את יכולתנו להפיק תוצאות כמותיות על אף הרעש, ויש אלפי ספרים ומחקרים שמתמודדים עם הנושא בהצלחה.

מתאם בין שני משתנים לא יתקרב ל-‏1, כל עוד יש (ובענייני תזונה ובריאות יש המון) משתנים נוספים שמשפיעים על התוצאה (משקל בדוגמה שלך). אבל אין שום צורך במתאם 1. גם מתאם נמוך יותר עדיין יכול להראות בקלות על הקורלציה הרצויה. לא לחינם, אחרי כל רעשי המדידה, הגיע המחקר למסקנה כמותית - שהיא, דא עקא, שבשר מעובד מסוכן פי מאה(!) פחות מעישון כגורם לסרטן - לגבי הקורלציה הנ"ל.
ייתכן כמובן ויש איזו הטייה שיטתית מחלישה לגבי הקורלציה, אבל מכאן ועד פסילה גורפת של כל מחקר שהוא הדרך ארוכה.
עד אנחנו מחכים ליובל נוב 666790
שוב: מהו בשר מעובד? האם צריך להתייחס באותה מידה לבשר מומלח, בשר משומר עם (חומר א'), בשר משומר עם (חומר ב'), בשר משומר עם צמח שימור (לדוגמה: נדמה לי שפלפל. תערובת של חומר א' וחומר ב') ובשר מעושן?

ומה לגבי כל הירקות המוחמצים? האם צריך להתחיל לסלק אותם מדוכני השווארמה מכיוון שהם לא בריאים? (טוב, נו, בסדר. יש שם משהו בריא?)
עד שאנחנו מחכים ליובל נוב 666794
אולי פי 50 פחות מעישון ולא פי 100 לפי הדוח של WHO, אבל ההערכה שלך הרבה יותר סבירה ממספרים אחרים שראיתי במאמרים מדעיים, פסאודו מדעיים יותר נכון.

בלי קשר לפי כמה, הציטוט שלך הוא דוגמה לבעייתיות שאני שואלת עליה.
אתה משווה את גובה המתאם בין בשר מעובד לסרטן לגובה המתאם בין עישון לסרטן - עישון הוא משתנה שנמדד באופן אובייקטיבי למדי, אדם יודע להעיד כמה סיגריות הוא מעשן, חצי קופסה, קופסה, 5 סיגריות ליום, זה דבר קבוע פחות או יותר שלא תלוי בתעתועי הזכרון. זהו גם משתנה בדיד שאיננו חלק מצרור משתנים אחרים, הרי לפעמים אדם בכלל לא יודע שהוא אכל בשר מעובד, וזה עוד יותר גרוע כשמנסים לבדוק כמה כולסטרול הו אכל כי הוא לא יודע.

כלומר, הקורלציה במחקר חצפיתי על הקשר בין עישון לסרטן נותנת אוטומטית מקדם מתאם גבוה יותר, מאשר המתאם בין בשר מעובד לסרטן, ובכל זאת אתה משווה בין המתאמים שהם אשכוליות ותפוזים, ואומר פי מאה.
עד שאנחנו מחכים ליובל נוב 666796
מה שאת אומרת זה שאין בכלל נתונים. כלומר אין לארגון הבריאות העולמי סיבה לצאת בהמלצה הזו.
עד אנחנו מחכים ליובל נוב 666789
אגב, אם אנשים נוטים להמעיט בכמויות הדברים ה"רעים", זה דוקא יגרום למחקר להגיע לתוצאות חמורות יותר - העלייה של 18 אחוז בסיכון לסרטן תיזקף לזכותם של חמישים גרם ביום במקום המאה גרם האמיתיים. מה שאומר שהסיכון במציאות נמוך יותר מתוצאות המחקר.
עד אנחנו מחכים ליובל נוב 666797
זה נכון במצב שאתה יודע מראש שיש מתאם בין שני המשתנים, ויודע גם מה גובהו.
אבל זה לא המצב, אם אתה לא יודע אם בכלל יש מתאם ובטח לא מה גובהו, אתה תסיק שאין מתאם וסרטן לא תלוי בבשר מעובד, כי גם אנשים שאוכלים ממש טיפה לוקים בסרטן.
עד שיובל נוב יבוא 666802
למיטב הבנתי (אני מניח שמומחים גדולים ממני יתקנו אותי) אנחנו מדברים כאן על הסתברויות. גם במקרה של קרציוגנים מובהקים יותר כמו השתוללות על דשא (סליחה: עישון, ושאיפת עשן אזבסט) ההסתברות שמעשה אחד כזה יגרום לגידול סרטני היא מאוד נמוכה (מכיוון שיש עד כמה דברים שצריכים לקרות בין מוטציה בודדת שמושרית על ידי הפעולה לבין גידול סרטני פעיל‏1 ומכיוון שלגוף יש מנגנוני תיקון. לכן מנסים לכמת את ההסתברות של פעולה (בתדירות מוגדרת) כזו להשרות גידול סרטני מסוג מסויים (ככל שהתדירות עולה היכולת להשרות חזקה יותר).

אני מניח‏2 שאין נזק משמעותי בסיגריה פעם בשנה: הנזק ממנה זניח יחסית לגורמי סיכון אחרים ויחסית לתועלת (הפסיכולות הפוטנציאלית, לדוגמה). תוספת סיכון של 18% אינה תוספת סיכון גבוהה במיוחד (מדובר על תוספת סיכון לאורך כל החיים)‏3. אני מניח (לא בדקתי את הנתונים המקוריים) שברמות נמוכות יותר קיבלו תוספת סיכון נמוכה בהרבה ודי זניחה (אם בכלל קיימת).

1 זכור לי שהיה גם מאמר באייל על מה שצריך לקרות. אבל אין לי כוח לחפש כרגע. בפרט נדרשות כמה מוטציות. אני אתעלם במשפט הזה מהפרט הטכני הקטן הזה. אבל לא בהמשך.

2 לא בדקתי את הנתונים ויכול להיות שגם עישון סיגריה אחת בשנה עדיין משמעותי. אם כך צריך להוריד את התדירות.

3 אבל אני לא טוען שלא מדובר על תוספת סיכון לא מובהקת.
עד שיובל נוב יבוא 666804
בכלל, 18% ממה? אם הסיכוי של צמחוני לקבל סרטן מעי הוא 0.000001% לאורך כל חייו, אני לא חושב שעליה של 18% צריכה באמת להדאיג מישהו.
עד שיובל נוב יבוא 666809
לפי סרטן המעי הגס [ויקיפדיה] זהו סוג הסרטן השלישי בשכיחותו, והשני בגורמי המוות הסרטניים בעולם המערבי. אתה מוזמן למצוא נתונים מדוייקים יותר, אבל נראה שזה לא זניח.
עד אנחנו מחכים ליובל נוב 666834
הגעתי. קודם כל דיסקליימר: אני לא מומחה בתתי-התחומים הסטטיסטיים הרלוונטיים לדיון הזה (ניתוח נתוני אורך, ניסוח שאלונים, מחקרי תזונה).

אני חושב שאת מבלבלת בין שני מושגים: מקדם קורלציה ומקדם רגרסיה. בניסוח לא פורמלי, ובהקשר המקובל של רגרסיה לינארית פשוטה (כלומר חד-משתנית), קורלציה מודדת כמה צפוף הנקודות מונחות סביב קו הרגרסיה. לקורלציה יש תכונה שהיא אינווריאנטית לטרנספורמציות לינאריות, כלומר

corr(aX + b, Y) = corr(X, Y)

המשמעות המעשית היא שבין אם הנשאלים היו מדווחים במדויק על כמות הקלוריות שהם צורכים, ובין אם כולם היו משקרים ומדווחים בדיוק על חצי (נניח) מהכמות האמיתית, היה מתקבל בדיוק אותו מקדם קורלציה.

אבל הגודל שאני חושב שמעניין אותך הוא לא הקורלציה, אלא מקדם הרגרסיה, שהוא השיפוע של הישר ("האמיתי") שסביבו מפוזרות הנקודות. ככל שהישר הנ"ל תלול יותר, כך הגדלה של צריכת הקלוריות היומית ביחידה אחת תגדיל (בממוצע) במידה רבה יותר את המשקל. שקרים או טעויות בדיווח אכן ישפיעו על האומדן למקדם הרגרסיה.

תרצי אולי לנסח את השאלה שלך שוב, תוך אבחנה בין שני המושגים האלה?

ובהקשר של תגובה 651191: כתבת "הפונקציה היא לינארית אצל כל אדם", ואני משער שהתכוונת "לינארית אבל אחרת אצל כל אדם". זה כמובן נכון הרבה פעמים, אבל ברגע שמכירים בכך, אין פה שום בעיה סטטיסטית. גגלי "random effect model" וראי איך מטפלים במודל שכזה.
עד אנחנו מחכים ליובל נוב 666856
השאלה הראשונה היא על מקדם הקורלציה.
נניח שכל אלפי המשתתפים טועים בדיווח שלהם לכל הכיוונים, גם למעלה וגם למטה בצורה אקראית. מקדם הרגסיה a לא ישתנה, כלומר הקו יהיה באותה זווית כמו קודם, אבל הנקודות יהיו מפוזרות במרחק משני הצדדים שלו ומקדם המתאם יהיה נמוך.

הסטטסיטיקאי של המחקר לא יכול להתעלם ממקדם הקורלציה הנמוך ולומר שעל כל עליה X בבשר מעובד יש עליה aX בסרטן. מה הוא עושה עם זה?

אני מניחה שהוא ישקלל את זה בכל מיני כלים מסובכים ויקבל a נמוך ממה שהוא באמת. למעשה במחקרים כאלה אנחנו מעוניינים בשיעור הסיכון RR, אינני יודעת איך מחשבים אותו אבל מניחה שאותה שגיאה התחלתית תתבטא בכל התוצאות, זה לא יכול להיות אחרת. נכון?

ואז יתפרסם שכל 50 גרם בשר מעובד מעלים סיכון לסרטן ב-‏18%. אוקי, זה המספר הטוב ביותר שהצליחו לקבל מהנתונים, אבל אי אפשר להשוות את המספר הזה לשיעור עליית סיכון בגלל עישון שהוא הרבה יותר קרוב למציאות. אני צודקת? זאת בעצם השאלה שלי.

המצב במציאות הוא גרוע יותר כי הטעויות אינן אקראיות, ודווקא מי שאוכל הרבה ממשהו רע ידווח על פחות, זאת אומרת שגם מקדם הרגרסיה יימעך.

תודה יובל שזכרת גם את השאלה הקודמת שלי מפעם, גיגלתי random effect model. קצת שכחתי מה היה הסיפור עם זה, למיטב זכרוני אפשר ליישם את זה על מחקר כולסטרול אם עושים לכל משתתף בדיקה קלינית מקדימה כדי לראות את התגובה שלו לכולסטרול במזון. אני לא יודעת אם זה ריאלי למחקר תצפיתי.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים