בתשובה לג'וד, 19/02/15 9:22
666727
אני שואלת שוב באותו עניין כי אני לא מוצאת תשובה.
הבעיה של מחקרים תצפיתיים על תזונה, שנערכים על פני עשרות שנים, היא האמינות הנמוכה של הנתונים שלהם. המחקרים האלה הם גדולים וכוללים אלפי אנשים, הנתונים נאספים בנקודת זמן כלשהי דרך שאלון מפורט שמציגים למשתתפים ובו הם מפרטים כמה הם אכלו מכל מוצר במשך השבוע האחרון למשל. ואז עוקבים אחרי בריאותם לאורך שנים דרך נתוני מערכות הבריאות או אמצעי אחר. לפעמים מתשאלים שוב, אבל יש הרבה אי דיוק בדיווחים האלה כי אנשים לא זוכרים מה הם אוכלים, נוטים מטבעם לדמיין שהם אכלו פחות ממה שאכלו באמת, ואנשים משנים את התזונה שלהם פרקי זמן שונים, עושים דיאטה, מתאהבים באיזה מאכל, עוברים לארץ אחרת, מתחתנים.
במצב כזה גם כאשר במציאות יש קורלציה גבוהה בין שני דברים, במחקר זה יבוא לידי ביטוי בצורה הרבה יותר חלשה, אם בכלל.
למשל במחקרים על הקשר בין כולסטרל בתזונה לכולסטרול בדם, גם אם במציאות יש קשר ישיר, במחקר הקורלציה נוטה להתבדר בגלל השגיאות, ואו שלא תימצא קורלציה כלל ואז לא נוכל ללמוד כלום מהמחקר, או שבמקרה הטוב כן תימצא קורלציה, אבל היא תמיד תהיה נמוכה מהקורלציה האמיתית.
מישהו מכיר מאמרים שדנים בסוגיה הזאת?
מתודולוגיה 666734
מה שאת אומרת נשמע נכון מאד, אלא שמתודולוגיה זה לא סקסי וממש הפוך מכותרת לעיתון. אני בטוח שיש הרבה מאמרים שדנים במתודולוגיה אבל הנראות שלהם נמוכה.
666738
אני רואה את הבעיה טיפה אחרת, ואני מקוה שיובל נוב יבוא לתת לנו את חוות דעתו.

באופן כללי, מאחר והמחקרים התצפיתיים אלה נעשים על עשרות או מאות אלפי אנשים, אי הדיוקים שלהם אמורים פחות או יותר לבטל זה את זה, כך שהם לא בהכרח יפחיתו את גדול האפקט הנמדד. אבל זה בתנאי שהאי-דיוקים הם אקראיים, כלומר מתפלגים סימטרית לשני הכיוונים סביב האמת. מה שקורה בשאלונים רבים הוא שהציבור מרמה - בעיקר את עצמו - לכיוון של מה שנתפס אצלו כ"התנהגות טובה" או "בריאה". לכן, למשל, רוב האנשים שסובלים מעודף משקל מדווחים שהם אוכלים פחות ממה שהם באמת אוכלים (יש מחקרים - לא תצפיתיים - שבדקו את זה), אנשים בתת משקל מדווחים על צריכת מזון מוגזמת, וכד'. בענייני שומן רווי וכולסטרול סביר שהדיווח באמת מוטה לצד המפחית, בעיקר אצל צרכני כולסטרול מובהקים, ולכך יש השפעה אמיתית על התוצאות. אי לכך אני מציע לך לא להתחיל לזלול בשר :)
666739
אי דיוקים שמבטלים את את השני ימחקו את הקורלציה. אני טועה?
666764
לא ימחקו את הקורלציה, הם ימחקו או יקטינו את שגיאת המדידה של אותה קורלציה.
666769
?
666784
מה לא מובן? יש גודל נמדד (למשל קורלציה בין שני משתנים), ויש אי דיוקים שנובעים מהמתודולוגיה. מה שהשוטה אמר, זה שגורמים מסוימים, למשל גודל המדגם, מקטינים את אי הדיוקים האלה, אבל זה לא מקטין את הגודל הנמדד - הקורלציה במקרה הזה.
נהפוך הוא, הקטנת אי הדיוקים דוקא הופכת את הקורלציה למובהקת יותר.
678017
היי שכ"ג, בדיון שהיה בנושא הזה הבאת קישור למחקר פסיכולוגי על כך שאנשים נוטים לדווח בצורה "מנומסת", כלומר למשל לדווח על פחות בשר ממה שהם באמת אוכלים. אני לא מוצאת את הקישור הזה, אתה זוכר איפה הוא?
מישהו קרא לי? 678060
לא זוכר על מה מדובר בדיוק, אבל אני חושב שכאן תוכלי למצוא לפחות מצביע למה שאת מבקשת.

למתעניינים: מוטב לפנות אלי בדואר ולא בהודעות באייל.
מישהו קרא לי? 678081
זה לא זה אבל זה בכיוון, תנק יו ורי מאץ'
עד אנחנו מחכים ליובל נוב 666771
לדוגמה שני משתנים, כמות הקלוריות ומשקל עודף.
שואלים אנשים כמה קלוריות הם אוכלים ליום ושוקלים אותם.
אנו מניחים שבמציאות יש בין המשתנים קשר מתימטי לינארי.
מציירים את הנקודות על גרף כשבציר X קלוריות ובציר Y משקל עודף.
כדי למצוא את הקורלציה אנו מחפשים את הפונקציה הלינארית הכי טובה שמחברת את הנקודות, זאת אומרת עושים רגרסיה לינארית.
אם האנשים היו נותנים נתונים מדויקים היינו מקבלים קו שהנקודות נמצאות צפוף לאורכו.

אבל כשמדובר במה הם אכלו אנשים טועים, גם באופן אקראי וגם באופן לא אקראי זאת אומרת נוטים להמעיט בכמויות הדברים "הרעים" שהם אכלו. נניח שהם טועים רק באופן אקראי והטעויות מאזנות זו את זו, אז נקבל את אותה פונקציה לינארית, אבל הנקודות יהיו מפוזרות סביבה בפיזור גבוה.

מה פירוש פיזור גבוה, פירושו שהמרחקים בין הנקודות לבין הקו הישר הם גדולים, זה מה שמודד מקדם הקורלציה. הוא היה אמור להיות קרוב ל-‏1 אבל נקבל מספר נמוך יותר.

במקרה קיצוני המסקנה המחקרית תהיה: ככל הנראה יש קשר בין קלוריות למשקל עודף אבל קשר די חלש ולא צריך להיכנס לפניקה ולעשות שינויים מפליגים בדיאטה.

אם בציר X נשים משהו עדכני יותר כמו בשר מעובד ובציר Y תחלואה בסרטן, נקבל שיש ביניהם מתאם חלש בהרבה ממה שהוא במציאות.

המסקנה האינטואיטיבית שלי היא שבמחקרים תצפיתיים שמסתמכים על עדות של אנשים על פרטי פרטים של מה שהם אכלו, כל קורלציה שתימצא היא נמוכה בהרבה מהמציאות.
האם אכן זה מה שקורה, האם מישהו עשה מחקר השוואתי כזה בין קורלציה במציאות לבין קורלציה שמתקבלת במחקרים, ואם זה נכון מה עושים עם זה. נראה לי שאי אפשר לטפל בזה מתוך הסטטיסטיקה כי היא לא יכולה לספק יותר מידע ממה שיש בנתונים שהיא קיבלה, אבל איך החוקר שעושה שימוש בסטטיסטיקה אמור להתייחס לזה. כיום מתייחסים למספרים האלה כעובדת טבע.
עד שאנחנו מחכים ליובל נוב 666772
תיקון כותרת: עד שאנחנו מחכים ליובל נוב
עד שאנחנו מחכים ליובל נוב 666815
עד יכונן ועד ישים את ירושלים תהילה בארץ
עד שאנחנו מחכים ליובל נוב 666858
:-) תודה
עד אנחנו מחכים ליובל נוב 666776
דיווח לא מדויק של המשתתפים גם משפיע על הערפלנים ולכן גם על התיקון שלהם.
בנוסף, יש ערפלנים שלא נבדקים כלל. היו כבר מקרים שבהם קורלציה חזקה במחקרי תצפית התבררה ככנראה לא נכונה לאחר שנעשו מחקרי התערבות בנושא.
עד אנחנו מחכים ליובל נוב 666788
רעש מדידה קיים באינספור תחומים, מהמדעים המדויקים ועד אלה שפחות. לשמחתנו, הוא לא מאפס את יכולתנו להפיק תוצאות כמותיות על אף הרעש, ויש אלפי ספרים ומחקרים שמתמודדים עם הנושא בהצלחה.

מתאם בין שני משתנים לא יתקרב ל-‏1, כל עוד יש (ובענייני תזונה ובריאות יש המון) משתנים נוספים שמשפיעים על התוצאה (משקל בדוגמה שלך). אבל אין שום צורך במתאם 1. גם מתאם נמוך יותר עדיין יכול להראות בקלות על הקורלציה הרצויה. לא לחינם, אחרי כל רעשי המדידה, הגיע המחקר למסקנה כמותית - שהיא, דא עקא, שבשר מעובד מסוכן פי מאה(!) פחות מעישון כגורם לסרטן - לגבי הקורלציה הנ"ל.
ייתכן כמובן ויש איזו הטייה שיטתית מחלישה לגבי הקורלציה, אבל מכאן ועד פסילה גורפת של כל מחקר שהוא הדרך ארוכה.
עד אנחנו מחכים ליובל נוב 666790
שוב: מהו בשר מעובד? האם צריך להתייחס באותה מידה לבשר מומלח, בשר משומר עם (חומר א'), בשר משומר עם (חומר ב'), בשר משומר עם צמח שימור (לדוגמה: נדמה לי שפלפל. תערובת של חומר א' וחומר ב') ובשר מעושן?

ומה לגבי כל הירקות המוחמצים? האם צריך להתחיל לסלק אותם מדוכני השווארמה מכיוון שהם לא בריאים? (טוב, נו, בסדר. יש שם משהו בריא?)
עד שאנחנו מחכים ליובל נוב 666794
אולי פי 50 פחות מעישון ולא פי 100 לפי הדוח של WHO, אבל ההערכה שלך הרבה יותר סבירה ממספרים אחרים שראיתי במאמרים מדעיים, פסאודו מדעיים יותר נכון.

בלי קשר לפי כמה, הציטוט שלך הוא דוגמה לבעייתיות שאני שואלת עליה.
אתה משווה את גובה המתאם בין בשר מעובד לסרטן לגובה המתאם בין עישון לסרטן - עישון הוא משתנה שנמדד באופן אובייקטיבי למדי, אדם יודע להעיד כמה סיגריות הוא מעשן, חצי קופסה, קופסה, 5 סיגריות ליום, זה דבר קבוע פחות או יותר שלא תלוי בתעתועי הזכרון. זהו גם משתנה בדיד שאיננו חלק מצרור משתנים אחרים, הרי לפעמים אדם בכלל לא יודע שהוא אכל בשר מעובד, וזה עוד יותר גרוע כשמנסים לבדוק כמה כולסטרול הו אכל כי הוא לא יודע.

כלומר, הקורלציה במחקר חצפיתי על הקשר בין עישון לסרטן נותנת אוטומטית מקדם מתאם גבוה יותר, מאשר המתאם בין בשר מעובד לסרטן, ובכל זאת אתה משווה בין המתאמים שהם אשכוליות ותפוזים, ואומר פי מאה.
עד שאנחנו מחכים ליובל נוב 666796
מה שאת אומרת זה שאין בכלל נתונים. כלומר אין לארגון הבריאות העולמי סיבה לצאת בהמלצה הזו.
עד אנחנו מחכים ליובל נוב 666789
אגב, אם אנשים נוטים להמעיט בכמויות הדברים ה"רעים", זה דוקא יגרום למחקר להגיע לתוצאות חמורות יותר - העלייה של 18 אחוז בסיכון לסרטן תיזקף לזכותם של חמישים גרם ביום במקום המאה גרם האמיתיים. מה שאומר שהסיכון במציאות נמוך יותר מתוצאות המחקר.
עד אנחנו מחכים ליובל נוב 666797
זה נכון במצב שאתה יודע מראש שיש מתאם בין שני המשתנים, ויודע גם מה גובהו.
אבל זה לא המצב, אם אתה לא יודע אם בכלל יש מתאם ובטח לא מה גובהו, אתה תסיק שאין מתאם וסרטן לא תלוי בבשר מעובד, כי גם אנשים שאוכלים ממש טיפה לוקים בסרטן.
עד שיובל נוב יבוא 666802
למיטב הבנתי (אני מניח שמומחים גדולים ממני יתקנו אותי) אנחנו מדברים כאן על הסתברויות. גם במקרה של קרציוגנים מובהקים יותר כמו השתוללות על דשא (סליחה: עישון, ושאיפת עשן אזבסט) ההסתברות שמעשה אחד כזה יגרום לגידול סרטני היא מאוד נמוכה (מכיוון שיש עד כמה דברים שצריכים לקרות בין מוטציה בודדת שמושרית על ידי הפעולה לבין גידול סרטני פעיל‏1 ומכיוון שלגוף יש מנגנוני תיקון. לכן מנסים לכמת את ההסתברות של פעולה (בתדירות מוגדרת) כזו להשרות גידול סרטני מסוג מסויים (ככל שהתדירות עולה היכולת להשרות חזקה יותר).

אני מניח‏2 שאין נזק משמעותי בסיגריה פעם בשנה: הנזק ממנה זניח יחסית לגורמי סיכון אחרים ויחסית לתועלת (הפסיכולות הפוטנציאלית, לדוגמה). תוספת סיכון של 18% אינה תוספת סיכון גבוהה במיוחד (מדובר על תוספת סיכון לאורך כל החיים)‏3. אני מניח (לא בדקתי את הנתונים המקוריים) שברמות נמוכות יותר קיבלו תוספת סיכון נמוכה בהרבה ודי זניחה (אם בכלל קיימת).

1 זכור לי שהיה גם מאמר באייל על מה שצריך לקרות. אבל אין לי כוח לחפש כרגע. בפרט נדרשות כמה מוטציות. אני אתעלם במשפט הזה מהפרט הטכני הקטן הזה. אבל לא בהמשך.

2 לא בדקתי את הנתונים ויכול להיות שגם עישון סיגריה אחת בשנה עדיין משמעותי. אם כך צריך להוריד את התדירות.

3 אבל אני לא טוען שלא מדובר על תוספת סיכון לא מובהקת.
עד שיובל נוב יבוא 666804
בכלל, 18% ממה? אם הסיכוי של צמחוני לקבל סרטן מעי הוא 0.000001% לאורך כל חייו, אני לא חושב שעליה של 18% צריכה באמת להדאיג מישהו.
עד שיובל נוב יבוא 666809
לפי סרטן המעי הגס [ויקיפדיה] זהו סוג הסרטן השלישי בשכיחותו, והשני בגורמי המוות הסרטניים בעולם המערבי. אתה מוזמן למצוא נתונים מדוייקים יותר, אבל נראה שזה לא זניח.
עד אנחנו מחכים ליובל נוב 666834
הגעתי. קודם כל דיסקליימר: אני לא מומחה בתתי-התחומים הסטטיסטיים הרלוונטיים לדיון הזה (ניתוח נתוני אורך, ניסוח שאלונים, מחקרי תזונה).

אני חושב שאת מבלבלת בין שני מושגים: מקדם קורלציה ומקדם רגרסיה. בניסוח לא פורמלי, ובהקשר המקובל של רגרסיה לינארית פשוטה (כלומר חד-משתנית), קורלציה מודדת כמה צפוף הנקודות מונחות סביב קו הרגרסיה. לקורלציה יש תכונה שהיא אינווריאנטית לטרנספורמציות לינאריות, כלומר

corr(aX + b, Y) = corr(X, Y)

המשמעות המעשית היא שבין אם הנשאלים היו מדווחים במדויק על כמות הקלוריות שהם צורכים, ובין אם כולם היו משקרים ומדווחים בדיוק על חצי (נניח) מהכמות האמיתית, היה מתקבל בדיוק אותו מקדם קורלציה.

אבל הגודל שאני חושב שמעניין אותך הוא לא הקורלציה, אלא מקדם הרגרסיה, שהוא השיפוע של הישר ("האמיתי") שסביבו מפוזרות הנקודות. ככל שהישר הנ"ל תלול יותר, כך הגדלה של צריכת הקלוריות היומית ביחידה אחת תגדיל (בממוצע) במידה רבה יותר את המשקל. שקרים או טעויות בדיווח אכן ישפיעו על האומדן למקדם הרגרסיה.

תרצי אולי לנסח את השאלה שלך שוב, תוך אבחנה בין שני המושגים האלה?

ובהקשר של תגובה 651191: כתבת "הפונקציה היא לינארית אצל כל אדם", ואני משער שהתכוונת "לינארית אבל אחרת אצל כל אדם". זה כמובן נכון הרבה פעמים, אבל ברגע שמכירים בכך, אין פה שום בעיה סטטיסטית. גגלי "random effect model" וראי איך מטפלים במודל שכזה.
עד אנחנו מחכים ליובל נוב 666856
השאלה הראשונה היא על מקדם הקורלציה.
נניח שכל אלפי המשתתפים טועים בדיווח שלהם לכל הכיוונים, גם למעלה וגם למטה בצורה אקראית. מקדם הרגסיה a לא ישתנה, כלומר הקו יהיה באותה זווית כמו קודם, אבל הנקודות יהיו מפוזרות במרחק משני הצדדים שלו ומקדם המתאם יהיה נמוך.

הסטטסיטיקאי של המחקר לא יכול להתעלם ממקדם הקורלציה הנמוך ולומר שעל כל עליה X בבשר מעובד יש עליה aX בסרטן. מה הוא עושה עם זה?

אני מניחה שהוא ישקלל את זה בכל מיני כלים מסובכים ויקבל a נמוך ממה שהוא באמת. למעשה במחקרים כאלה אנחנו מעוניינים בשיעור הסיכון RR, אינני יודעת איך מחשבים אותו אבל מניחה שאותה שגיאה התחלתית תתבטא בכל התוצאות, זה לא יכול להיות אחרת. נכון?

ואז יתפרסם שכל 50 גרם בשר מעובד מעלים סיכון לסרטן ב-‏18%. אוקי, זה המספר הטוב ביותר שהצליחו לקבל מהנתונים, אבל אי אפשר להשוות את המספר הזה לשיעור עליית סיכון בגלל עישון שהוא הרבה יותר קרוב למציאות. אני צודקת? זאת בעצם השאלה שלי.

המצב במציאות הוא גרוע יותר כי הטעויות אינן אקראיות, ודווקא מי שאוכל הרבה ממשהו רע ידווח על פחות, זאת אומרת שגם מקדם הרגרסיה יימעך.

תודה יובל שזכרת גם את השאלה הקודמת שלי מפעם, גיגלתי random effect model. קצת שכחתי מה היה הסיפור עם זה, למיטב זכרוני אפשר ליישם את זה על מחקר כולסטרול אם עושים לכל משתתף בדיקה קלינית מקדימה כדי לראות את התגובה שלו לכולסטרול במזון. אני לא יודעת אם זה ריאלי למחקר תצפיתי.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים