בתשובה לג'וד, 17/02/15 7:10
ומה עם יתר ההמלצות? 651239
כפי ששכ"ג אמר, מדובר ברווח סמך. אבל לדעתי המונח שיותר דורש הסבר בציטוט הנ"ל הוא hazard ratio, אז אגיד קודם משהו עליו.

בסטטיסטיקה צריך לעתים קרובות לנתח את התפלגות הזמן עד שמשהו ספציפי קורה. למשל: הזמן מרגע אבחון מחלה כלשהי עד שמתים ממנה (או במקרים אחרים, עד שמחלימים ממנה), זמן הפעולה של מכשיר אלקטרוני עד שהוא מתקלקל, או הזמן שחבר פרלמנט מכהן עד שהוא פורש או לא נבחר יותר. תת-התחום הסטטיסטי הרלוונטי נקרא "ניתוח שרידות" (survival analysis).

מסתבר שנוח יותר למדל ולנתח מתמטית זמנים שכאלה לא דרך פונקציית ההתפלגות שלהם, אלא דרך פונקציה שנובעת ממנה במובן מסוים, ונקראת "פונקציית סיכון" (hazard function). יהיה לי קשה להסביר כאן מה הפונקציה הזאת בדיוק אומרת, אבל אינטואיטיבית, לדברים שקורים בד"כ תוך זמן קצר יש פונקציית סיכון עם ערכים גבוהים, ולהיפך. למשל, אם נסתכל על הזמן עד להתפתחות סרטן אצל עכברים רגילים ואצל עכברים שנחשפו לקרינה רדיואקטיבית מסיבית, פונקציית הסיכון בקבוצה השניה תהיה עם ערכים גבוהים יותר.

המודל הנפוץ ביותר בניתוח שרידות נקרא המודל של קוקס (Cox), או proportional hazard. ההנחה הבסיסית שלו היא שלפונקציית הסיכון של הזמן שבו אנחנו מתעניינים (למשל הזמן עד התפתחות סרטן) בקבוצה אחת (עכברים רגילים) יש בדיוק אותה הצורה כמו לפונקציית הסיכון בקבוצה השניה (עכברים שנחשפו לקרינה), רק שערכי הפונקציה כולם בקבוצה השניה מוכפלים בקבוע כלשהו. הקבוע הזה נקרא "יחס הסיכון", וזה ה-hazard ratio שמופיע בציטוט. כשהקבוע הזה גדול מ-‏1, זה אומר (באופן גס) שבקבוצה השניה הדברים קורים בד"כ תוך זמן קצר יותר, וכשהוא קטן מ-‏1, תוך זמן ארוך יותר.

בציטוט שהבאת אומרים (פחות או יותר) שאצל נשים, כל כוס חלב נוספת ביום גורמת לפונקציית הסיכון של הזמן עד המוות לגדול פי 1.15, כלומר חלב מקצר לנשים את החיים (אבל שימו לב - זה לא נכון לפרש את הממצא הזה שכל כוס חלב מקצרת את החיים של נשים ב-‏15%, או משהו בסגנון).

ועכשיו סוף סוף לרווחי סמך. המספר 1.15 שנקבתי בו בפיסקה הקודמת הוא מה שנקרא "אמד נקודתי" - כלומר מספר בודד, ולא טווח של מספרים. הבעייה עם אמדים נקודתיים היא שהם לא משקפים את הווריאביליות של הגודל שניסינו לאמוד, ולכן נותנים תחושה כוזבת של דיוק. הרי ברור שאילו היינו בוחרים מדגם מקרי אחר של נשים למחקר, היינו מקבלים תוצאות קצת אחרות, פשוט כי בכל מדגם יש מידה מסוימת של אקראיות טהורה. דוגמא אחרת, ברוח הימים הנוכחיים: שני סקרים מצאו שלמועמד X יש 63% תמיכה בציבור, אבל סקר א' התבסס על 100 נסקרים, וסקר ב' על 5000 נסקרים. האמד הנקודתי של שני הסקרים (63%) הוא זהה, אבל ברור שסקר ב' יותר אמין. רווח סמך הוא דרך לכמת את אי הוודאות הזו, והוא טווח של מספרים (שבד"כ במרכזו נמצא האמד הנקודתי) שבהם אנחנו מעריכים, בדרגת ביטחון גבוהה למדי, נמצא הגודל שבו אנחנו מתעניינים (אחוז התמיכה האמיתית באוכלוסייה במועמד X, או היחס האמיתי בין שתי פונקציות הסיכון). בציטוט שהבאת כתוב בעצם: במחקר שלנו מצאנו שיחס הסיכון הוא 1.15, אבל אל תתפסו אותנו במילה - הוא כנראה איפשהו בין 1.13 ל-‏1.17.

שאלת גם איך מחשבים את רווח הסמך הזה. התשובה שלי היא שאני לא יודע, כי לא קראתי את המאמר - יש הרבה וריאנטים על המודל של קוקס, ולא ברור לי במה השתמשו כאן (ואני גם לא מומחה בניתוח שרידות). בכל אופן, אני מקווה שעזרתי להבין את רוח הדברים.
ומה עם יתר ההמלצות? 651246
תודה! אבל אתה עוד לא משוחרר. כתבת שאם כל כוס חלב נוספת ביום גורמת לפונקציית הסיכון של הזמן עד המוות לגדול פי 1.15, זה לא אומר שהכוס הזו מקצרת את החיים ב-‏15%. אבל אתה יכול לומר משהו שזה כן אומר, במונחים נגישים להדיוטות, אפילו רק בערך או עם הנחות נוספות?
ומה עם יתר ההמלצות? 651268
כן, אני יכול. אנסה בכל זאת להסביר מה זה פונקציית סיכון.

כזכור, אנחנו מתעסקים בניתוח הזמן עד שמשהו ספציפי קורה (באנגלית התחום נקרא גם time-to-event analysis). לשם הקונטקרטיות ולמרות המורבידיות, נחשוב על "מוות" בתור המשהו הספציפי.

בניסוח לא מדויק, הערך של פונקציית הסיכון בנקודת הזמן t היא ההסתברות שאדם שזכה להגיע לגיל t ימות תוך זמן קצר אחרי t. כתבתי "היא ההסתברות" אבל זה שקר גס, כי סיכון זה גודל שיכול להיות גדול מ-‏1. הסיבוך הזה קורה בגלל ש"זמן" זה גודל רציף, אז כדי להקל על עצמנו בהסבר, בוא נעבור לדבר על זמן בדיד - נמדוד גיל של אנשים רק בשנים שלמות.

נניח שזמן החיים של אדם מתפלג באופן אחיד (בדיד) בין שנה אחת ל-‏80 שנה. כלומר, כשאדם נולד, יודעים שיש לו הסתברות של 1/80 למות בגיל שנה, הסתברות של 1/80 למות בגיל שנתיים, וכך עד הסתברות של 1/80 למות בגיל 80. אלה הסתברויות לא מותנות. אבל אם ידוע שאדם שרד את השנה הראשונה של חייו, מהי ההסתברות שימות בגיל שנתיים? אם הוא שרד את השנה הראשונה, נותרו לו רק 79 אפשרויות, והיות שהן שוות הסתברות (אמרנו התפלגות אחידה), ההסתברות המותנית שימות בגיל שנתיים, בהינתן ששרד עד גיל שנה, היא 1/79. ההסתברות המותנית הזאת, 1/79, היא בדיוק הסיכון שלו בשנה השניה. באופן דומה, ההסתברות המותנית שמישהו ששרד את גיל שנתיים ימות בגיל 3 היא 1/78 - כלומר פונקציית הסיכון בגיל 3 היא 1/78 - וכך הלאה, עד שהסיכון בגיל 80 הוא 1: מי ששרד את גיל 79, ימות בוודאות בגיל 80.

בזמן רציף, כאמור, העניינים קצת מסתבכים טכנית, כי צריך לקחת גבולות על dt ששואף ל-‏0, והסיכון יכול לצאת (ואכן הרבה פעמים יוצא) גדול מ-‏1, כך שאי אפשר לתת לו אינטרפרטציה של הסתברות. אבל העיקרון לא משתנה: ערך פונקציית הסיכון בנקודה t משקף את הנטייה למות "עכשיו" עבור אלו שהגיעו לגיל t.

עד עכשיו דיברנו רק על מצב עניינים אחד: אנשים באשר הם. במחקרים בד"כ משווים בין קבוצות שונות של אנשים, למשל אנשים שלא שותים חלב בכלל, אנשים ששותים כוס חלב אחת ביום, אנשים ששותים שתיים, וכו'. בכל קבוצה שכזו תיתכן עקרונית התפלגות זמן חיים אחרת (למשל אם מאמינים שצריכת חלב משפיעה על הבריאות), ואז תהיה לקבוצה גם פונקציית סיכון אחרת. ההנחה של המודל של קוקס היא שאם ניקח שתי קבוצות כלשהן, פונקציות הסיכון שלהן יהיו שונות זו מזו רק בכפל בקבוע, שהוא בדיוק יחס הסיכון ביניהן.

במאמר שג'וד שאלה עליו אומרים שיחס הסיכון בין כל שתי קבוצות נשים "סמוכות" (למשל הנשים ששותות 3 כוסות ואלה ששותות 4 כוסות) הוא 1.15. עכשיו סוף סוף אני יכול לתת אינטרפרטציה למספר הזה: אם ניקח קבוצה גדולה של נשים בנות אותו הגיל, חלקן שותות 3 כוסות חלב ליום וחלקן שותות 4, ונעקוב אחריהן במשך זמן יחסית קצר (נניח, חודש), אזי אחוז הנשים שימותו במהלך הזמן הנ"ל בקבוצה השניה צפוי להיות גדול בערך פי 1.15 מאחוז הנשים שימותו בקבוצה הראשונה. הכל תחת ההנחה של המודל של קוקס.

יצא לי ארוך, אז אני שומר לפעם אחרת את דעתי לגבי הריאליות של המודל של קוקס.
ומה עם יתר ההמלצות? 651272
תודה רבה, יובל. תענוג לקרוא את ההסברים שלך.
ומה עם יתר ההמלצות? 651328
כן, תודה!
ומה עם יתר ההמלצות? 651258
תודה רבה יובל! מאד עזרת להבין את רוח הדברים.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים