בתשובה לגלעד ברזילי, 26/09/02 18:17
בדיקת המתודה, כיצד? 94514
השאלה ששאלת, הדורשת מעבר על 50 תוצאות כפול 5, בעייתית לא רק מאחר ומדובר בבזבוז עצום של זמן, וחיפוש נתונים שכרגע אינם נגישים ברשת (האתר המוקדש למחקר השוטף מושבת זמנית); אלא מאחר ועם כל הכבוד, מדובר בשאלה קטנונית שמראה על ליקוי בהבנת משמעותו של המחקר.

והיה והמודל החייתי, שאמינותו קרובה לזו של הטלת מטבע, מספק תשובה נכונה. מה בדיוק זה אומר?

הצגתי בפניכם את אחד המחקרים הראשונים שיצאו לחפש סוללה בעלת יכולת להחליף את בעלי-החיים למבדקי רעילות, וכבר בו התברר שהיא אמינה יותר מהמודל החייתי ב- 18% בממוצע, למרות שמדובר בתחום שכמות ההשקעה בו עומדת על פחות מ- 10% מהכסף שמושקע במחקר מבוסס בע"ח, שגם וותיק במעל ל- 100 שנה.

המודל החלופי ההתחלתי הזה, יכול כבר עכשיו לשפר ללא ספק את אמינות מבדקי הרעילות כשהוא עדיין בחיתוליו. ובמקום לשאול איך זה שאף אחד לא טורח לדאוג שהוא יהפוך את התרופות שאתה נוטל לבטוחות יותר, זה מה שאתה שואל. שליפה קצרה מתוך המאמר, ע"מ 7:

Simple human cell tests were shown to be relevant for human acute lethal action for as many as 43 of the 50 MEIC reference chemicals (86%). The exceptions were atropine, digoxin, malathion, nicotine, cyanide, paracetamol, and paraquat – all specific receptormediated toxicants.

A battery of three of these human cell line tests (nos. 1, 9, 5/16) was found to be highly predictive (R2 = 0.77) of the peak human lethal blood concentrations (LC50) of chemicals. The prediction increased markedly (R2 = 0.83) when a simple algorithm based on the knowledge of passage across the blood-brain barrier was used to adapt in vitro to in vivo concentrations

Prediction was better than the prediction of human lethal doses by rat and mouse LD50-values (R2 = 0.65).

The prediction of human toxicity by the tests of slow-acting chemicals was much improved when 48-hour cytotoxic concentrations were compared with 48-hour
human lethal blood concentrations. Thus, an in vitro test providing a discrimination between a rapid and a slow cytotoxic action would increase the predictive power of a cell test battery on acute toxicity.

אם זה עדיין מעניין אותך, תחפש את הנתונים בעצמך. אל תשכח לעבור על נספח 3, בו יש טבלה נחמדה ונוחה שמווה בין נתוני ה- LD50 של חולדות, עכברים ואנשים. מאיר עיניים.
בדיקת המתודה, כיצד? 94516
זו שאלה עניינית, ו"אמינה כהטלת מטבע" זו דמגוגיה.

שאלה עניינית - אני חושב, אינטואיטיבית, שמודל משולב יעיל יותר מהחלופה לבד. אם אכן הקבוצה לא מוכלת הרי שמ.ש.ל.

דמגוגיה - אם התחלת עם 200 חומרים, 100 רעילים ו100 לא, ובדקת במודל החייתי, תשאר עם 100 לא רעילים ו35 כן. תבדוק בהטלת מטבע, תישאר עם 50 לא רעילים ו50 כן. "יעילה כהטלת מטבע", נובמת.

בנוסף, אני לא שואל איך זה שאף אחד לא עובד עם החלופות, כי אני מאמין שעובדים *גם* עם החלופות. אם לא, אז נראה לי שראוי שכן.
בדיקת המתודה, כיצד? 94537
א. השאלה ה'עניינית' שלך לא רלוונטית מאחר ולמקרה שעוד לא הבנת את זה, היא מקדימה את זמנה. בינתיים, בניגוד למה ש'אתה חושב', לא עובדים גם עם החלופות - מתבססים רק על שימוש בבע"ח כמעט בכל מכוני המחקר (למה שישלבו ויבזבזו עוד כסף אם הם לא חייבים?). האינטואיציה שלך, גם היא לא רלוונטית. השורה התחתונה היא שמודל התחלתי הצליח להיות אמין בקרוב ל- 30% יותר מניסויים בבע"ח עם תקציב שעומד על הרבה פחות מ- 30% ממה שמוקצה למחקר מבוסס בע"ח.

ב. לא ברור מה קשה להבין - מטבע אמין סטטיסטית ב- 50% מהמקרים. ניסויים בבע"ח 65% בממוצע. אגב, הדוגמא שהצעת מגוחכת ולא משקפת את המציאות - כימות מספרי אבסולוטי לא משקף טעויות לכאן ולכאן (חיברת את הרעילים הנכונים והשגויים, וכנ"ל את הלא רעילים האמיתיים והשגויים). עדיף אם תמשיך לדבוק בפילוסופיה.
בדיקת המתודה, כיצד? 94542
ב. אני מודה לך על ההמלצה, (ואתה חושב שתוכל לספר לעיגול פעם באה שאתם נפגשים? הוא דווקא לא כל כך חושב שזה התחום שלי) אבל אם יש לך חומר בלתי מזוהה מולך, מטבע אמין סטטיסטית ב0% מהמקרים, וזאת כי אין קשר בין ההטלה והחומר. אתה בטוח שאתה מבין את המשמעות של אמינות סטטיסטית? אולי עדיף שתשאר עם ביולוגיה.

א. תראה, אם יש מישהו עם אינטרס ברור להצליח לזהות בזמן את המינון הרעיל, הרי שזה לחברות המייצרות תרופות. מבדקים קליניים עולים המון כסף, ואם פסלת את התרופה לפני שהיא תפסל במבדקים הקליניים, חסכת. אם אכן חברות התרופות לא משתמשות במודלים ממוחשבים ותרביות תאים (שעלותן זניחה ביחס) הרי שהן פועלות בניגוד לאינטרסים שלהן עצמן, והחברה הראשונה להבין זאת תרוויח, ובגדול. אם כבר ממליצים אחד לשני באיזה תחום לדבוק - לך להקים אחת כזו, ועכשיו. תקבל המון כסף.
בדיקת המתודה, כיצד? 94623
אני מסיים כעת להגיב על המאמר שתמיר לוסקי הפנה אליו, אבל התגובה מתארכת, ויש נתון אחד שאולי כדאי להפנות אליו תשומת לב: המודל החייתי אינו עונה רק על השאלה של רעיל-או-לא-רעיל (שאז הצלחה של 65% באמת אינה הרבה יותר טובה מהטלת מטבע) - החיזוי הוא של *המינון* שבו החומר הרעיל. זהו משתנה מסובך יותר (עם טווח של מיליגרמים בודדים לק"ג משקל גוף, עד לעשרות אלפי מיליגרמים).

המספר 65% הוא לא "אחוז ההצלחה" אלא מקדם המתאם של שני המשתנים המסבירים (LD50 בחולדות ובעכברים‏1) והמשתנה המוסבר שהוא מינון קטלני ממוצע בבני-אדם‏2.
ההסתברות לקבל תוצאה כזו (0.65) אם לא היה קשר בין המשתנים המסבירים למוסבר, היא פחות מקלושה: 3 כפול 10 בחזקת 17-. במחקרים רגילים במדעי החיים מקובל לדרוש הסתברות של 1% או 5%.
אני מקווה שזה עונה אחת ולתמיד על הטענה ש"המודל החייתי לא הוכח".

הערות נוספות:
* אם היו משתמשים בנתונים חייתיים נוספים (כלבים, חתולים, ארנבות), יכולת החיזוי היתה כמובן משתפרת.
* למרות שמקדם המתאם של ארבעת מבדקי המעבדה טוב יותר (77% לעומת 65%), ההסתברות לקבל תוצאה *כזו* באקראי היא רק 4 כפול 10 בחזקת 17- (דהיינו, זה קצת יותר סביר‏3). בנסיון נואש לדחוס קורס בזק בסטטיסטיקה לשלוש שורות, הסיבה היא שאפילו הוספת משתנים מסבירים *אקראיים* תשפר את יכולת החיזוי, או ליתר דיוק תתן אשליה של שיפור. ההסתברות מתחשבת לא רק במקדם המתאם, אלא גם במספר המשתנים המסבירים, ובמקרה, הסיכוי ל- 65% עם שני משתנים נמוך יותר מ- 77% עם ארבעה.
כל זה בהנחה שהיו קובעים את ארבעת המבחנים האלה מראש - למרות שבפועל הם נבחרו בדיעבד מתוך מספר גדול בהרבה של משתנים מסבירים. בתגובה הארוכה אפרט גם בעניין זה.

1 LD50 הוא המינון שהורג 50% מן הנבדקים.
2 למעשה בשני המקרים המשתנה הוא הלוגריתם הטבעי של המינון, ולא המינון עצמו. המודל הכפלי סביר יותר מן המודל הליניארי בגלל הטווחים בהם מדובר.
3 עוד הבהרה: ההסתברויות המחושבות להלן הן משמעותיות בטווח ה"סטנדרטי", נגיד מעל מליונית. מתחת זה הן לא מדויקות, וה"יתרון" של 3 חלקי 10 בחזקת 17 על 4 חלקי 10 בחזקת 17 הוא לא משמעותי.
בדיקת המתודה, כיצד? 94644
אה, חשבתי שבודקים מינון מסויים, ולו יש ערך בינארי של רעיל / לא רעיל, כשמודל חייתי מזהה ב65% רעיל, אבל ב100% לא רעיל. (ואז הוא בטח יעיל יותר ממטבע, שמזהה 50% בכל מקרה, בלי שום תאימות).

האמת, כפי שהצגת אותה, כמובן הרבה יותר חזקה, ומדגימה הרבה יותר טוב מדוע "יעיל כהטלת מטבע" זו דמגוגיה פשוטה המסתמכת על אי הבנת הקורא בניסוי שבוצע, ובהסתברות.
אמינות סטטיסטית? 94651
אני לא בטוחה שברור לי המושג. אשמח להסבר.
אמינות סטטיסטית? 94657
מה שכיוונתי אליו, ולא דייקתי (להסבר מדוייק קראי את עוזי, אבל לאט), הוא כזה:
נאמר שיש לך 100 חומרים, 50 מסוג A ו50 מסוג B. עכשיו את מחליטה איזה חומר הוא מה ע"ס זריקת מטבע. אחרי שזרקת, התוצאות שלך (בממוצע) יהיו:

25 חומרים סוג A שזיהית כסוג A
25 חומרים סוג A שזיהית כסוג B
25 חומרים סוג B שזיהית כסוג A
25 חומרים סוג B שזיהית כסוג B

עכשיו נאמר שאני רוצה לבנות מדד שאומר לי מה האמינות של הטלת המטבע. אני מחליט לתת נקודה על כל זיהוי נכון, ולחסר נקודה על זיהו שגוי. מדד כזה, במקרה הזה, יתן לי אפס נקודות אמינות עבור הטלת המטבע (זיהית נכון 50 וטעית ב50), וזאת כי אין קשר בין הטלת המטבע והחומר.
אם היה קשר, נאמר שהתשמשנו במבחן אחר, יותר אמין, אז היו לי פחות false positives וגם פחות false negatives, והיית מקבלת מספר חיובי של נקודות. (או שלילי, זה לא משנה. הרי מבחן שתמיד טועה בזיהוי חומר B למעשה מזהה לי אותו... הערך המוחלט חשוב). מבחן של 100 או 100- נקודות במקרה זה, יהיה מבחן אמין להבדלה בין החומרים.

(זה הסבר אינטואיטיבי. בדרך כלל שמדברים על אמינות סטטיסטית מדברים על עוד דברים, אבל אז ההסבר צריך לכלול את המילה coefficient, וגם אני הייתי מתחיל להסתבך)
אמינות סטטיסטית? 94663
כן, למרות שכתבתי משהו שונה לגמרי, התכוונתי לכל מה שעוזי אמר מתחתי. (כן, בטח...)
אמינות סטטיסטית? 94667
אני רוצה לקשר את ההסבר (הנכון) של גלעד להסבר שנתתי למטה לאותה שאלה (תגובה תגובה 94662 ).

מטבע רגיל הוא "נביא של 0%" (כי הוא תמיד עונה תשובה אקראית). נביא-אמת הוא "נביא של 100%" (כי הוא תמיד עונה את התשובה הנכונה.
אפשר גם לדמיין לעצמנו "נביא של 40%", ש- 40% מהזמן נותן תשובה אמיתית, ובשאר הזמן כדור הבדולח שלו מתערפל, והוא עונה תשובה אקראית.

כעת, מגיע אלינו אדם שטוען ליכולות נבואה (בפתיל הזה, מדובר נניח בשיטת ניבוי רעילות מסויימת). ערכנו ניסוי, והוא ענה נכונה על 70 שאלות כן/לא מתוך מאה (כאשר התשובות הנכונות התפלגו 50/50).

במקרה, זוהי התוצאה שנצפה לקבל מנביא-של-‏40% (כי הוא יענה נכון על 40 שאלות, ויקלע במקרה ל- 30 משאר הששים).

יש כמה השערות מחקר שאנחנו עשויים לרצות לבדוק. למשל "זהו נביא של 40%", או "זהו נביא של יותר מ- 20%", או "הנביא הזה עדיף על הטלת מטבע".
בכל המקרים ה*סטטיסטי* יכול להיות, בדומה למה שגלעד הציע, מספר ההצלחות. ההתפלגות שלו היא (גם כאן) התפלגות נורמלית, שהממוצע שלה תלוי בהשערה שאנחנו מנסים להוכיח.

לא בדקתי את המספרים, אבל ברור שאת ההשערה הראשונה (נביא של 40%) לא נצליח להוכיח, כי נביא-של-‏35%-שהיה-לו-מזל יכול להצליח כמו נביא-של-‏40%, ולכן משיעור הצלחה של 40% לא ניתן להוכיח נביאות-של-‏40%.

את ההשערה השניה אפשר יהיה כנראה להוכיח (כי נביאים של 20% אמורים לקבל רק 60 תשובות נכונות, או קצת יותר, אבל לא 70). מעניין לשים לב שאם גודל המדגם (מספר השאלות, 100 במקרה שלנו) היה קטן יותר, אולי לא היינו משתכנעים שההשערה השניה נכונה (במדגם של 20 שאלות, נביא-של-‏40% אמור להצליח 14 פעם, ונביא-של-‏20%, רק 12; אבל גם הוא יכול להצליח 14 פעמים ביום טוב...). לעומת זאת במדגם ממש גדול (40000 שאלות למשל), היינו מן-הסתם משתכנעים אפילו שמדובר בנביא-של-לפחות-‏39%.

את ההשערה השלישית (נביא-עדיף-ממטבע) נוכל מן הסתם להוכיח אפילו אם *באמת* היה מדובר רק בנביא-של-‏20%.
אמינות סטטיסטית? 94662
להן הסבר (קצר) על המבנה המקובל של מחקר, הכולל ניתוח סטטיסטי.

החוקר מעלה השערה (למשל: הציונים של בנים ובנות בחשבון שונים אלו מאלו), מברר לעצמו מה יפריך את ההשערה (אם הם מצליחים במדה שווה), וקורא להשערה הנגדית הזאת H0. כעת החוקר משנס מותניו ומנסה *להפריך את H0* (זה הרי יוכיח שהוא צדק מלכתחילה). ‏1

החוקר שולח מאסטרנטים לאסוף נתונים (30 ציונים של בנים, 30 ציונים של בנות).
כעת בונים "סטטיסטי", שהוא מספר המחושב מתוך הנתונים הגולמיים (בדוגמא, זה יהיה ההפרש בין ממוצעי הציונים, מחולק בסטיית התקן המשותפת). במקביל (או מראש), מוצאים את ההתפלגות של הסטטיסטי בהנחת ההשערה H0 (בדוגמא, ההתפלגות היא זו המכונה "התפלגות נורמלית" ‏2).

(מהי ההתפלגות הזאת, בכלל? חישוב ההתפלגות שקול לעריכה וירטואלית של המון ניסויים מאותו סוג, שבהם ההשערה H0 *נכונה*, למשל איסוף של 60 ציונים וחלוקתם לקבוצות לפי שם המשפחה ולא לפי המין. מתוך מליון ניסויים כאלה, 39800 יהיו בין 0 ל- 0.1; 39400 יהיו בין 0.1 ל- 0.2; ... 380 יפלו בין 3 ל- 3.1, וכן הלאה) ‏3.

השלב האחרון הוא לחפש את הציון שקיבלנו (בפועל, במחקר הנוכחי) על עקומת ההתפלגות (שמצאנו בספר). למשל, נניח שקיבלנו את המספר 2.05. לפי ההתפלגות שבספר, מספר כזה יופיע באקראי (כזכור, בהנחה ש- H0 היא ההשערה הנכונה) בהסתברות 4%. החוקר די מרוצה - המשמעות של תוצאה כזו היא שאם באמת H0 נכונה (והחוקר מקווה שלא כך), המספר 2.05 יופיע רק בסיכוי של 4%. אבל במציאות, בניסוי שהחוקר ערך, הוא *באמת* קיבל את המספר הזה - אז נראה לו לא סביר להניח ש- H0 נכונה (כי אחרת דברים כך-כך לא סבירים כמו 2.05 לא היו קורים דוקא לו).

לעומת זאת, אם החוקר היה מקבל שהסטטיסטי הוא 0.9, דבר שהסתברותו 36%, זו לא תהיה עדות משכנעת ש- H0 שגויה, שהרי דברים בעלי סיכוי גבוה כל-כך קורים לנו כל הזמן.

מקובל במדעי החברה לדרוש שההסתברות לקבל את הסטטיסטי המסוים שהתקבל בפועל, תהיה מתחת 5%. אם זה כך, ההשערה H0 נחשבת למופרכת (ולכן השערת הנגד שממנה יצאנו - נכונה). המספר הזה (5%) נקרא "המובהקות הססטיסטית של המחקר".

הערה: אם חוזרים על ניסוי הרבה פעמים, זה דוקא *כן* סביר שיקרו דברים "לא סבירים" (שהסתברותם למשל 5%). בפרט, אחת מכל 20 טענות ש"הוכחו סטטיסטית" (ברמת מובהקות של 5%) צריכה להיות שגויה...
בתחומים מסויימים במדעי הטבע מקובל לדרוש רמת מובהקות של 1%, מה שמצד אחד מגדיל את האמינות של התוצאות, ומצד שני שולח יותר חוקרים מאוכזבים לתכנן את הפרוייקט הבא.

אם משהו לא ברור - נא להצביע.

1 למעשה, לשלב הזה קודם משהו בסיסי יותר, שבו החוקר מנסח את המודל שלו (בדוגמא: שציוני בנים וציוני בנות הם בעלי התפלגות נורמלית עם אותה סטיית תקן).
2 איך יודעים מה ההתפלגות? זו שאלה שאני *באמת* אשמח לענות עליה - אבל מומלץ לשאול רק אם את באמת רוצה לדעת...
3 מאיפה לוקחים את המספרים האלה? אותה תשובה כמו ‏2.
אמינות סטטיסטית? 94665
בתור מי שבא מעולם של הסתברות ולא מעולם של סטטיסטיקה, להבנתי, כשהחוקר מפריך את H0 הוא בעצם אומר שהניסויים (בדיקת הציון של הבנים והבנות) הם לא i.i.d (*), וזה מה שרצינו להראות.
אבל, ייתכן שH0 נכונה ו*עדיין* הניסויים הם לא i.i.d, פשוט כי המדגם קטן מידי. ולמיטב זכרוני, מה שמבטיח התפלגות גאוסיינית זה WLLN (**), שבעצמו מתקיים רק בשאיפה לאינסוף, לא?

(*) Indipendent Identical Distribution
(**) Weak Law of Large Numbers
אמינות סטטיסטית? 94671
חלילה לחוקר מלהוכיח שהדגימות שלו אינן IID...
בדוגמא שלי המודל הוא ששתי האוכלוסיות מתפלגות נורמלית, ו-H0 היא ההשערה שלשתי האוכלוסיות יש אותה תוחלת. הפרכת ההשערה מראה שזה לא כך, אבל עדיין (יש לקוות) הדגימות בכל אוכלוסיה *בפני עצמה* הן IID.

לעניין גודל המדגם - כל שתי דגימות אמורות להיות IID (שיטת הדגימה אמורה להבטיח זאת). נכון שגם בהנחה הזו, הסטטיסטי יתפלג נורמלית רק אם האוכלוסיות באמת מתפלגות נורמלית (ואז גודל המדגם *לא משנה*), או שהדגימה גדולה מספיק.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים