בתשובה לירדן ניר, 05/11/02 17:46
נכון, אבל... 105047
זה לא אומר שאי אפשר לפתור את הבעיה ולשקלל גם את שכר האישה, מבלי לגרום להטיה שנוגה מדברת עליה.

צריך פשוט לסכם את log התדירות של שתי המשכורות (ולהפוך סימן). כלומר,
rate = -[log(freq(income_husband)) + log(freq(income_wife))]

למשל, אם משכורת של 70K ומעלה מופיעה אצל 3% מהאוכלוסיה, ומשכורת של 35K ומעלה מופיעה אצל 25% מהאוכלוסיה, נקבל שהדירוג של משפחה א' הוא 1.2, ושל משפחה ב' הוא 1.5. (יש לזכור שהתוצאה לא לינארית, כלומר ההבדל בין דירוג 1.5 ל-‏1.2 הוא משמעותי). בהשערת התדירות הנחתי התפלגות Zipf של המשכורות. אם משכורת של 35K היא נפוצה יותר, נקבל דירוג נמוך יותר - למשל, עבור תדירות של 30% נקבל דירוג של 1.05 בלבד.

וכמובן שהתייחסות לתדירות השכר היא משמעותית יותר (מבחינת יוקרה ומעמד) מהתייחסות לערך המוחלט של השכר.

(יו! מי היה מאמין שעבודת המסטר שלי תהיה שימושית בסיוציולוגיה?)
נכון, אבל... 105089
למה לסכם את הלוגריתמים, ולא להכפיל אותם, או לחשב את הממוצע הגאומטרי, או סכום הריבועים, או המקסימום, או שתיים-שלוש פונקציות אחרות שאפשר להפעיל על זוג מספרים?

ומהי התפלגות Zipf?
נכון, אבל... 105120
אנו רוצים להתחשב גם בשכר הגבר וגם בשכר האשה - והפעולה הטבעית היא חיבור; כפי שנוגה הראתה, חיבור "פשוט" מוביל לעיוותים, הנובעים (למשל) מכך שמשכורת אחת "כפולה" נדירה בהרבה משתי משכורות "רגילות". סיכום לוג התדירות מאפשר לנו לקבל ערך ההולך וגדל ככל שמשכורתו של אחד הצדדים גדלה, אבל לוקח בחשבון את "יוקרתה" של המשכורת הכפולה.

הנחתי התפלגות Zipf עבור המספרים שבחרתי לדוגמאות, ולא כהנחה לצורך בחירת הנוסחה. בכל מקרה, התפלגות Zipf היא "מה שנפוץ, נפוץ מאוד; מה שנדיר, נדיר מאוד". ר' למשל http://linkage.rockefeller.edu/wli/zipf/ .
נכון, אבל... 105139
1. יש עוד סיבה לחבר: סכום הלוגריתמים הוא הלוגריתם של המכפלה, כך שהציון הזה מודד את שכיחות הזוגות שעוברים את הזוג "שלנו" בשני המדדים גם יחד (בהנחה ששתי המשכורות בלתי תלויות).

2. התפלגות Zipf היא כלל אמפירי שלפיו הסיכוי של המאורע ששכיחותו n-ית פרופורציונלית ל- {n^{-a, עם a קרוב ל- 1. בדקתי את ההתפלגות של מספר התגובות לסיפורים באייל (נכון ללפני חודש בערך, כשקיבלתי את המספרים), ולמרות שההתאמה לא מושלמת, הקבוע הוא a=0.93, קרוב במידה מרשימה לתחזית.
נכון, אבל... 105183
איך, בעצם, העזתי לשכוח שאני מדבר עם מתמטיקאי?

(האם השאלות הקודמות נועדו בעצם לבחון אותי? כי אם כן, אני אשלח אותך לקרוא את התזה שלי).
נכון, אבל... 105343
לשאלה השניה - ממש לא; חשבתי על ההסבר ה"נכון" לגבי חיבור הלוגריתמים רק אחרי ששאלתי (וגם עכשיו זה יותר תירוץ מאשר הסבר). אבל לגבי האיום האחרון - נניח שאמרתי "כן".
נכון, אבל... 105368
אם אמרת "כן", אז
Tal Cohen and Joseph (Yossi) Gil, "Self-Calibration of Metrics of Java Methods", in Proceedings of Technology of Object-Oriented Languages and Systems 37 (TOOLS Pacific 2000).
התחום אחר לגמרי, השיקולים די שונים, המטרה בכלל לא קשורה, אבל הפתרון - אותו פתרון.
נכון, אבל... 106971
לא הבנתי את 2. מה זה אומר, מה שכתבת שם?
זה פשוט: 107150
אפשר לסדר את האתרים באינטרנט לפי סדר, מזה שיש לו הכי-הרבה כניסות ביום (google.com?) לזה שיש לו הכי מעט (אתר הבית שלי?).
אפשר לסדר את המלים בשפה העברית לפי מספר ההופעות שלהן בכל הספרים של הספריה הלאומית: החל במלה השכיחה ביותר וכלה בנדירה ביותר.
אפשר לסדר את החברות בע"מ בארצות הברית, מזו שמחזור העסקים שלה הוא הגדול ביותר, לזו שהמחזור שלה הקטן ביותר.
אפשר גם לסדר את הדיונים באייל הקורא, מזה שיש לו הכי הרבה תגובות (דיון 792), לזה שיש לו פחות מכולן (דיון 1153, נכון לרגע זה).

ברור שבכל המקרים האלה, הציון של כל מתחרה (מספר הכניסות, מספר ההופעות, גודל המחזור השנתי) הוא פונקציה יורדת של המקום שלו בתחרות - כי הרי סידרנו את הרשימות כך שהציון ילך וירד.
אבל מסתבר שבכל המקרים האלה (וברבים מאד אחרים), הציון של המתחרה במקום ה-n-י פרופוציונאלי דווקא ל- {n^{-a, כאשר a קרוב ל-‏1. לתוצאה התצפיתית הזו קוראים חוק Zipf (על-שם מי שגילה אותה).
זה פשוט: 107179
האם יש הצדקה מתמטית (או הצדקה חלקית) של העובדה התצפיתית הזו? האם, נניח, זה מה שיתקבל ממדגם אקראי של התפלגות נורמלית?
אם לא, איך אתה יודע (או שבדקת איכשהו?) שזו התפלגות התגובות למאמרים באייל?
ככה זה 107208
ממדגם אקראי של התפלגות נורמלית תתקבל (כמה צפוי) התפלגות נורמלית.
כמו כל המדענים הטובים, מתמטיקאים ניסויים‏1 מנסים להסביר את התוצאות התצפיתיות. את זה עושים על-ידי הצעת מודל, שאם הטבע היה מתנהג לפיו, היינו מקבלים (תאורטית) את מה שמתקבל בניסוי.
בקישור שטל נתן למעלה ישנם כמה מאמרים המנסים להציע
מודלים להתפלגות Zipf. למשל, נניח שסופרים היו משתמשים באלגוריתם הבא לכתיבת ספרים: לקראת כל מלה, זרוק קוביה. אם יצא 6, בחר באופן אקראי מלה מבין כל אלה שעדיין לא השתמשת בהן. אם לא, בחר באופן אקראי מלה בחלק הכתוב של הספר‏2, והעתק אותה פעם נוספת‏3.
שכיחות המלים בספר שנכתב בשיטה הזו (ואני חושד שיש כמה כאלה) אמורה להתאים להתפלגות Zipf.

את התפלגות מספר התגובות למאמרים באייל קיבלתי מאחד העורכים (לבקשתי); בכל מקרה מדובר במידע גלוי, שיכולתי לאסוף לו הייתי עובר על כל המאמרים. ההתאמה במקרה הזה אינה מרשימה במיוחד, אולי בגלל שקצב זרימת התגובות השתנה באופן משמעותי מאז הולדת האתר.

1 שאינני נמנה על שורותיהם, אגב.
2 ליתר דיוק, בוחרים *מקום* באקראי, כך שלמלים שהופיעו בשכיחות גבוהה יש סיכוי גבוה יותר להופיע שוב.
3 ההתפלגות אינה רגישה למלים עצמן, אלא רק לשכיחויות. לכן, כדי לטשטש את העקבות, הסופר האוטומטי יכול עם סיום הכתיבה להחליף את המלים שבחר (לפי שכיחותן בספר) במלים השכיחות ביותר בשפה העברית; כך, לפחות מבחינת התפלגות המלים, יהיה קשה להבדיל בין הספר שלו לספרים שנכתבו בשיטות פחות יצירתיות.
ככה זה 107275
מה שהתכוונתי במדגם אקראי מהתפלגות נורמלית הוא לסדר את תוצאות המדגם לפי סדר (מה שהופך את הניחוש שלי ללא *כל כך* מטופש, אני מקווה‏1). אבל בסדר, כבר הבנתי שזה לא נכון.

1 ואני מניח שהבנת את זה, אבל אני צריך להציל את כבודי בפני קוראים אחרים. לא חשוב.
ככה זה 107288
אפשר לחשב מה יקרה גם כשדוגמים מהתפלגות נורמלית. אם מדובר על ההתפלגות הרציפה אז לסידור מחדש אין כל-כך משמעות, כי בדגימה סופית כל ערך יתקבל רק פעם אחת. אפשר להניח שדוגמים ממרחב בן-מניה שלו התפלגות קרובה לנורמלית (למשל, חלוקה של הציר הממשי לקטעים רצופים שווי אורך, שההסתברות שלהם פרופורציונלית ל- (exp(-t^2/2 (כאשר t הוא אמצע הקטע)). במקרה כזה, מכיוון שנצטרך לקפל את הערכים השליליים והחיוביים, ההתפלגות תראה כמו המחצית הימנית של התפלגות נורמלית.
לזה התכוונתי כשאמרתי שהתוצאה מדגימה נורמלית תהיה נורמלית - זה לא לגמרי טריוויאלי.
ככה זה 107465
אני ממש, אבל ממש, לא מבין. אולי אני צריך להפסיק להציק לך ולקוראים האחרים, אבל אם יורשה לי עוד נסיון אחד:
מה זה משנה שכל ערך יתקבל רק פעם אחת? האם אתה לא מסדר אותם לפי סדר הגודל מ-‏1 ועד N? האם ב-zipf, כשאתה מסדר את הדגימות לפי סדר הגודל, זה מפריע לך אם יש או אם אין שני נתונים זהים?
(גם את שאר התגובה שלך אני לא מבין, אבל אני מניח שהבלבול נובע מאותו מקור, אז נסתפק בזה).
ככה זה 107481
הנחת היסוד היא שאין סדר טבעי בין הגדלים שדוגמים (כמו מלים או אתרי אינטרנט), ואם יש אז מתעלמים ממנו. מסדרים את הערכים שקיבלנו לא לפי גודלם, אלא לפי *שכיחותם*, מהשכיח ביותר לנדיר ביותר. כל העניין הוא ההתפלגות הלא-אחידה של התוצאות, דהיינו החזרות על אותם ערכים (מלים, אתרים) שוב ושוב.
ככה זה 107673
אה. Silly me. תודה וסליחה.
נכון, אבל... 105095
אין אדם שמח יותר ממני על כך שעבודת המאסטר שלך שימושית בסוציולוגיה. אני מאלה המאמינים שאינטרדיסציפלינריות מביאה להישגים ולהרחבת הידע.
גם אני לא יודעת מה זה Zipf, אבל אני כן יודעת מהי ההתפלגות האמיתית של משכורות בשוק העבודה, שמחלישה את ההצעה שלך, כי ההתפלגות נראית בערך ככה:
בהנחה שטווח המשכורות הוא מ-‏0 עד 100:
10-0: 5% מהאוכ'
20-10: 10% מהאוכ'
30-20: 20% מהאוכ'
40-30: 30% מהאוכ'
50-40: 10% מהאוכ'
60-50: 2% מהאוכ'
70-60: 2% מהאוכ'
80-70: 2% מהאוכ'
90-80: 5% מהאוכ'
100-90: 20% מהאוכ'

טוב, לא יצא לי בדיוק 100%, והטבלה היא כמובן הפשטה פראית, אבל הרעיון מובן - שכיחות משכורות היא לא ליניארית, אלא יותר פרבולית. כך שהחישוב שהצעת הוא בעייתי.
אפשר, בתור מקדם לכל משכורת, לציין את האחוזון שלה, למשל. הבעיה היא שאשתו של הגבר שלנו המרוויח $70K עדיין תחושב פנימה כמרוויחה בעשירון התחתון, ותעוות לנו את הסטטיסטיקה.
נכון, אבל... 105107
1. אני חושב שההתפלגות שלך לא סבירה. יותר אנשים מרוויחים a*1000 ש"ח בחודש מאשר a+1)*1000) - וזאת לכל a חוץ אולי מאשר a=1,2. הייתי מצפה לזנב ימני שהולך ודועך. מאיפה מגיעה הקפיצה במשכורות הגבוהות?
2. השיטה שטל מציע אינה תלויה בכלל בהתפלגות: אם ממירים כל מספר לאחוזון שלו, מתקבלת תמיד התפלגות אחידה.
נכון, אבל... 105109
אחוזונים - זה מה שאני הצעתי. טל דיבר על תדירות, לא על אחוזונים.

ההתפלגות אכן מפתיעה, אבל אמיתית לחלוטין (נכון לארה''ב). היא נראית כמו גאוס נורמלי, רק עם קפיצה מפתיעה בקצה הזנב הימני. בא לומר לנו משהו על מבנה החברה האמריקאית.
נכון, אבל... 105114
1. טל דיבר על התדירות של משכורות מעל סף נתון - כלומר אחוזונים.

2. לא כל התפלגות עם מקסימום יחיד היא נורמלית. להתפלגות המשכורות יש זנב ימני, והיא יותר דומה ל-X^2 (חי בריבוע, הפונט היווני שלי בתיקון). למשל, המומנט השלישי שלה יהיה חיובי באופן מורגש (של התפלגות נורמלית צריך להיות אפס).

3. אני עדיין מתקשה להאמין באותה קפיצה מסתורית. האם יש יותר משכורות של 120-130K מאשר 110-120K? יותר 190-200K מאשר 180-190K? איפה קורית הקפיצה הזו?
נכון, אבל... 105117
לא התעצלתי ובדקתי את הנתונים. אכן אתה צודק, הסיבה לקפיצה היא שיטת המדידה: מ-$100K ומעלה הקטגוריות הופכות לקטגוריות של $50K.
התמונה האמיתית היא אכן של ירידה נמשכת (זנב ימני). איזה מזל שבדקתי.
ואיזה מזל שאני לא עוסקת בכלכלה.
מתנצלת בפני כל מי שבילבלתי (טל...)


חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים