בתשובה לשוטה הכפר הגלובלי, 13/05/20 13:04
719166
בתור מדען או מהנדס הייתי אומר: השאלה היא לא כמה פעמים אמרו את זה, אלא כמה פעמים זה היה נכון.
אולי זה נכון תמיד?‏1
אולי זה נכון לעיתים, ואז אפשר לדון בהאם זה נכון כרגע לפי מה שלמדנו מהמקרים בהם זה היה נכון בעבר?

1 החוק השני של התרמודינמיקה?
719245
בפעם הקודמת שנזכרנו בנוסטלגיה האשורית זה היה בעקבות תגובה 624490 על הפרק השני בספר של דויטשר על שפה. שם, אחרי שהוא מציג איך כל דור מתלונן על השפה הקלוקלת של הדור הצעיר, ומאידך מציין שהשפה של השימפנזים, עד כמה שאנחנו יודעים, לא מצטיינת בעושר, עדינות וניואנסים, אין מנוס מהמסקנה שהיה רגע כלשהו בתולדות האנושות שבו דיברו בשפה מופלאה, עדינה, עשירה ומדויקת מאין כמוה; והרגע הזה היה ונגמר בדיוק לפני שהתחילה ההיסטוריה המתועדת. בהחלט ייתכן שבאותו זמן גם אנשים היו כלילי מעלות משכמם ומעלה מכל יתר הבחינות.

1 למען מי שלא קרא את הספר חשוב לציין כאן שזה תיאור סרקסטי, דויטשר ואני לא חושבים כך לרגע.
719248
האמת היא שבהרבה מיתולוגיות (ובהרבה ספרי פנטזיה שונים) יש מיתוס של השפה ''האמיתית'', הקדומה, זו שבה הדברים נבראו או שבה נקבע להם שם שביטא את מהותם האמיתית. לעתים קרובות המשמעות היא שלמי ששולט בשפה הזו או יודע את השמות המקוריים יש כוחות שהוא יכול להפעיל על האוביקטים. אולי הגעגוע של המעמדות הגבוהים באירופה של ההשכלה אל הלטינית והיוונית גם הוא שיקוף של אותו סנטימנט - בלי הכוחות המיסטיים, אבל עם אמונה בכך שהשפות האלה נעלות במובן כלשהו.
719250
אבל אתה לגמרי מפספס את הטיעון שלי - אתה גוזר מהתלונה על המצב במציאות, ואני טוען שבלי לבדוק קורלציה בין התלונה למציאות, אין לנו שום יכולת לשפוט את נכונות התחונה, חוץ משתי הקיצוניות 'כולם מקטרים סתם והכל נפלא בעצם' ו-'פעם חפני ההיזטוריה היה נפלא ומאז רק מתדרדרים'.
לדוגמה, ייתכן ובימי הביניים הגעגוע לשפה הרומית העשירה היה נתמך מציאות, אבל באמצע המאה העשרים הגעגוע לזה של המאה ה-‏19 היה מופרך.

והרי מאד סביר שיש יכולת לשפוט שפה בכלים כמותיים של עושר, מגוון, דיוק, חידוש וכן הלאה.
719267
"מאד סביר שיש יכולת לשפוט שפה בכלים כמותיים של עושר, מגוון, דיוק, חידוש וכן הלאה"

האמת, זה נראה לי פרויקט מסובך. נתחיל מאיך תוחמים "שפה". הדרך היחידה הסבירה שאני רואה, לצרכינו, היא באמצעות אוסף ההיגדים שנאמרו קהילה מסוימת במשך פרק זמן מסוים, ועקרונית אפשר באמת למדוד או לדגום אותו. אבל מה הלאה? איך משווים שפה לשפה, קהילה X1 בפרק זמן T1 לקהילה X2 בפרק זמן T2? יש הבדלים שרירותיים במקבצי הצלילים ("כלב" לעומת "דוג"), שהם לא מעניינים. הבדלים מעניינים יותר בין השפות יהיו אלו שנובעים מזה שהקהילות השונות בזמנים השונים משתמשות (השתמשו) בשפה כי לתאר דברים שונים וכדי לגרום זה לזה לפעולות שונות. מה אתה עושה עם ההבדלים האלה?

האם אתה משער שיש שפות (כאמור, קהילה X בתקופה Y) שבה אנשים יותר מתקשים להעביר לרעיהם רעיון מסוים שעקרונית רעיהם יכולים להבין, בהשוואה לשפה Y, בגלל ששפה X פחות איכותית מ-Y? אין לי מושג איך לבדוק, והניחוש חסר התימוכין שלי הוא שלא במידה משמעותית.
719268
נניח שיש שפה ובה אלף מילים, ושפה ובה מאה אלף מילים.
ונניח שבשתי הקהילות שרלוונטיות, אחת דוברת שפה ראשונה והשנייה את השנייה, האדם הממוצע משתמש בעשיאית מהמילין בשפה, והסופר הממוצע בחמישים אחוז.
נמשיך ונניח שלכל אלף המילים בשפה הראשונה יש מילים מקבילות בשנייה.

האם היית יכול לומר שאחת השפות יותר מורכבת ועשירה מחברתה?
אם כן, מכאן והלאה נשתמש בערך הביניים שייתן לנו קריטריונים למקרי ביניים פחות מובהקים.
אם לא, אז אין בינינו הסכמה על העקרון.
719283
בוא נתמקד, ברשותך, בשפה המדוברת, ואחר כך נעבור לכתובה? (או אם אתה מעדיף ההפך אז ההפך, אבל אני בינתיים מתחיל מהמדוברת).
בכל מקרה, אני רוצה להתעלם מהגודל שאתה מניח, "כמה מילים יש בשפה" בנפרד מ"בכמה מילים משתמש האדם הממוצע". ממש קשה להגדיר "כמה מילים יש בשפה", וזה בוודאי לא רלוונטי לשאלה "איך הנוער היום מדבר". אז נקפוץ ישר לגודל היותר מוגדר, "בכמה מילים מתשמש האדם הממוצע", או החלף כרצונך ממוצע באחוזון התשעים או התשעים ותשע, למרות שבאמת כדי לשפוט את איך שהנוער היום מדבר כדאי לדבר על הנער הממוצע או האחוזון השבעים וחמש לכל היותר.

אז נניח שבקהילה C1 בתקופה P1 שנמשכת חודש, הנער הממוצע משתמש באלף מילים, ובקהילה C2 בתקופה P2 שנמשכת אף היא חודש, הנער הממוצע משתמש בחמשת אלפים מילים. אני לא יודע עד כמה מוצדק לטעון מכאן משהו על שפה 1 לעומת שפה 2, כש"שפה" כאן היא עברית או אנגלית וכו', אבל דווקא יש כאן כיוון טוב לטעון ששפת הנוער ב-C1 דלה יותר משפת הנוער ב-C2. מעניין אותי אם באמת עשו מחקרים כאלה, זה דווקא מעשי ומה שלא יהיו התוצאות הן יהיו לדעתי מרעישות. האינטואיציה שלי היא שלא יהיו הבדלים גדולים בין קהילות (תשווה קהילה מערבית של תקופתנו עם קהילה של ציידים לקטים; כאן יהיו יותר מילים של טכנולוגיה, שם יותר מילים של טבע).

אבל גם זה מסתבך. "מילים נפרדות" זה לא משהו אוניברסלי בשפות. שפות מדוברות מורכבות מצירופי צלילים, שהחלוקה שלהן ל"מילים" היא במידה מסוימת שרירותית. ("של הם" שתי מילים, "שלהם" מילה אחת?). אבל עזוב אפילו את זה. גם אם נניח מילים, הן הרי מצטרפות זו לזו; נראה לי ברור שבעזרת צירופים של מילים ממאגר קטן אפשר להגיע לאותו עושר ודיוק של מילים ממאגר גדול. האם השפה שמורכבת ממאגר קטן בהכרח נופלת במשהו משפה שמורכבת ממאגר גדול?

ולבסוף, שפה מדוברת היא אפילו לא רק רצפי ההגאים, היא גם אינטונציה ואפילו מחוות גוף.

אז לא, בינתיים אני לא רואה את הדרך לדרג שפות.

אני חושב שיותר מעניין אולי מלמדוד מגוון מילים, זה לנסות למדוד מידת הפשטה של מושגים, אולי ניואנסים של רגשות. נראה לי שהניסיון לכמת את זה מועד לפורענות הטיות של החוקר בגלל עולם המושגים שלו. בפרט, אם רוצים להוכיח או להפריך את ההשערה שהנוער מדבר בשפה יותר דלה משלנו, או מהשפה שאנחנו דיברנו בה בגילו. אם מישהו יצליח, לא ברור אם הוא מודד פה שפה או איטנליגנציה (מסוגים שונים).

אני חושב שלרוב אלו שמתלוננים על שפת הנוער נתפסים לאוצר מילים שנראה להם דל יותר, או לתחביר שנראה להם קלוקל; מבחינת רובם זה מספיק כדי להרשיע את הנוער, אבל המתוחכמים שבהם מסיקים מזה שגם עולם המושגים שלהם או יכולת התקשורת שלהם דלה יותר; אבל לטענות האלו אני מתייחס עם טונות של ספקנות, וחושב שהם מצריכות הוכחות מרשימות, שכמעט אין לי רעיון איך להתחיל בהן.
719288
רוב הדברים שהעלית מורכבים אבל ניתנים למדידה וכימות בקצת מאמץ מחקרי.
הייתי כרגע מניח אינטונציות ורגשות בצד.
בנוסף, כל דקויות המילים הנפרדות נעשות הרבה יותר פשוטות, כשמדובר על אותה שפת מקור בזמנים שונים (העברית של עכשיו ושל לפני אלפיים שנה עדיין הרבה הרבה יותר דומות מעברית ואנגלית בכל זמן שהוא באלפיים שנה האחרונות.)
719328
אתה נשאר עם קושי אחד, אבל מז'ורי. הצעת מטריקה של ספירת מילים שונות בשימוש. איך אתה יודע אם הקהילה שעושה שימוש בפחות מילים לא מקיימת שפה עשירה באותה מידה בזכות שימוש עשיר יותר בצירופי מילים?
719332
מה זאת אומרת איך אני יודע? לחלק ניכר מהדוגמאות - אני לפחות יכול לשאול.
בתור הנחת בסיס הייתי מניח שמספר המילים-כתוצאה-מצירופי-שתי-מילים-או-יותר מצומצם עד כדי כמעט זניח ברוב השפות האנושיות, בהסתמך על עשרות או מאות הדוגמאות שאנחנו כבר מכירים‏1. קל וחומר שזה כמעט לא רלוונטי באותה שפה לאורך דורות בודדים. והנה נפטרנו גם מהקושי המז'ורי הזה.

1 ואם אתה לא משוכנע, אני בטוח שמחקרון מקדים על התנ"ך, כתבי שייקספיר, הקוראן, הוולגאטה וספרי הארי פוטר בעשרות שפות יכול לבסס את הטענה הזו כמותית (האם אותן מכמשמא"י הן פרומיל או אחוז מהשפה). ואם מאד מטריד אותך שאלה שפות כתובות‏2, אז אתה מוזמן גם להשתמש בסרטים.
2 לא חייב להטריד, אידיומים מופיעים גם בשפה המדוברת וגם בכתובה‏3.
3 מראש הטענה שצירופי מילים נפוצים עד מאד היא די אנטי-תער-אוקהאמית, בשביל מה לסבך סתם? למה שתינוק יקרא לאימו "זאת-שנותנת-לי-אוכל-ומשכיבה-אותי-לישון" במקום המילה הפי-‏22-בחזקת-‏25 (או פי אלפיים-בחזקת-‏7) יותר פשוטה מזו?
סאטורן 5 719351
יש לי הרגשה שאתה מכיר את זה, אבל למי שלא מכיר:
בעקבות הפוסטר ב־XKCD שתיאר את הטיל סאטורן 5 תוך שימוש רק ב־1000 המילים הנפוצות בשפה האנגלית (US Space Team's Up Goer Five, The only flying space car that's taken anyone to another world. Explained using the ten hundred words people most often use), החליט מישהו שזה אתגר מעניין. הוא הציב את האתגר וצבר לא מעט תוצאות.

וכמובן, דוגמה פחות קיצונית: ויקיפדיה באנגלית פשוטה והדף המתבקש ממנה.
סאטורן 5 727335
אוצר מילים של אלף מילים (+ צירופים ניגזרים) זו מיטת סדום.

אבל שפה בנויה היטב יכולה להסתפק באוצר (אמנם בדוחק) באוצר מילים של 3000 מילים (+ צירפי מילים ניגזרים). עשו על זה הרבה מחקר בנוגע לשפה האנגלית, לדוגמא 3000 מילות יסוד במילוני אוקספורד, 3000 מילות יסוד במילוני לונגמאן.

מדובר כאן בשפה כתובה, בשפת דיבור מצטמצמים באוצר מילים של 1000 מילות יסוד (את החסר אפשר להשלים בדיבור חוץ מילולי, כגון שפת
גוף ניפנופי ידיים וכדומה).
סאטורן 5 727344
האמת, מפתיע דוקא כמה התיאור הזה של סאטורן חמש הוא מדויק ופשוט להבנה יותר מתיאורים שרשאים להשתמש במילים יותר מקצועיות.
ככה צריך לתאר אותו לילד בן ארבע.
סאטורן 5 727365
אהה!

זה אחד הדברים שהייתי נותן ל-AI לעשות מיד! להפוך טקסטים מויקיפדיה, למשל, לצורה שתהיה נגישה לילדים ולבעלי אוצר מלים מוגבל בכלל. נראה לי שצריך להיות קל יחסית לבנות וריאנט של GPT3 שייתן משקל גבוה יותר למילה ככל שהיא שכיחה יותר. צריך להשקיע קצת מאמץ בבניית מאגר שייתן את השקלול האופטימלי שכן שכיחות בלבד (אותה קל לחשב) אולי אינה אידיאלית, אבל כדאי לנסות אפילו בלי זה ולראות מה מתקבל. אולי אפשר להפוך את ynet ודומיו ל"שער למתחיל" בלחיצת כפתור, לשמחתם של ריבואות‏1 העולים שיציפו את ארצנו עם התגברות האנטישמיות הצפוייה בארה"ב.

בשלב הבא נוכל לבחור רמת השפה המועדפת עלינו כפי שאנחנו בוחרים היום את גודל הפונט. זה אומר שגם בעוד עשור אוכל להמשיך לקרוא באייל.
__________
1- "רבבות" תרגמה GPT3 לקהל הרחב, "עשרות אלפים" למצביעי הליכוד, "המון" לחברי מרכז הליכוד. לח"כים מטעם הליכוד התוכנה ויתרה על תרגום ונתנה במקומו את דף המסרים היומי ("האנרכיסטים משתוללים בהזיות מסוכנות" אם אתם מוכרחים לדעת).
719359
מי מדבר על מספר המילים שהם תוצאה של צירופי שתי מילים או יותר? אני אפילו לא יודע למה כוונתך במילים שהם תוצאה של צירופי מילים. אני לא דיברתי על מטבעות לשון, אני דיברתי על היכולת להביע רעיון או לתאר משהו בעזרת כמה מילים (כפי שעושים כל הזמן בשפה); ועל זה שבעזרת יותר מילים פר רעיון אתה יכול לפצות על מאגר מילים קטן יותר.

(עדיין לא קראתי את הקישור ששלח אח של אייל, נראה רלוונטי, אשתדל מחר.)
719339
בויקיפדיה יש דף מעניין בנושא: https://en.m.wikipedia.org/wiki/Language_complexity

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים