בתשובה לירדן ניר-בוכבינדר, 17/05/20 19:09
719332
מה זאת אומרת איך אני יודע? לחלק ניכר מהדוגמאות - אני לפחות יכול לשאול.
בתור הנחת בסיס הייתי מניח שמספר המילים-כתוצאה-מצירופי-שתי-מילים-או-יותר מצומצם עד כדי כמעט זניח ברוב השפות האנושיות, בהסתמך על עשרות או מאות הדוגמאות שאנחנו כבר מכירים‏1. קל וחומר שזה כמעט לא רלוונטי באותה שפה לאורך דורות בודדים. והנה נפטרנו גם מהקושי המז'ורי הזה.

1 ואם אתה לא משוכנע, אני בטוח שמחקרון מקדים על התנ"ך, כתבי שייקספיר, הקוראן, הוולגאטה וספרי הארי פוטר בעשרות שפות יכול לבסס את הטענה הזו כמותית (האם אותן מכמשמא"י הן פרומיל או אחוז מהשפה). ואם מאד מטריד אותך שאלה שפות כתובות‏2, אז אתה מוזמן גם להשתמש בסרטים.
2 לא חייב להטריד, אידיומים מופיעים גם בשפה המדוברת וגם בכתובה‏3.
3 מראש הטענה שצירופי מילים נפוצים עד מאד היא די אנטי-תער-אוקהאמית, בשביל מה לסבך סתם? למה שתינוק יקרא לאימו "זאת-שנותנת-לי-אוכל-ומשכיבה-אותי-לישון" במקום המילה הפי-‏22-בחזקת-‏25 (או פי אלפיים-בחזקת-‏7) יותר פשוטה מזו?
סאטורן 5 719351
יש לי הרגשה שאתה מכיר את זה, אבל למי שלא מכיר:
בעקבות הפוסטר ב־XKCD שתיאר את הטיל סאטורן 5 תוך שימוש רק ב־1000 המילים הנפוצות בשפה האנגלית (US Space Team's Up Goer Five, The only flying space car that's taken anyone to another world. Explained using the ten hundred words people most often use), החליט מישהו שזה אתגר מעניין. הוא הציב את האתגר וצבר לא מעט תוצאות.

וכמובן, דוגמה פחות קיצונית: ויקיפדיה באנגלית פשוטה והדף המתבקש ממנה.
סאטורן 5 727335
אוצר מילים של אלף מילים (+ צירופים ניגזרים) זו מיטת סדום.

אבל שפה בנויה היטב יכולה להסתפק באוצר (אמנם בדוחק) באוצר מילים של 3000 מילים (+ צירפי מילים ניגזרים). עשו על זה הרבה מחקר בנוגע לשפה האנגלית, לדוגמא 3000 מילות יסוד במילוני אוקספורד, 3000 מילות יסוד במילוני לונגמאן.

מדובר כאן בשפה כתובה, בשפת דיבור מצטמצמים באוצר מילים של 1000 מילות יסוד (את החסר אפשר להשלים בדיבור חוץ מילולי, כגון שפת
גוף ניפנופי ידיים וכדומה).
סאטורן 5 727344
האמת, מפתיע דוקא כמה התיאור הזה של סאטורן חמש הוא מדויק ופשוט להבנה יותר מתיאורים שרשאים להשתמש במילים יותר מקצועיות.
ככה צריך לתאר אותו לילד בן ארבע.
סאטורן 5 727365
אהה!

זה אחד הדברים שהייתי נותן ל-AI לעשות מיד! להפוך טקסטים מויקיפדיה, למשל, לצורה שתהיה נגישה לילדים ולבעלי אוצר מלים מוגבל בכלל. נראה לי שצריך להיות קל יחסית לבנות וריאנט של GPT3 שייתן משקל גבוה יותר למילה ככל שהיא שכיחה יותר. צריך להשקיע קצת מאמץ בבניית מאגר שייתן את השקלול האופטימלי שכן שכיחות בלבד (אותה קל לחשב) אולי אינה אידיאלית, אבל כדאי לנסות אפילו בלי זה ולראות מה מתקבל. אולי אפשר להפוך את ynet ודומיו ל"שער למתחיל" בלחיצת כפתור, לשמחתם של ריבואות‏1 העולים שיציפו את ארצנו עם התגברות האנטישמיות הצפוייה בארה"ב.

בשלב הבא נוכל לבחור רמת השפה המועדפת עלינו כפי שאנחנו בוחרים היום את גודל הפונט. זה אומר שגם בעוד עשור אוכל להמשיך לקרוא באייל.
__________
1- "רבבות" תרגמה GPT3 לקהל הרחב, "עשרות אלפים" למצביעי הליכוד, "המון" לחברי מרכז הליכוד. לח"כים מטעם הליכוד התוכנה ויתרה על תרגום ונתנה במקומו את דף המסרים היומי ("האנרכיסטים משתוללים בהזיות מסוכנות" אם אתם מוכרחים לדעת).
719359
מי מדבר על מספר המילים שהם תוצאה של צירופי שתי מילים או יותר? אני אפילו לא יודע למה כוונתך במילים שהם תוצאה של צירופי מילים. אני לא דיברתי על מטבעות לשון, אני דיברתי על היכולת להביע רעיון או לתאר משהו בעזרת כמה מילים (כפי שעושים כל הזמן בשפה); ועל זה שבעזרת יותר מילים פר רעיון אתה יכול לפצות על מאגר מילים קטן יותר.

(עדיין לא קראתי את הקישור ששלח אח של אייל, נראה רלוונטי, אשתדל מחר.)

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים