NYT vs. OpenAI 765942
שווה לקרוא את כתב התביעה.

חברות ה"בינה" נמצאות עתה בשלב שהן מודות למעשה שהמודל העסקי שלהן תלוי לחלוטין בניצול חופשי של משאבי קניין רוחני. לפני שני עשורים "נאפסטר" מצאה את עצמה במצב דומה, ואנחנו יודעים איך זה נגמר. מצד שני, בעשור האחרון "אובר" ודומותיה הצליחו לא אחת לבסס ולהרחיב עסק שקיומו מושתת על הפרה סיטונית של הסדר החוקי, כי הן היו מספיק גדולות ומתוחכמות כדי לתמרן את הסביבה החברתית והפוליטית.

ההתרשמות שלי היא שמודלי-שפה גדולים מתקרבים לאסימפטוטה, ובאסימפטוטה הם לא מניבים מספיק תועלת כדי להיות בני-קיימא אם העלות תכלול תשלום לבעלי הקניין הרוחני שממנו הם נוצרים, והם לא מניבים מספיק תועלת כדי שפוליטיקאים ירצו לשנות את כללי המשחק למענם.
NYT vs. OpenAI 765945
"הן מודות למעשה שהמודל העסקי שלהן תלוי לחלוטין בניצול חופשי של משאבי קניין רוחני"

באמת? תלוי לחלוטין? אני בספק. גוגל ומיקרוסופט ממש לא תלויות בהכנסות האלו. והן ימשיכו לשפוך לשם מיליארדים כי הפוטנציאל הוא עצום. מיקרוסופט לא קנתה את אובר. היא כן קנתה את OpenAI (אוקי משתפת פעולה. פוטטו פואטטו).
NYT vs. OpenAI 765947
כן.
NYT vs. OpenAI 765948
האם אתה סבור שמייקרוסופט וגוגל יפסיקו את המחקר בתחום ה LLM במהלך חמש השנים הקרובות?
NYT vs. OpenAI 765952
אין לי מושג ואלו שתי חברות שונות למדי זו מזו עם אתגרים עסקיים שונים ולשתיהן אורך-נשימה ועומק שאין לחברות-ההזנק הרבות בתחום, שאליהן התכוונתי כשכתבתי "חברות ה'בינה"'. נסתכל על כלי רכב אוטונומיים: ל"אלפבית" אין בעיה להמשיך להשקיע ב"ווימו" למרות שלא ברור (לי) איך ומתי ההשקעה תשתלם, אבל זה כי "גוגל" נואשת למצוא תחליף לעסק הדומיננטי היחיד שלה בהווה. מאידך, "אובר" ויתרה על ההשקעה של בתחום, ונראה שגם GM מחפשת לצאת ממנו.

לכן נראה לי שהתביעה של ה"טיימס", אם לא תתמסמס באיזו פשרה, היא קו פרשת-מים שיקבע אם מודלי-שפה גדולים הם מגה-הזדמנות כמו האינטרנט בשנות האלפיים והטלפון החכם בשנות העשרה או שהם לכל היותר עסק נאה לשחקנים ספורים, כמו חנויות המוסיקה החוקיות שהחליפו את "נאפסטר".
NYT vs. OpenAI 765954
תודה על התגובה.

לדעתי מודלי שפה גדולים, ובינה מלאכותית בכלל, דומות למה שהיה עם הטלפון החכם. אלו טכנולוגיות שפותחות מרחב אפשרויות חדש - והמרחב גדול בהרבה ממה שתחום התחבורה או המוזיקה יכולים להציע.

באופן ציורי: אני יכול להתייעץ עם chat gpt איך כדאי להגיע אל שדה התעופה - אבל אני לא אתייעץ עם נהג אובר באיזה LLM כדאי להשתמש.

לדעתי יש מאחורי הטכנולוגיות האלו מומנטום, שהתביעה של הנ.י. טיימס לא תוכל לעצור. לכל היותר, התביעה תזרז את קביעת החוקים סביב הטכנלוגיה החדשה - בדיוק כמו שסביב מנועי חיפוש יש תשתית חוקית שעוסקת במהו "שימוש הוגן" בהקשר של מנועי חיפוש.

בכל מקרה, יש באייל הקורא אנשים שמבינים בתחום ה LLM הרבה יותר ממני. יהיה מעניין לשמוע את דעתם.
NYT vs. OpenAI 765956
מגניב, גרסת ה-AI שלך לבדיחה שפסנתר אפשר להפיל אבל פיל אי אפשר לפסנתר.
NYT vs. OpenAI 765963
אני חולק על הניתוח שהבאת. אומנם לא קראתי את כתב התביעה בן 69 העמודים, אבל אני בדעה שלצורך קביעת עמדה נחרצת בנושא כלשהו, אין צורך להכיר אותו מעבר לכותרת. אחרת, ידיר הדבר ציבורים רחבים מן השיח הציבורי, ולכך לא אתן את ידי!

אשתמש לכן בתובנותיו של Andrew NG שכן עבר על כתב התביעה. זאת בהסתייגות שהוא אינו משפטן וכן שבעבר הוא הביע עמדות נחרצות גם בנושא הבטיחות וגם בנושא זכויות היוצרים - תמיד לטובת מה שיאיץ את הפיתוח בתחום. למעשה גם אני מוטה, אבל לכיוון השני - אני מעדיף להרחיק המערכות של openai כמה שיותר מתובנותיו של התובע‏1 על העולם.

שתי הטענות המרכזיות של התובעים הן עצם קריאתו של חומר שמוגן בזכויות יוצרים ע"י מנגנון האימון של המודל, וכן היכולת לספק למשתמשים ציטוטים מחומר מוגן זה.
קריאה: לא ברור על מה מבססים התובעים את טענתם הראשונה, שכן מאמרים של ני"ט מצוטטים למכביר בעתונות הכתובה וברחבי הרשת. יתכן לכן שזה מקורם. למעשה, וזה נוגע גם לטענה השניה, זו‏2 בדיוק התופעה שגורמת ל-LLM, שאמור להבין מידע במקום לשמור עותק שלו, למסור ציטוטים ארוכים מתוך החומר אותו למד.

אבל גם אילו טרחו עוה"ד להראות שהקריאה כן נעשתה בחומרים שהורדו מאתר הני"ט, סביר שהדבר נעשה באמצעות מנוי חוקי. ככזה, מותר לבעל המנוי לקרוא, ללמוד ולשנן מאמרים ככל אשר חפצה נפשו. זאת אלא אם היתה בהסכם השימוש של הני"ט (ששונה לאחרונה) דבר מה המגביל זאת.

ציטוט: סביר שדליית הקטעים הארוכים מתוך ארכיון העתון היא מצומצמת ונוגעת רק לחלק מתוך אלו שצותתו בהרחבה. כל עוד אין התובע מבהיר אחרת, סביר שאלו נוצרו לא בשימוש רגיל, אלא באמצעות פניה אל chatGPT בשיטות מיוחדות, כדוגמת RAG, שלפעמים מוטמעת במערכות שמסוגלות לגשת לרשת תוך שימוש למשל בחשבון הלגיטימי של המנוי באתר הני"ט. אפשרות אחרת היא פרומפטים שכבר מכילים חלק מן המאמר (LLMים אוהבים להמשיך דברים) ולכן כבר דורשים מן המשתמש מנוי מפעיל לאתר העתון. אבל גם אם לא, אם זאת הבעייה, קל יחסית לִמְנֹעַ מ-LLM למסור ציטוטים ארוכים מתוך החומר הנלמד. למעשה, נראה שזה כבר נעשה עוד קודם להגשת התביעה.

כך שההשוואה לאובר ונאפסטר נראית לי שגויה. ההשוואה המתאימה היא, כפי שמציין NG, היא לכל היותר יוטיוב, שבתחילת דרכה התמודדה והסדירה את נושא זכויות היוצרים. אבל גם השוואת זו היא אולי מופרזת, שכן יוטיוב שומרת עותקים ועל אלו ישנה הגנה, ואילו LLM שומר תובנות, סגנון ושאר אלמנטים שברובם נתונים לשימוש חופשי מאז ומעולם.

1 פחות בגלל כמה דוגמאות מקומיות ויותר בגלל אלו האמריקאיות והעולמיות.
2 כלומר היחשפות לעותקים מרובים של אותו הטקסט בזמן הלימוד.
NYT vs. OpenAI 765979
אפתח בכך שאחזק את ידיך‏1 בנוגע ללא לקרוא, ואתן דוגמה אישית בכך שלא אקרא את NG לעת עתה.

לא פעם טכנולוגיסטים, לפעמים בתום לב ולפעמים במזיד, מאמצים קריאה לוגית-אלגוריתמית-איכותנית של הדין. בעולם המשפטי האמיתי דברים כמו כוונה וכמות נחשבים גם הם. ולענייננו ביהמ"ש יכול למצוא שיש הבדל בין קריאה אנושית לקריאה ממוכנת, כמו שלמשל יש הבדל בין צילום ברשות הציבור אה-לה-אלכס-ליבק לבין צילום ברשות הציבור אה-לה-Google Maps. ובדומה בעניין הציטוט, יכול שיימצא הבדל בין היכולת האנושית שלי לדקלם את "איה פלוטו" במלואו לפי דרישה לבין מכונה שמדקלמת את כל כתבי גולדברג לפי דרישה.

דעתי: אם OpenAI מפיקה תועלת עסקית ניכרת מקניינה הרוחני של NYT אז זה הוגן ש-NYT תתייחס לזה כשימוש מסחרי ותהייה זכאית לקבוע את התנאים (בשונה מההסכם האחיד עם מינויים למשל).

1 שיקול תועלתני: רוצה לצאת מחוזק אז בא לחזק
NYT vs. OpenAI 765982
דעתי: הויכוחים המשפטיים המאוד משעממים הללו ימשיכו מספר שנים עד שיעלה שחקן אחד ראשון וחכם שימצא את המודל העסקי שיגרום באופן טבעי לכל השיחה הזאת להסתיים לפני שהיא תגיע לאיזו מסקנה ברורה ומוסכמת. מודל עסקי בו באופן לגמרי אוטומטי הוא יכול לשייך לכל תשובה שמספקת הבינה המלאכותית (בהסתברות מספיק גבוהה) מי מבעלי זכויות היוצרים צריכים לקבל את התת-פרומיל של סנט כי התוכן שלהם במאגר (ורלבנטי לתשובה) בו החברה השתמשה לאימון. בדיוק כמו באפל-מיוזיק/סופטיפי וכו׳, התוצאה תהיה לא רק שיצרני התוכן יפסיקו להתלונן על השימוש בתוכן שלהם, אלא יתחילו להאבק על הזכות להיות להיות ספקי תוכן משמעותי (ובטח יתחיל גם ״מדע״ שלם איך ליצר תוכן באופן שהמכונות ישימו אליו לב בסבירות גבוה יותר מזה של אחרים).

סביר להניח שהתוצאה לדבר כזה תהיה גם חלוקה לבינות מלאכותיות ״לגיטמיות״ וחכמות יותר שנמצאות בידי התאגידים הגדולים (גוגל, מיקרוסופט וכו׳), בינות מלאכותיות לגיטימיות מטומטמות יחסית בקוד פתוח (אבל Llama?) ובינות מלאכותיות חכמות ובלתי חוקיות שמסתובבות בחוץ (בטח הרבה ישתמשו בהן בכל זאת, למרות שהן ספק חוקיות, אבל לא יעשו את זה מהמקפצה ו/או באופן רשמי במקום העבודה).
NYT vs. OpenAI 765983
יתכן, אבל זכור שבניגוד לנפסטר ויוטיוב, שאיפשרו למי שעד אז הצטרכו לשלוח יד אל כיסם כדי להשיג עותק של Baby One More Time, לקבלו בחינם, אין זה המצב ביחס לתכני ני"ט, במיוחד לאחר שיפור מניעת הציטוטים שערכה openai. כלומר, אם הבנתי נכון, ני"ט לא הצביעו על פגיעה אפשרית בהכנסות (לאחר השיפור) וגם לא על הפרת ההסכם (הישן) עם המשתמשים. כך שלפחות כרגע, קשה לטעון שההיסטוריה חוזרת. כמובן, אם המחוקקים יחליטו שצריך לשנות את הכללים כי זה לא פייר שמישהו מרוויח ממישהו, גם ללא פגיעה בהכנסותיו אך גם מבלי לתגמל אותו, זה דבר אחר.
NYT vs. OpenAI 765992
נכון.

נמתין שנה ושהבינה המלאכותית כבר תחליט בשבילנו מה הפתרון הכי סביר לכל הסוגיה הזאת. אנחנו יכולים להמשיך לעזור בשינוע מטענים.
NYT vs. OpenAI 766016
אני לא בטוח שבכלל ניתן לקבוע איך קטע מסויים השפיע על מיליארדי (או טריליוניי) הפרמטרים של גב' בינה, ובכמה השתנה פלט כלשהו בעקבות פיסת מידע ספציפית. תיאורטית ניתן לאמן מחדש את המכונה תוך השמטת קטעי מידע מסויימים בכל פעם שהשאלה עולה, אבל זה לא נראה פרקטי במיוחד. הכוונה שלי היא שאפשר לאמן ג'פטו חדש בדיוק כמו את זה שבמחלוקת מלבד השמטת כל הקלט שהגיע מ- NYT ולהשוות את התוצאות בין שני המודולים האלה. אבל אפילו אם זה לא דמיוני לחלוטין מבחינה מעשית, כשחושבים על כל מקור מידע כזה שיצטרך להיבחן בנפרד, איך ניתן להעריך כספית את ההבדלים שיתגלו בין שתי הגירסאות, מלבד במקרים מאד נדירים (דוגמא: הגירסא עם קלט מ NYT מגלה פטנט ששוויו הכספי ניתן לחישוב בעוד הגירסה השניה לא מגלה את הפטנט הזה)?

במלים פלצניות מעט יותר: איך ניתן לקבוע כמה שווה כל ווקסל בהולוגרמה?
NYT vs. OpenAI 766024
מעניין אם יש מקרים שבהם זה יהיה יותר ברור.
למשל - סביר להניח שאם הג'פטו מצטט במלואו את ''איה פלוטו'', אז הוא למד את זה מ''איה פלוטו'' ולא ממקומות אחרים.
או שאם הוא מצייר כבשים של קדישמן, אז הוא למד את זה מקדישמן.
אבל מסכים איתך שזה מאד קשה.
אגב - הולוגרמות ברובן הן שטוחות (ההולוגרמה, לא התמונה שאתה רואה דרכה).
NYT vs. OpenAI 766054
לטעמי השאלה לגבי ציטוטים ישירים צריכה להקבע בלי הבדל בין אדם למכונה. אם לי מותר לצטט את NYT למשל כדי לפרסם מוצר שלי ולעשות מזה כסף, מה משנה המכשיר שבו אני משתמש כדי להגיע לציטוט?

לגבי האגב, אכן, אופס.
NYT vs. OpenAI 766056
אני מניח שלך אסור (ברמה מסוימת) להפיץ כתבות שלמות של NYT שהן מאחורי חומת תשלום. ואפילו יותר אסור אם אתה עושה מזה כסף.
(כמובן שהענין פה הוא ההבדל הלכאורה אפור בין ציטוט לכתבה שלמה. אבל מרגע שיש גישה לכתבה השלמה, הבעייה נראית לי ברורה, הרי לא סביר שרק בגלל שאנחנו סומכים על רצונך הטוב נניח שלא תשתמש ב"ציטוט" שהוא כל הכתבה.)
NYT vs. OpenAI 766061
שוב: מה שאסור לי שיהיה אסור גם לגב' בינה, ולהיפך. אם רוצים לשנות את החוק כך שכל ציטוט יהיה אסור אלא אם התקבל אישור מהמקור, ואם מקורות כמו NYT יודיעו שיש מראש אישור לבני אדם בהתאם למה שהיה נהוג עד כה, אבל לתוכנות אין אישור כזה כברירת מחדל, זה יכול להיות פתרון עד היום בו התוכנות יגיעו למצב בו הן עצמן תובעות את העיתון על אפליה פחמנית, לשמחתו של אסימוב זצוק"ל.

אני מניח שיכולה להתעורר בעיה בשאלת האחריות: האם במקרים של ציטוטים לא חוקיים האשם הוא במי שהפעיל את התוכנה והשתמש בפלט שלה בלי לשנות אותו, או במי שיצר אותה. לטעמי התשובה ברורה, אבל כידוע הטעם שלי לא משהו.
NYT vs. OpenAI 766062
ואגב עלתה שם גם טענה נוספת מהכיוון השני:
כידוע הג'פטו יודע לתת ציטוטים לא מדויקים מבלי למצמץ. מטעמי פחמנות ברור לי ולך שאם נצטט ציטוט לא מדויק של NYT נהיה חשופים לתביעה כספית נאה. אז מה עם הציטוטים של הצ'אט? במקרה הזה יש פגיעה עסקית במוניטין של NYT.
NYT vs. OpenAI 766067
במקרה זה אנחנו חוזרים לבעיית האשם/אחראי: התוכנה ש"ציטטה" או מי ששהשתמש בתוצריה בלי לבדוק. בעיה, ואפשר לדעת רק דבר אחד בביטחון מלא: מי שלא אחראי בשום אופן הוא ביבי.

זה מצביע על בעיה אחרת, שאמנם מדברים עליה אבל לא מספיק: מה שוווים לי כל שירותי ג'פטו באותם מקרים בהם קשה עד בלתי אפשרי לבדוק את התשובה? מקרה אמיתי: בעקבות שיחה עם חבר שאלתי את copilot משהו לגבי סטטיסטיקה של תוצאות ספורט‏1, והוא נתן לי בביטחון תשובה שאין לי מושג אם היא נכונה. מה הרווחתי?
____________
1- האם בסנוקר יש יתרון לפותח בפריים או ליריבו? ביקשתי את הסטטיסטיקה עבור טורנירים מקצועניים חשובים (ranking events) מהשנים האחרונות, והוא סיפר לי שלשחקן הפותח יש יתרון לא זניח (עכש"ז משהו בסביבות 6:7), מה שקצת מנוגד להרגשה שלי, אבל לו הייתי יודע איך לבדוק את זה לא הייתי מטריד את ג'פטו מלכתחילה.
NYT vs. OpenAI 766106
> מה שאסור לי שיהיה אסור גם לגב' בינה

"טכנולוגיסטים, לפעמים בתום לב ולפעמים במזיד, מאמצים קריאה לוגית-אלגוריתמית-איכותנית של הדין". אצלך זה בתום לב, נכון?
NYT vs. OpenAI 766126
אין לי מושג מה זאת ''קריאה לוגית-אלגוריתמית-איכותנית של הדין'' אבל מאחר שלא קראתי את הדין כלל דומני שאני פטור ממנה.
NYT vs. OpenAI 766069
כמה מסובך ליצור סקריפט שדבר עם ג’פטו ומקבל את הכתבה הזו? (לפי התיאור שכן: נשמע ממש פשוט) לכמה כתבות זה עובד? (אין לי מושג)
NYT vs. OpenAI 766026
קראתי איזה פירוט בעברית שמישהו כתב, ויש שם טענות שדוקא נשמעות לא מופרכות.

לדוגמה - הם מראים ששימוש בג'פטו דה פקטו עוקף את חומת התשלום שלהם. וזה פוגע פגיעה משמעותית במודל העסקי שלהם.
NYT vs. OpenAI 766031
תוכל להפנות או להסביר באיזה מובן מתרחשת העקיפה? האם זה מאפשר לי למשל לקרוא את הגליון של היום? לשלוף חלק משמעותי מן הכתבות שבארכיון? אם כך המצב, הרי שהמצב שונה ממה שכתבתי.
NYT vs. OpenAI 766037
אין לי שום מידע משלי, אני מתבסס על דיון בפורום של קבוצת אימיילים שאני חשוף אליה.
לא נראה לי ראוי שאעתיק את התקציר בעברית שהם עשו שם, אבל כן אצטט שני סעיפים קטנים אם זה יעזור לך:

"3. פגיעה במודל העסקי באמצעות העתקה - ה-NYT מראה מספר דוגמאות שבהן התוכן שיוצרים הצ'אט GPT וה- copilot של Bing, כביכול ממגוון מקורות, הוא פלגיאט 1:1 של כתבות מהטיימס. תכנסו ותראו זה מהמם. הוא מביא דוגמאות של כתבות זוכות פוליצר שהושקעו אלפי שעות תחקיר בהכנתן, אבל ה-NYT לא מקבל את הטראפיק אליהן.

4. פגיעה במודל העסקי ב' - ה-NYT מראה שאפשר לעקוף את חומת התשלום שלו. מבקשים מהצ'אט GPT לצטט את הפסקה הראשונה בכתבה, ואז עוד אחת ועוד אחת... מי שרוצה לקרוא את התחקיר של ה-NYT על הכשלון של ישראל ב-‏7.10 ללא חומת תשלום, כתב התביעה מראה כיצד."
NYT vs. OpenAI 766039
טוב, זה דורש עיון, דבר ממנו אני מנוע כרגע עקב מגבלה רפואית‏1. אז בינתיים אני משעה את טענותיי לעיל.

1 עצלנות
NYT vs. OpenAI 766035
אתה צודק וגם אני לא בטוח שזה אפשרי.
NYT vs. OpenAI 766105
> מודלי-שפה גדולים מתקרבים לאסימפטוטה, ובאסימפטוטה הם לא מניבים מספיק תועלת

כמו שאמר השכ"ג:
> מה שוווים לי כל שירותי ג'פטו באותם מקרים בהם קשה עד בלתי אפשרי לבדוק את התשובה?
NYT vs. OpenAI 766108
בחלק,אולי רוב המקרים,אפשר לדרוש מן הבינה סימוכין ברי בדיקה,למשל קישורים, כולל פסקה רלוונטית

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים