בתשובה לטטנוס, 13/01/24 6:02
NYT vs. OpenAI 765963
אני חולק על הניתוח שהבאת. אומנם לא קראתי את כתב התביעה בן 69 העמודים, אבל אני בדעה שלצורך קביעת עמדה נחרצת בנושא כלשהו, אין צורך להכיר אותו מעבר לכותרת. אחרת, ידיר הדבר ציבורים רחבים מן השיח הציבורי, ולכך לא אתן את ידי!

אשתמש לכן בתובנותיו של Andrew NG שכן עבר על כתב התביעה. זאת בהסתייגות שהוא אינו משפטן וכן שבעבר הוא הביע עמדות נחרצות גם בנושא הבטיחות וגם בנושא זכויות היוצרים - תמיד לטובת מה שיאיץ את הפיתוח בתחום. למעשה גם אני מוטה, אבל לכיוון השני - אני מעדיף להרחיק המערכות של openai כמה שיותר מתובנותיו של התובע‏1 על העולם.

שתי הטענות המרכזיות של התובעים הן עצם קריאתו של חומר שמוגן בזכויות יוצרים ע"י מנגנון האימון של המודל, וכן היכולת לספק למשתמשים ציטוטים מחומר מוגן זה.
קריאה: לא ברור על מה מבססים התובעים את טענתם הראשונה, שכן מאמרים של ני"ט מצוטטים למכביר בעתונות הכתובה וברחבי הרשת. יתכן לכן שזה מקורם. למעשה, וזה נוגע גם לטענה השניה, זו‏2 בדיוק התופעה שגורמת ל-LLM, שאמור להבין מידע במקום לשמור עותק שלו, למסור ציטוטים ארוכים מתוך החומר אותו למד.

אבל גם אילו טרחו עוה"ד להראות שהקריאה כן נעשתה בחומרים שהורדו מאתר הני"ט, סביר שהדבר נעשה באמצעות מנוי חוקי. ככזה, מותר לבעל המנוי לקרוא, ללמוד ולשנן מאמרים ככל אשר חפצה נפשו. זאת אלא אם היתה בהסכם השימוש של הני"ט (ששונה לאחרונה) דבר מה המגביל זאת.

ציטוט: סביר שדליית הקטעים הארוכים מתוך ארכיון העתון היא מצומצמת ונוגעת רק לחלק מתוך אלו שצותתו בהרחבה. כל עוד אין התובע מבהיר אחרת, סביר שאלו נוצרו לא בשימוש רגיל, אלא באמצעות פניה אל chatGPT בשיטות מיוחדות, כדוגמת RAG, שלפעמים מוטמעת במערכות שמסוגלות לגשת לרשת תוך שימוש למשל בחשבון הלגיטימי של המנוי באתר הני"ט. אפשרות אחרת היא פרומפטים שכבר מכילים חלק מן המאמר (LLMים אוהבים להמשיך דברים) ולכן כבר דורשים מן המשתמש מנוי מפעיל לאתר העתון. אבל גם אם לא, אם זאת הבעייה, קל יחסית לִמְנֹעַ מ-LLM למסור ציטוטים ארוכים מתוך החומר הנלמד. למעשה, נראה שזה כבר נעשה עוד קודם להגשת התביעה.

כך שההשוואה לאובר ונאפסטר נראית לי שגויה. ההשוואה המתאימה היא, כפי שמציין NG, היא לכל היותר יוטיוב, שבתחילת דרכה התמודדה והסדירה את נושא זכויות היוצרים. אבל גם השוואת זו היא אולי מופרזת, שכן יוטיוב שומרת עותקים ועל אלו ישנה הגנה, ואילו LLM שומר תובנות, סגנון ושאר אלמנטים שברובם נתונים לשימוש חופשי מאז ומעולם.

1 פחות בגלל כמה דוגמאות מקומיות ויותר בגלל אלו האמריקאיות והעולמיות.
2 כלומר היחשפות לעותקים מרובים של אותו הטקסט בזמן הלימוד.
NYT vs. OpenAI 765979
אפתח בכך שאחזק את ידיך‏1 בנוגע ללא לקרוא, ואתן דוגמה אישית בכך שלא אקרא את NG לעת עתה.

לא פעם טכנולוגיסטים, לפעמים בתום לב ולפעמים במזיד, מאמצים קריאה לוגית-אלגוריתמית-איכותנית של הדין. בעולם המשפטי האמיתי דברים כמו כוונה וכמות נחשבים גם הם. ולענייננו ביהמ"ש יכול למצוא שיש הבדל בין קריאה אנושית לקריאה ממוכנת, כמו שלמשל יש הבדל בין צילום ברשות הציבור אה-לה-אלכס-ליבק לבין צילום ברשות הציבור אה-לה-Google Maps. ובדומה בעניין הציטוט, יכול שיימצא הבדל בין היכולת האנושית שלי לדקלם את "איה פלוטו" במלואו לפי דרישה לבין מכונה שמדקלמת את כל כתבי גולדברג לפי דרישה.

דעתי: אם OpenAI מפיקה תועלת עסקית ניכרת מקניינה הרוחני של NYT אז זה הוגן ש-NYT תתייחס לזה כשימוש מסחרי ותהייה זכאית לקבוע את התנאים (בשונה מההסכם האחיד עם מינויים למשל).

1 שיקול תועלתני: רוצה לצאת מחוזק אז בא לחזק
NYT vs. OpenAI 765982
דעתי: הויכוחים המשפטיים המאוד משעממים הללו ימשיכו מספר שנים עד שיעלה שחקן אחד ראשון וחכם שימצא את המודל העסקי שיגרום באופן טבעי לכל השיחה הזאת להסתיים לפני שהיא תגיע לאיזו מסקנה ברורה ומוסכמת. מודל עסקי בו באופן לגמרי אוטומטי הוא יכול לשייך לכל תשובה שמספקת הבינה המלאכותית (בהסתברות מספיק גבוהה) מי מבעלי זכויות היוצרים צריכים לקבל את התת-פרומיל של סנט כי התוכן שלהם במאגר (ורלבנטי לתשובה) בו החברה השתמשה לאימון. בדיוק כמו באפל-מיוזיק/סופטיפי וכו׳, התוצאה תהיה לא רק שיצרני התוכן יפסיקו להתלונן על השימוש בתוכן שלהם, אלא יתחילו להאבק על הזכות להיות להיות ספקי תוכן משמעותי (ובטח יתחיל גם ״מדע״ שלם איך ליצר תוכן באופן שהמכונות ישימו אליו לב בסבירות גבוה יותר מזה של אחרים).

סביר להניח שהתוצאה לדבר כזה תהיה גם חלוקה לבינות מלאכותיות ״לגיטמיות״ וחכמות יותר שנמצאות בידי התאגידים הגדולים (גוגל, מיקרוסופט וכו׳), בינות מלאכותיות לגיטימיות מטומטמות יחסית בקוד פתוח (אבל Llama?) ובינות מלאכותיות חכמות ובלתי חוקיות שמסתובבות בחוץ (בטח הרבה ישתמשו בהן בכל זאת, למרות שהן ספק חוקיות, אבל לא יעשו את זה מהמקפצה ו/או באופן רשמי במקום העבודה).
NYT vs. OpenAI 765983
יתכן, אבל זכור שבניגוד לנפסטר ויוטיוב, שאיפשרו למי שעד אז הצטרכו לשלוח יד אל כיסם כדי להשיג עותק של Baby One More Time, לקבלו בחינם, אין זה המצב ביחס לתכני ני"ט, במיוחד לאחר שיפור מניעת הציטוטים שערכה openai. כלומר, אם הבנתי נכון, ני"ט לא הצביעו על פגיעה אפשרית בהכנסות (לאחר השיפור) וגם לא על הפרת ההסכם (הישן) עם המשתמשים. כך שלפחות כרגע, קשה לטעון שההיסטוריה חוזרת. כמובן, אם המחוקקים יחליטו שצריך לשנות את הכללים כי זה לא פייר שמישהו מרוויח ממישהו, גם ללא פגיעה בהכנסותיו אך גם מבלי לתגמל אותו, זה דבר אחר.
NYT vs. OpenAI 765992
נכון.

נמתין שנה ושהבינה המלאכותית כבר תחליט בשבילנו מה הפתרון הכי סביר לכל הסוגיה הזאת. אנחנו יכולים להמשיך לעזור בשינוע מטענים.
NYT vs. OpenAI 766016
אני לא בטוח שבכלל ניתן לקבוע איך קטע מסויים השפיע על מיליארדי (או טריליוניי) הפרמטרים של גב' בינה, ובכמה השתנה פלט כלשהו בעקבות פיסת מידע ספציפית. תיאורטית ניתן לאמן מחדש את המכונה תוך השמטת קטעי מידע מסויימים בכל פעם שהשאלה עולה, אבל זה לא נראה פרקטי במיוחד. הכוונה שלי היא שאפשר לאמן ג'פטו חדש בדיוק כמו את זה שבמחלוקת מלבד השמטת כל הקלט שהגיע מ- NYT ולהשוות את התוצאות בין שני המודולים האלה. אבל אפילו אם זה לא דמיוני לחלוטין מבחינה מעשית, כשחושבים על כל מקור מידע כזה שיצטרך להיבחן בנפרד, איך ניתן להעריך כספית את ההבדלים שיתגלו בין שתי הגירסאות, מלבד במקרים מאד נדירים (דוגמא: הגירסא עם קלט מ NYT מגלה פטנט ששוויו הכספי ניתן לחישוב בעוד הגירסה השניה לא מגלה את הפטנט הזה)?

במלים פלצניות מעט יותר: איך ניתן לקבוע כמה שווה כל ווקסל בהולוגרמה?
NYT vs. OpenAI 766024
מעניין אם יש מקרים שבהם זה יהיה יותר ברור.
למשל - סביר להניח שאם הג'פטו מצטט במלואו את ''איה פלוטו'', אז הוא למד את זה מ''איה פלוטו'' ולא ממקומות אחרים.
או שאם הוא מצייר כבשים של קדישמן, אז הוא למד את זה מקדישמן.
אבל מסכים איתך שזה מאד קשה.
אגב - הולוגרמות ברובן הן שטוחות (ההולוגרמה, לא התמונה שאתה רואה דרכה).
NYT vs. OpenAI 766054
לטעמי השאלה לגבי ציטוטים ישירים צריכה להקבע בלי הבדל בין אדם למכונה. אם לי מותר לצטט את NYT למשל כדי לפרסם מוצר שלי ולעשות מזה כסף, מה משנה המכשיר שבו אני משתמש כדי להגיע לציטוט?

לגבי האגב, אכן, אופס.
NYT vs. OpenAI 766056
אני מניח שלך אסור (ברמה מסוימת) להפיץ כתבות שלמות של NYT שהן מאחורי חומת תשלום. ואפילו יותר אסור אם אתה עושה מזה כסף.
(כמובן שהענין פה הוא ההבדל הלכאורה אפור בין ציטוט לכתבה שלמה. אבל מרגע שיש גישה לכתבה השלמה, הבעייה נראית לי ברורה, הרי לא סביר שרק בגלל שאנחנו סומכים על רצונך הטוב נניח שלא תשתמש ב"ציטוט" שהוא כל הכתבה.)
NYT vs. OpenAI 766061
שוב: מה שאסור לי שיהיה אסור גם לגב' בינה, ולהיפך. אם רוצים לשנות את החוק כך שכל ציטוט יהיה אסור אלא אם התקבל אישור מהמקור, ואם מקורות כמו NYT יודיעו שיש מראש אישור לבני אדם בהתאם למה שהיה נהוג עד כה, אבל לתוכנות אין אישור כזה כברירת מחדל, זה יכול להיות פתרון עד היום בו התוכנות יגיעו למצב בו הן עצמן תובעות את העיתון על אפליה פחמנית, לשמחתו של אסימוב זצוק"ל.

אני מניח שיכולה להתעורר בעיה בשאלת האחריות: האם במקרים של ציטוטים לא חוקיים האשם הוא במי שהפעיל את התוכנה והשתמש בפלט שלה בלי לשנות אותו, או במי שיצר אותה. לטעמי התשובה ברורה, אבל כידוע הטעם שלי לא משהו.
NYT vs. OpenAI 766062
ואגב עלתה שם גם טענה נוספת מהכיוון השני:
כידוע הג'פטו יודע לתת ציטוטים לא מדויקים מבלי למצמץ. מטעמי פחמנות ברור לי ולך שאם נצטט ציטוט לא מדויק של NYT נהיה חשופים לתביעה כספית נאה. אז מה עם הציטוטים של הצ'אט? במקרה הזה יש פגיעה עסקית במוניטין של NYT.
NYT vs. OpenAI 766067
במקרה זה אנחנו חוזרים לבעיית האשם/אחראי: התוכנה ש"ציטטה" או מי ששהשתמש בתוצריה בלי לבדוק. בעיה, ואפשר לדעת רק דבר אחד בביטחון מלא: מי שלא אחראי בשום אופן הוא ביבי.

זה מצביע על בעיה אחרת, שאמנם מדברים עליה אבל לא מספיק: מה שוווים לי כל שירותי ג'פטו באותם מקרים בהם קשה עד בלתי אפשרי לבדוק את התשובה? מקרה אמיתי: בעקבות שיחה עם חבר שאלתי את copilot משהו לגבי סטטיסטיקה של תוצאות ספורט‏1, והוא נתן לי בביטחון תשובה שאין לי מושג אם היא נכונה. מה הרווחתי?
____________
1- האם בסנוקר יש יתרון לפותח בפריים או ליריבו? ביקשתי את הסטטיסטיקה עבור טורנירים מקצועניים חשובים (ranking events) מהשנים האחרונות, והוא סיפר לי שלשחקן הפותח יש יתרון לא זניח (עכש"ז משהו בסביבות 6:7), מה שקצת מנוגד להרגשה שלי, אבל לו הייתי יודע איך לבדוק את זה לא הייתי מטריד את ג'פטו מלכתחילה.
NYT vs. OpenAI 766106
> מה שאסור לי שיהיה אסור גם לגב' בינה

"טכנולוגיסטים, לפעמים בתום לב ולפעמים במזיד, מאמצים קריאה לוגית-אלגוריתמית-איכותנית של הדין". אצלך זה בתום לב, נכון?
NYT vs. OpenAI 766126
אין לי מושג מה זאת ''קריאה לוגית-אלגוריתמית-איכותנית של הדין'' אבל מאחר שלא קראתי את הדין כלל דומני שאני פטור ממנה.
NYT vs. OpenAI 766069
כמה מסובך ליצור סקריפט שדבר עם ג’פטו ומקבל את הכתבה הזו? (לפי התיאור שכן: נשמע ממש פשוט) לכמה כתבות זה עובד? (אין לי מושג)
NYT vs. OpenAI 766026
קראתי איזה פירוט בעברית שמישהו כתב, ויש שם טענות שדוקא נשמעות לא מופרכות.

לדוגמה - הם מראים ששימוש בג'פטו דה פקטו עוקף את חומת התשלום שלהם. וזה פוגע פגיעה משמעותית במודל העסקי שלהם.
NYT vs. OpenAI 766031
תוכל להפנות או להסביר באיזה מובן מתרחשת העקיפה? האם זה מאפשר לי למשל לקרוא את הגליון של היום? לשלוף חלק משמעותי מן הכתבות שבארכיון? אם כך המצב, הרי שהמצב שונה ממה שכתבתי.
NYT vs. OpenAI 766037
אין לי שום מידע משלי, אני מתבסס על דיון בפורום של קבוצת אימיילים שאני חשוף אליה.
לא נראה לי ראוי שאעתיק את התקציר בעברית שהם עשו שם, אבל כן אצטט שני סעיפים קטנים אם זה יעזור לך:

"3. פגיעה במודל העסקי באמצעות העתקה - ה-NYT מראה מספר דוגמאות שבהן התוכן שיוצרים הצ'אט GPT וה- copilot של Bing, כביכול ממגוון מקורות, הוא פלגיאט 1:1 של כתבות מהטיימס. תכנסו ותראו זה מהמם. הוא מביא דוגמאות של כתבות זוכות פוליצר שהושקעו אלפי שעות תחקיר בהכנתן, אבל ה-NYT לא מקבל את הטראפיק אליהן.

4. פגיעה במודל העסקי ב' - ה-NYT מראה שאפשר לעקוף את חומת התשלום שלו. מבקשים מהצ'אט GPT לצטט את הפסקה הראשונה בכתבה, ואז עוד אחת ועוד אחת... מי שרוצה לקרוא את התחקיר של ה-NYT על הכשלון של ישראל ב-‏7.10 ללא חומת תשלום, כתב התביעה מראה כיצד."
NYT vs. OpenAI 766039
טוב, זה דורש עיון, דבר ממנו אני מנוע כרגע עקב מגבלה רפואית‏1. אז בינתיים אני משעה את טענותיי לעיל.

1 עצלנות
NYT vs. OpenAI 766035
אתה צודק וגם אני לא בטוח שזה אפשרי.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים