בתשובה לברקת, 13/09/08 21:09
חדש: אייקון סרקאזם 536361
הנה התשובה: $1.99 יקנה לך רישיון לכל החיים להשתמש בסימן פיסוק "סרקאזם", שפיתחו החברה מ SarcMark. מצד שני, אולי את צריכה להיזהר בשימוש כי לפעמים ההנאה באה מזה שהמכותב לא תופס את הסרקאזם.

________

ואולי זאת בכלל מתיחה?
חדש: אייקון סרקאזם 536370
נראה כמו ניסיון לתיאור ויזואלי של tounge in cheek.
חדש: אייקון סרקאזם 536395
נדמה לי שיש כבר, J-: או (-
חדש: אייקון סרקאזם 536966
זה לא
:-P
?
חדש: אייקון סרקאזם 543567
לא צריך לטרוח. תוכנת האייל תוסיף לבד את הפרצופון המתאים http://www.themarker.com/tmc/article.jhtml?ElementId...
מודה בהכנעה 543568
נו, באמת.
בשביל לענות על השאלה "האם אתה אידיוט" בדיוק של 77% לא צריך אלגוריתם מסובך. למעשה אפשר להסתפק באלגוריתם שמחזיר "כן" לשאלה האמורה בכל מקרה, וגם אז אחוז ה false positive יהיה קטו מ 23.
חדש: אייקון סרקאזם 543668
משהו במחקר הזה נראה לי בכיוון לא נכון, ואף מאכזב. על פניו, פענוח סרקאזם הוא אחד האתגרים הקשים ביותר להבנה ממוחשבת של שפה טבעית. דווקא ברוב המקרים סרקאזם עובד על מנגנון שיטתי ודי "מכני": אומרים או כותבים משפט שאומר את ההפך ממה שמתכוונים, אבל כך שיהיה ברור לשומע או לקורא שלא יכול להיות שמתכוונים למה שכתוב, ואפילו לא בערך. ומכאן הקורא/שומע מסיק שמתכוונים להפך. (פרסום עצמי - דיון 2477). הבעיה היא שלרוב אחד הדברים שמבהירים שלא ייתכן שמתכוונים למה שכתוב הוא ההקשר. "הקשר" הוא דבר אבסרקטי לחלוטין. במקרה הקל אלו משפטים שמסביב למשפט הסרקאסטי. המקרים הקשים יותר הם אלו שבהם הכותב מסתמך על הכרות קודמת של הקורא עם דעותיו (כדוגמה מרהיבה, אצלנו באתר, בערך כל פתיל של טווידלדי נגד איציק ש.). אם נסתכל על המשפט הסרקאסטי לבדו, על-פי המתכון לעיל אותו משפט בדיוק יכול באותה מידה להיאמר בכנות, בהקשר אחר.

ואילו התוכנה שבמחקר עובדת על משפטים בודדים. מכאן, שהיא מראש מוותרת. לי נראה די ברור שצריך לפחות להסתכל גם על משפטים מסביב, וכנראה גם על אלגוריתמים שהולכים על *הבנה* ולא על למידה אוטומטית, כי במבט שטחי נראה לי שאין הרבה קשרים שטחיים וקלים לזיהוי בין המשפטים שמסביב לבין המשפט הסרקאסטי - רק ניתוח המשמעות יזהה את הקֶשר. גם זה יפספס את המקרים שבהם מסתמכים באופן דומיננטי על הכרות מוקדמת, אבל זה לפחות בכיוון. מאידך, אני מנחש שאלגוריתמי ההבנה עוד רחוקים מהיכולת המספיקה.

אז איך אני מסביר הצלחה של 77%? קודם כל, הייתי עושה מטא-בדיקה של המכוונים האנושיים - האנשים שלימדו את התוכנה, בכך שאמרו לה בשלב הלימוד שזה משפט סרקסטי, וזה משפט לא סרקסטי. אם הם נדרשו לעשות זאת בכמות רבה, ומבלי באמת להתעניין בטקסט, די סביר שבעצמם הם פספסו סרקאזם פה ושם. אם אכן חושדים בבעיה כזו, אפשר לדגום מעט מהמשפטים שהם סיווגו, ולקרוא אותם באופן מעמיק יותר.

אבל מה שלניחושי מסביר יותר את התוצאה הוא שהתוכנה (כמו גם המאמנים שלה, בעצם) הצליחה רק בזיהוי של סרקאזם "צעקני": משפטים שהכילו great, ו/או sure, ו/או סימני קריאה, כמו בדוגמה שבכתבה בפופיולר סיינס. ואולי אפילו, באופן מצער, בקורפוסים מסוימים של טקסט אלו רוב המשפטים הסרקאסטיים (אם מייעדים טקסט לקריאה שטחית, צריך להבהיר לקורא באופן יותר קל-לזיהוי ופחות מבוסס-הקשר שלא מתכוונים למה שכתוב). בכל אופן, אני מנחש שזה לא ש-‏77% הוא ניסיון ראשון ושיפורים נוספים יקרבו ל-‏100%, אלא שזה קרוב לגבול היכולת בגישה שננקטה.

מחקר שנראה לי יותר מעניין, ואולי כבר עשו אותו, הוא בתחום היותר אקזוטי של הבנת שפה טבעית - ניתוח קול: לזהות סרקאזם בדיבור ולא בכתיבה. כי כאן סרקאזם מתבטא לרוב בשינוי טון קליל. לכן זה נראה לי מצד אחד אפשרי, מצד שני מאתגר ומעניין.
דיגיטציה רגשית 543675
מאחר והכישורים הרטוריים והחברתיים שלי טרם התעוררו, אנסח תשובה קצת רובוטית. 1. גם בזיהוי רגשות פשוטים *לשימושים מסויימים* המשפטים מסביב משפרים את דיוק הזיהוי. 2. בהקשרים מצומצמים/הומוגניים (במחקר שצוטט מדובר בחוות דעת על מוצרים - לא דיונים בפורומים, קטעי עיתונות או קומדיות), בעיית הזיהוי של סוגים עדינים יותר של רגשות כבר לא כזו גדולה. 3. בעניין רמזים ווקאליים לסרקאזם, הנה: http://portal.acm.org/citation.cfm?id=1355040&CF... .
דיגיטציה רגשית 543727
דובר, אם הבנתי נכון, בחוות דעת על ספרים באמאזון ובציוצים בטוויטר.

סרקאזם, כפי שאמרתי בתגובתי, הוא רגש לאו דווקא עדין במיוחד, אבל התלות שלו בהקשר גדולה במיוחד. בלי הוכחה, נדמה לי שזה נכון גם לביקורות באמאזון.

אם בהקשר המוגבל וביכולת המוגבלת זה מועיל למישהו, אז יופי. אבל אם הניחוש הבלתי-מפרגן שלי נכון, וזה בעצם יוצא לא הרבה יותר מלספור כמה מילות מפתח, אז הכותרת ''המחשב ידע לזהות סרקאזם'' פחות מציתת-דמיון מכפי שנדמה.
דיגיטציה רגשית 543728
אה, ותודה על הקישור. *זה* מחקר יפה! (לא שאני מבין בזה משהו)
דיגיטציה רגשית 543737
לפי מילות המפתח שאני מזהה, התגובה הזו חשודה כסרקסטית.

חזרה לעמוד הראשי

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים