בתשובה לאא, 02/07/14 11:12
הביביון במילכוד 634562
שתי דקות, למען השם!
שיחה קצרה וחסרת מלל זה חמש שניות.
מהפיד שלי בפייס 634563
Status Update
By Hagai Helman
הנה פרט טריוויה מדעי שחשוב שתדעו, כי בימים אלה הוא חורץ גורלות:

יצא לי פעם לעסוק, בעבודה משותפת עם מספר חברים, בפרויקט של שיפור שמע דיגיטלי. למדתי שם שני דברים חשובים מתודולוגית:

1. המבחן היחיד כדי להבין האם שמע הוא ברור, ואפשר להוציא ממנו מלל, הוא לשבת עם עט ודף ולכתוב מה שמעתי מילה במילה. אם רק הייתי מקשיב ומסמן "שמע ברור" או "שמע לא ברור" התוצאות היו שקריות - כי היו הרבה קטעים שנשמעו לי ברורים לחלוטין, אבל לא עמדתי במבחן כתיבת המילים. התופעה חזרה גם אצל שותפיי לעבודה. מתברר שקטע יכול להישמע ברור (באופן מאוד משכנע), אבל לא להיות ברור.
2. כל קטע שכבר שמעתי גירסה משופרת שלו, או שידעתי מה נאמר בו, היה ברור לי לחלוטין גם בגרסאות לא משופרות שלו. יתרה מזאת - לא יכולתי להאמין שמישהו עשוי *לא* להבין את הקטע. זה היה בלתי נתפס. בחלק מהמקרים, אפילו לא שמעתי יותר הבדל בין הגרסאות! גם התופעה הזאת חזרה אצל כל מי שעבדתי איתו. לכן כל קטע שהאזנו לו בגירסה משופרת נהיה חסר ערך לניסויים נוספים ונזרק מיידית לפח.

הסיבה לתופעות אלה היא שהמוח פשוט מדהים ביכולת שלו להשלים שמע לפי מה שהוא מצפה לשמוע. אם אתם לא מאמינים, קחו בחשבון את העובדה הבאה: בטלפון קווי, לא ניתן להבדיל בין פ' רפה ל-ס'. באמת אי אפשר, ויש לזה הסבר פיזיקלי פשוט, שנובע ממגבלת העברת התדרים של טלפון. הסיבה שכל החיים לא שמתם לזה היא שהמוח שלכם עד כדי כך מדהים, והוא תמיד משבץ את העיצור הנכון לפי ההקשר.

ועכשיו להקשר האקטואלי: בימים האחרונים העידו מספר אנשי משטרה ואישי ציבור שהם שמעו את הקלטת של החטופים, ושאי אפשר להבין ממנה כלום. עכשיו הקלטת נחשפה, וכולם מאמינים שאותם אנשים נתפסו בשקר: הרי הקלטת ברורה לחלוטין, ואי אפשר לטעות בהבנה של מה שקורה בה!

הבעיה היא שזה לא המצב. אני לא שמעתי את הקלטת (ואני גם לא מעוניין), אבל אני בטוח שכשאשמע אותה היא תישמע לי ברורה לחלוטין. הסיבה היא ששמעתי וקראתי כבר תיאורים רבים של מה שמתרחש בה. ייתכן גם שאחרי השמיעה אני לא אצליח להאמין שמישהו *לא* ישמע בקלטת מה שאני שומע בה. ובכל זאת, ייתכן מאוד, שהקלטת הייתה קשה להבנה למי ששמע אותה ללא כל הידע המוקדם הזה.

יש קושי מהותי לבחון עכשיו עד כמה הקלטת ברורה: כנראה שאין בעולם כרגע דובר עברית שלא יודע בדיוק רב מה יש בה.

אבל אני די משוכנע שאי אפשר באמת לזהות ירייה בשיחת טלפון שיוצאת מטלפון סלולרי (שם היא מקודדת בווקודר, שהוא דוחס דיבור שמעוות מאוד כל צליל שאיננו דיבור) ומגיעה לטלפון קווי (שם, למיטב הבנתי, נקטמים כל התדרים וההרמוניות מעל תדר של 4 קילוהרץ).

אבל מה אפשר לעשות כשכל ישראלי יכול להעיד *ממקור ראשון* שהוא שמע את השיחה והיא ברורה כשמש? יהיה קשה עד בלתי אפשרי לשכנע את הציבור שזה לא המצב. שהקלטת השאירה לשוטרים הרבה מקום לספק, ושכל מי שהעיד בימים האחרונים שהקלטת לא ברורה דיבר אמת.

ולמה זה כל כך חשוב? כי האשליה השמיעתית הזאת עומדת לעלות לאי אלו אנשים בפרנסה שלהם. היא עומדת לחסל לאנשים את המוניטין שלהם כאנשים אמינים. ייתכן שאת חלקם, הביטחון המוחלט של כל שאר העולם הולך לבלבל, הם ישתכנעו שמאז ומעולם הקלטת הייתה ברורה, וייגרמו להם ייסורי מצפון לכל החיים.

האם הפצת המידע הזה תועיל למישהו? לא יודע. אבל מצאתי לנכון להפיץ אותו, כי אולי הוא יגיע במקרה לאוזניים הנכונות. אני מזמין גם אתכם להעביר את זה הלאה.
מהפיד שלי בפייס 634564
מעניין מאד, תודה.
כמו שהדגשתי, אני לא מתרעם על הטיפול של המוקדן, האחמ''שית ומפקדיהם במקרה.
מה שהקפיץ אותי הוא ההודעה של דובר המשטרה. כשזה דובר צה''ל כבר התרגלתי, אבל די, אני רוצה לסמוך על מישהו, והמשטרה עומדת במקום גבוה ברשימה של גופים שאני רוצה לסמוך עליהם.
מהפיד שלי בפייס 634565
אני מסכים עם הפיד שלך על העובדות אבל לא על המסקנה. השוטרים קיבלו שיחה לא ברורה אבל חשדו שקורה שם משהו. הם יכלו להעביר את השיחה לטכנאי קול שינסה לשפר את האיכות, הרי הם המשטרה, זו העבודה שלהם.
מהפיד שלי בפייס 634566
תוך כמה זמן מעבירים שיחה שנקלטה באמצע הלילה (ועדיין לא הוחלט אם היא חשובה) לבירור נוסף עם טכנאי?
מהפיד שלי בפייס 634567
לא יודע, מעניין אם יש בכלל טכנאי קול כונן למוקד 100. אני מניח ששיחות קשות להבנה הן חזון נפרץ במוקד הזה (נניח כשיש פורץ בבית חלילה, או אם יש קטטה וצעקות ברקע). לכל הפחות צריך להכשיר את אחראי המשמרת להשתמש בתוכנת עיבוד קול בסיסית, מספיק שמשם היו מצליחים לשמוע ״חטפו אותי״ והיה אפשר להעיר את מי שצריך בלי נקיפות מצפון.
מהפיד שלי בפייס 634570
2. יש לי הסבר אפשרי לתופעה הזאת‏1 - מעולם ה Machine learning. כשאלגורתם קלסיפיקציה אמור לסווג לאיזה קבוצה שייך סיגנל כלשהו, (שקול ללהבין מסיגנל קולי איזה מילה הוא אומר למשל), יש הבדל עצום בביצועים כאשר אתה יודע אפריורית על מספר קטן של קבוצות מוגדרות מראש, או כאשר אין ידע כזה כלל.
דוגמה קיצונית: עבור קטע מוקלט שכולל מילה אחת, שתי המשימות:
א. זהה את המילה שנאמרה
ב. האם המילה שנאמרה היא 'סוכר'
יפעלו באופן שונה מאד, ועם ביצועים שונים מאד.

עבור המשימה השנייה, בדרך כלל ינסה האלגוריתם להגדיר איזו פונקצית מרחק בין הסיגנל ששמע לסיגנל ידוע מראש של 'סוכר', ואם המרחק יהיה מספיק קצר, הוא יכריז: "תוצאה חיובית, נאמר כאן 'סוכר' ".
לעומת זאת, כדי למצוא 'איזה מילה נאמרה', צריך לבדוק עבור מרחב עצום של אפשרויות, למי הסיגנל קרוב יותר. ואז, בהינתן סיגנלים/הקלטות רועשים, קשה מאד יהיה לומר בבירור האם נאמר 'סוכר', 'מסוגר', 'שופר', 'פוקר' (ב-פ' רפה, אז מה אם אין מילה כזאת) וכו'.

לכן, כשאתה יודע מראש שאתה אמור לשמוע 'סוכר', גם מילים מאד רועשות אבל שמזכירות ולו במעט את המילה 'סוכר' כבר יסומנו כתשובה חיובית, רק בגלל שמראש החיפוש נעשה במרחב מצומצם יותר.
דוגמה משעשעת שנתקלתי בה לאחרונה של המקרה הזה: החבובות מסבירות פנומנולוגיה.
כמה קל לשמוע את הזמר חוזר שוב ושוב על המילה phenomena, נכון?‏3

1 מעבר לאמירה הכללית שהמוח הוא מדהים - ואגב, כל מי שניסה להעביר בטלפון ראשי תיבות באנגלית‏2 וידע היטב ש-F ו-S נשמעים אותו דבר בטלפון.
2 יש מן נוהג כזה של לקרוא לפרוייקטים בתעשייה בר"ת של שלוש אותיות אנגליות, וכנראה שאין מספיק כאלה כי כרב ראיתי כמה וכמה צירופים שחזרו על עצמם בפרוייקטים שונים.
3 זהו, שלא.
הביביון במילכוד 634574
כמה שניות של מלל אתה זיהית במהלך שתי הדקות האלה?
הביביון במילכוד 634595
מספר שונה מאפס. זה מספיק כדי שהביטוי "חסרת מלל" יהיה שקרי.
מה אורכה של "שיחה קצרה" להבנתך?
הביביון במילכוד 634601
שוב - לכתחילה, המוקדן לא זיהה מלל. מבחינתו, השיחה היתה קצרה וחסרת מלל. זו טעות, ולא שקר.
הביביון במילכוד 634603
לא שאלתי את המוקדן (וגם אתה לא), אבל הוא העביר את השיחה לאחמ"שית. לא ניתן לקבוע מהתנהגותו את הקביעה שלך (ושל דובר המשטרה) שהוא לא זיהה מלל. על מה אתה מסתמך?

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים