בתשובה לירדן ניר-בוכבינדר, 20/08/04 16:41
שיא מינור 244753
סופר לי, מפי מישהו שהתאמן איתו, כי סרגיי בובקה שבר את השיא העולמי בקפיצה במוט כדבר שבשגרה, ובמידה ניכרת; בתחרויות רשמיות הוא שבר את השיא הקודם (שלו-עצמו) כל פעם בסנטימטרים ספורים, ולא קפץ מייד לשיא האישי שלו, וזאת משום שכל שבירה של השיא היתה מזכה אותו במענקים... כלומר, גם אם היו עדים לשבירת השיא במהלך האימון, וניתן היה להכיר בו כשיא רשמי, בובקה לא היה מעוניין בכך.

בדיקה זריזה מראה שבסך-הכל, בובקה שבר את השיא העולמי 35 פעמים.

(זכרון עמום טוען שכבר סיפרתי את זה פעם באייל, אבל לך תסמוך על מנוע החיפוש הארור).
שיא מינור 244754
נסה לחפש EPO בתגובות של אורי. זה היה בדיון הראשון על הסמים שלוקח (או לא) ארמסטרונג.
מנוע החיפוש הארור 245167
כל עוד האחראי עליו מסרב לוותר על האפשרות לחפש מחרוזות ולא רק מלים שלמות, אנחנו נאכל קש וגבבה.

למה לא קם מישהו מבעלי האתר ו*מכריח* אותו לספק גם אופציה של חיפוש מלים שלמות, חיפוש שיסתייע באינדקסים מתאימים במאגר הנתונים ויתבצע תוך שניות בודדות? הה, למה?
מנוע החיפוש הארור 245176
כי בחיפוש מילים שלמות, אם היית מחפש "אחראי", לא היית מוצא את התגובה שמעלי.

(לא, מנגנון של "גם וגם" לא יקום ולא יהיה. מנגנון מבוסס אינדקס יקום, מייד כשאמצא את פרץ האנרגיה הדרוש. האמת היא שעד לא מזמן, הבעיה היתה נפח דיסק על השרת, לצורך כל האינדקסים האמורים; כיום הבעיה היחידה שנותרה היא עצלות).
מנוע החיפוש הארור 245181
אבל במנוע הקיים גם אם אני מחפש ''האחראי'' אני מקבל אצבע משולשת, וגם זאת רק אחרי דקות ארוכות של כסיסת ציפורניים.

(על מניפולציות די טריויאליות על אותיות היחס אני פוחד לדבר)
שאלות תם 245187
אם כבר הנושא עלה, מה עדיף, מבחינת מהירות החיפוש, לחפש מילים ברצף או מילים סתם ( בהנחה שאני יודע את הביטוי המדיייק)? האינטואיציה שלי אומרת ללכת על כל הביטוי, אבל אני יכול לתאר לעצמי מצב הפוך.
שאלות תם 245189
רצף.
מתחדישי המחבר 245197
תודה.

ועכשיו אנכס את השאלה למטרותי הנלוזות: למה אמרתי שאולי חיפוש מספר מילים בודדות עשוי להיות יותר מהיר? כי בעצם לא מדובר כאן במנוע "חיפוש" אלא במנוע "פסילה". די ברור שרוב החיפושים אינם על צירוף שכיח ( למשל "פושעי אוסלו לדין" או "בונובו") אלא על רצפים יותר נדירים כמו "טל כהן שולת!!!". הנה רעיון שחשבתי שהוא נורא מקורי, עד שהתברר לי שכבר הומצא (בבנקי דם):

נניח שמחפשים באוכלוסיה גדולה מחלה יחסית נדירה, (כמו איידס, או סמים ) ויש הרבה מאוד דגימות לבדוק. האם לא עדיף לקחת (נניח) חמישית מבחנה מכל בדיקה, ולערבב יחד, ולבדוק את הערבובים? תוצאה שלילית על התערובת תשלול את התופעה על כמות גדולה של מבחנות. נניח ש"קיט" לבדיקת סמים הוא רגיש לחלק אחד מתוך מליון של סם בדם, אבל דמו של מסומם מכיל פי מאה יותר. אזי ניתן לערבב ללא חשש כמאה דגימות ביחד ובבדיקה אחת *לשלול* את כולם. כמובן שבמקרה של תוצאה חיובית יש לבדוק באופן פרטני את כל מאה המבחנות, אבל מכיוון שמדברים על תופעה נדירה, רוב הזמן אנחנו מורווחים.

איך זה מתקשר למנועי חיפוש? אין לי מושג איך הדברים האלו עובדים באמת, אבל אני יכול לתאר לי מנוע שבונה רשימות מילים של קבוצות של הודעות, וכאשר יש חיפוש על "ראובן זייטק זכה בפרס נובל בכלכלה" מחפשים בכל קבוצה את המילים, ורק אם מוצאים בקבוצה את כל המילים, ממשיכים באופן פרטני הודעה הודעה. השאלה מה גודל קבוצת ההודעות היא שאלה אחרת, היא צריכה להיות מספיק גדולה כדי שיהיה חיסכון בחיפוש ( כי מספר המילים ה*שונות* ב100 הודעות הוא פחות מ100 פעמים מספר המילים השונות בהודעה אחת) אבל לא כל כך גדולה כך שמילים נדירות מכמה הודעות יהיות מוכלות בקבוצה. למשל, אם הסיכוי ש"ראובן" מופיע בהודעה כלשהי היא אחד ל100 ו "כלכלה" גם 1 ל 100, אם נחזיק בסביבות 100 הודעות בקבוצה, יש סיכוי טוב שברוב הקבוצות לא יימצא "ראובן" +"כלכלה" .

אבל אולי עם קצת ניסוי וטעיה ( והתפלגות זיפף של מילים) אפשר למצוא גודל סביר. אתם מוזמנים לשלוח את התמלוגים לדוא"ל שלי.
מתחדישי המחבר 245200
יש על העקרון הזה חידה חביבה, עם חביות יין, רעל ונידונים למוות. מכיר?
מתחדישי המחבר 245202
לא , אבל אני יכול לתאר לעצמי. בטח צריך לזהות את החבית המורעלת בכמה שפחות נזקי גוף.
מתחדישי המחבר 245205
נכון.
טומוגרפיה של מאגרי נתונים 245208
ואם אני כבר בשוונג- עוד רעיון באותו כיוון ( בטח גם על זה יש חידה) - אפשר לסדר את המבחנות בצורת ריבוע או קוביה, ולערבב רק מבחנות מאותה שורה, וכך על ידי חיתוכים, לזהות את המבחנות הנגועות.
מתחדישי המחבר 312051
מה הפיתרון לחידה זו?
מתחדישי המחבר 245214
אתה צודק שעושים זאת בבנקי דם. בצרפת היתה שערורייה לאומית אחרי שכמה אנשים נדבקו באיידס מערויי דם; הסיבה, אם אני זוכר טוב, היתה שמישהו יזם את החיסכון שהצעת בלי לבדוק את הרגישות של הערכה.

הטומוגרפיה כנראה מיותרת: זה כל כך נדיר עד שאין טעם להשקיע בתשתית הדו-ממדית, ועדיף פשוט לבדוק חד-ממדית את האצוות החיוביות המעטות.
מתחדישי המחבר 245222
בצרפת היתה באמת שערוריה אבל זה כי (עכש"י) הם לא בדקו *כלל* את העירויים.
אגב, זה איכשהו מתקשר לי לשיטות של סלרה- בודקים כל מיני תת רצפים ואחר כך מנסים לחבר הכל ביחד.
מתחדישי המחבר 245231
יכול להיות שאני מבלבל בין סיפורים שונים. אני לא בטוח שאני רואה ממש אנלוגיה לשיטת הריצוף של סלרה...
מתחדישי המחבר 245232
הבעיה היא שבחיפוש הקיים (ללא אינדקס), החיפוש אחר ''ראובן'' עולה בדיוק כמו החיפוש אחר ''ראובן זייטק זכה בפרס נובל בכלכלה'' (טוב, כמעט בדיוק, אבל ההבדל בטל בשישים אלף).
מתחדישי המחבר 245237
אה, טוב. אני יש לי רעיון, את הביצוע אני משאיר למהנדסים.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים