בתשובה לג'וד, 20/06/11 6:54
אינדוקס 573763
1. רעיון האינדוקס הממוכן קדם בהרבה לגוגל (ואף לאינטרנט). עליו התבסס כל מנוע חיפוש, עד כמה שידיעתי מגעת, ובפרט אלו של יאהו, אלטה-ויסטה ואחרים שקדמו לזה של גוגל.
2. אין לי נגיעה בדטה בייסים. פעם הייתה עוינות הדדית אבל היום אנחנו כבר מיודדים, אם כי עדיין בלי הקטע הפיסי.
3. אכן גם גוגל צריכה לשמור גיבויים, אם כי אולי זה קורה מאליו, מעצם העובדה שכל מידע שמשמש את מנוע החיפוש משוכפל להרבה מכונות, כדי לתמוך בריבוי משתמשים. כך, כאשר מכונה קורסת, וזה כידוע עניין של זמן עד שזה קורה, ממשיכות לפעול המכונות עם העותקים האחרים של חלק המידע שנעלם.
4. נראה לי שהמידע שמאכסן ה-crawler שהזכרת הוא הדפים בשלמותם, ולא הטבלה שהזכרתי. אגב, בפועל, המילים לאו דווקא מסודרות אלפא-בייתית, אלא באמצעות Hash_table [Wikipedia] (אם ההסבר שם לא מספיק אנסה לפשט את הרעיון המגניב הזה).
5. נדמה לי שאצל גוגל הוא יושב בזיכרון. זכרי שגישה לזיכרון היא עניין של עשר נאנו-שניות (כנראה). כמובן, כל המידע הזה מחולק לחלקים קטנים ומפוזר על מאות אלפי מכונות, כדי לזרז את העניינים, ונתבים היודעים לזהות במהירות אל איזו קבוצה להפנות שאילתא נתונה. אם אני זוכר נכון, כל שאילתא מופנית אל יותר מקבוצה אחת, וזו שחוזרת קודם לנתב - חוזרת אל עוד לקוח מרוצה.

לילה טוב!

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים