כולנו עובדים בשביל גוגל!


פורסם ב 03/04/2012 ע"י תומר שטרקר

אם אספר לכם, שכאשר אתם מזינים Captcha (הקוד שמפריע לנו בדרך להרשמה,שליחת תגובה וכניסה לאתרים) אתם מתרגמים עבור חברת גוגל ספרים שלמים. תאמינו?

נכון, הנושא הזה הוא לא אנדרואיד אבל אי אפשר להתעלם מגאונות של החברה שהביאה לנו את האנדרואיד.

היום, בעידן המודרני שואפים שכל ספר יהפוך  להיות ספר אלקטרוני , אבל איך הופכים מיליוני ספרים לטקסט במחשב?

הפיתרון הפשוט הוא טכנולוגית OCR  (Optical Character Recognition) , OCR  ממיר תמונה סרוקה למידע במחשב. אבל, אין מה לעשות כאשר מדובר בטכנולוגיה, לעיתים היא כושלת, OCR  לא תמיד יכול לקרוא כל מילה ולעיתים נוצר למחשב בלבול בין אותיות בעקבות שלפעמים צריך לתרגם ספרים ועיתונים מאוד ישנים מהעבר, או שהספרים בפונט לא ברור או גודל לא קריא.

חברת ReCaptcha  מצאה פיתרון מאוד יצירתי לבעיה, לפני הכל צריך קצת מתמטיקה להבנת הבעיה, אדם ממוצע מבזבז על Captcha 10 שניות, נכפיל את זה במליארדי אנשים שמפעילים את ReCaptcha ביום ונקבל מספר שניות אסטרונומי שמתבזבז לאנושות. אז במכון המחקר של אוניברסיטת קרנגי מלון חשבו על פיתרון איך לנצל את הזמן האבוד שנוצר לאנשים לקדם משהו אחר. אז הם הגיעו למסקנה, שיש צורך בעין אנושית לתרגום ספרים והמרתם לספרים דיגיטליים.

אז איך זה עובד?

שימו לב, כאשר אתם מגיעים ל-Captcha מופיעות לכם שתי מילים, האחת מילה ברורה למחצה במקרה של התמונה מעל, overlooks והשנייה מילה רנדומאלית לגמרי,inquiry.  החברה סורקת ספרים, ומעלות את המילים לתוך מערכת ה-Captcha שם כל גולשי האינטרנט (מיליארדי אנשים ביום) כותבים את המילה שהם רואים ומתרגמים את המילה והופכים אותה לדיגיטלית. החברה לוקחת את אותה תוצאה שעשרה אנשים הכניסו עבור אותה מילה, עושים מכנה משותף ומקבלים את המילה הנכונה. בצורה הזאת לא משתמשים ב-OCR לזיהוי מילים אלא על ידי אנשים מכל העולם בלי ידיעתם.

היום, השיטה של תרגום ספרים בעזרת Captcha היא פופולרית מאוד,המון חברות הבינו את הפוטנציאל של ניצול אנשים אקראיים למימוש מטרות מסוימות.

אז בעצם בעזרת הרעיון הגאוני האנושות שומרת על שני דברים ועקרונות חשובים בעולם האינטרנט:

" Fight Spam and Save Shakespear",

נלחמים בספאמרים, ושומרים על ספרים שלא יעלמו מן העולם.

אז הלכה למעשה, הבנתם נכון, כאשר אתם מזינים Captcha אתם למעשה מצילים את האנושות מהכחדת הספרות המודרנית ועוזרים למחשב לזהות מילה שהוא לא היה יכול לעשות לבד בצורה כל כך מדויקת, לכן מנצלים את העין האנושית לפיתרון הבעיה. אם ביום מתורגמות מעל מאות מיליוני מילים אז במתמטיקה פשוטה, בשנה הצלחנו לתרגם מיליוני ספרים! ולהפוך אותם לדיגיטליים.

בשנת 2009 גוגל הבינה את המשמעות הכלכלית והעתידית של הפרוייקט "ReCaptcha" והחליטו לקנות אותו בתחילת דרכו. כיום גוגל מתרגמים מיליוני ספרים בשנה, ומיליוני מילים ביום. גוגל רותמים את עזרת ReCaptcha  לתרגום פרוייקט "גוגל ספרים" (מאגר דיגיטלי של ספרים ברשות גוגל).

כאשר אני שמעתי את זה לראשונה, הייתי בהלם, לא ידעתי שיכול להיות דבר כזה. מתברר שכן. אז אל תטעו בקאפצ'ה אתם יכולים להשחיט בטעות איזו קלאסיקה.

כתבה מאת: CMP

FacebookTwitterGoogle+EmailPinterestWhatsAppLinkedInשתפו אותי

מנהל פרוייקטי תוכנה, גיימר, אוהב ג'דגטים, sci-fi, אוהב כל מה שקשור לאנדרואיד ולמכשירי סלולר. אהה כן, גם מנהל הפורטל :)

28 Comments

  1. gamla77
    03/04/2012 בשעה 12:50

    גאוני :)

  2. gilsha
    03/04/2012 בשעה 13:02

    להלן ההרצאה המלאה ב TED TALKS – מרתק!
    http://www.ted.com/talks/luis_von_ahn_massive_scale_online_collaboration.html

  3. nickless
    03/04/2012 בשעה 13:04

    גאוני אבל אני מרגיש מנוצל

  4. cmp
    03/04/2012 בשעה 13:06

    Gilsha – הנה הרצאה מאוד מעניינת בנושא:

  5. cmp
    03/04/2012 בשעה 13:07

    חח Nickless אין שום סיבה להרגיש מנוצל, אמנם הם ימכרו את זה בסופו של דבר ב-Google Books תמורת כסף. אבל החשיבה הראשונית של הרעיון הייתה נטו לחשוב על איך לנצל את הזמן האבוד שהיה לאנשים.

  6. shtarker
    03/04/2012 בשעה 13:19

    קוראים לזה קידמה!

    מבסוט על גוגל

  7. nathan14
    03/04/2012 בשעה 14:00

    אז איך המערכת יודעת לזהות אם טעיתי במילה או צדקתי?

  8. jolynana
    03/04/2012 בשעה 14:35

    נו,באמת כמה תמימים אתם יכולים להיות ?
    עובדים עליכם בעיניים.
    הרי המערכת יודעת את המילה – אם לא איך היא תדע אם טעיתם ?

  9. erez213
    03/04/2012 בשעה 15:30

    jolynana, היא יודעת רק מילה אחת, והשנייה היא מספר. תבדוק בקאפצ'ה תנסה להכניס רק מילה אחת נכונה ותראה שזה יעבור (אם זה לא יעבור אז הכנסת את המילה שהם לא יודעים).
    לדוגמא למעלה inquiry זה המילה שהם יודעים, אז אם תרשום רק inquiry זה יעבור

  10. cmp
    03/04/2012 בשעה 16:26

    לכבוד jokymana:
    מהאתר הרשמי של Recaptcha
    http://www.google.com/recaptcha/static/images/smallCaptchaSpaceWithRoughAlpha.png

    כמו כן הם מסבירים שפ בדיוק את הרעיון.

  11. cmp
    03/04/2012 בשעה 16:28

    ובדקתי את זה כרגע.. אפשר לטעות במילה הראשונה, חייבים לדעת את השנייה.

  12. zigirs
    03/04/2012 בשעה 16:40

    גם לי זה נראה מוזר… הרי היא גותנת מילה שהיא סתם אותיות ומספרים.. למה היא צריכה תרגום לזה ?

  13. cmp
    03/04/2012 בשעה 16:44

    המילה הראשונה היא מילה ברורה לגמרי, מילה הגיונית לגמרי.
    המילה השנייה היא רנדומאלית. היא רק לוקחת צילום של המילה (קצת מעוות) ומעלה אותו ל-Captcha , שם המשתמשים מתרגמים.

  14. gbar183
    03/04/2012 בשעה 20:03

    אבל המטרה של קאפצ'ה זה שאם אתה מכניס מילה לא נכונה אתה לא יכול להמשיך.
    ועצם העובדה שהמערכת לא נותנת לך להמשיך זה אומר שמישהו כבר מירגם את המילה לדיגיטלית…מה לא ככה?

  15. cmp
    03/04/2012 בשעה 20:05

    כנראה לא הייתי מובן לגמרי בפוסט עצמו,

    המילה הראשונה לא משפיעה על הקאפצ'ה! הקאפצ'ה עצמו הוא רק המילה השנייה בצירוף. הראשונה נועדה שמשתמשים יתרגמו אותה.
    השנייה היא הקאפצ'ה עצמו.

    תנסו את זה, תכנסו לאתר של Re-Captcha ותכניסו במילה הראשונה שטויות ובשנייה תכניסו נכון, ותכנסו. תכניסו במילה הראשונה נכון ובשנייה טעות לא תכנסו.

  16. gbar183
    03/04/2012 בשעה 22:30

    עכשיו זה יותר היוני =)
    בסדר למי אכפת לעשות קצת שירות לקהילה…

  17. oren6666
    04/04/2012 בשעה 13:38

    cmp: הם לא מנצלים את הזמן האבוד שהיה לאנשים-הם מכפילים את הזמן המנוצל.
    במקום שכל אחד יצטרך לזהות ולכתוב רק מילה אחת הוא צריך לזהות ולכתוב עכשיו 2 מילים. גם את המילה כדי לבדוק שמדובר בבן אדם- וגם את המילה כדי לתרגם את הספר.

    ואחרי זה הם מוכרים לנו את זה כאילו שהם עשו את כל העבודה.
    אין בעיה אני מתחיל לרשום aaa מעכשיו במקום המילה של הספר פרינציפ.

  18. isotoper
    04/04/2012 בשעה 16:39

    לא נשמע הגיוני, למילה אחת יכולות להיות המון משמעויות, אז אי אפשר לתרגם ככה ספר.

  19. sun_light
    04/04/2012 בשעה 23:35

    O M G !!!
    רק שביטוח לאומי לא ישמעו על זה…
    בסוף יגידו שאני לא מובטל חחחח
    ראסמי אפשר לבקש חלקים מהרווחים לא?
    כאילו… למה לא? לפני שאתה עושה קפצ'ה (אחחח אין על עברית חחחחח)
    אתה לא חותם על טופס ויתור זכויות חחח

  20. gilsha
    05/04/2012 בשעה 10:45

    ל isotoper:

    לא מדובר על "תרגום" המילה, מדובר על זיהוי המילה.
    הבעיה היא שבתהליך סריקת ספרים ישנים והפיכתם לדיגיטליים לעיתים מנגנון זיהוי האותיות (OCR) לא תמיד מזהה את המילה אולם אדם יכול לזהות את המילה.
    ולכן מה שמנגנון ה CAPTCHA עושה הוא לתת לאדם להקליד את המילה שהוא רואה ותוכנת ה OCR לא הצליחה לזהות.

    מקווה שכעת מובן יותר.

    חג שמח לכולם.

  21. ibilbob
    08/04/2012 בשעה 16:44

    רק שים לב לטעות במאמר שלך, ה"גאונות" כמו שכתבת היא לא של גוגל….

    גוגל רק לקחה טכנולוגיה שיכלה לעזור לכל האנושות, ופותחה באקדמיה, כדי להרוויח ממנה בצורה פרטית

  22. tomerz
    11/04/2012 בשעה 23:42

    מגניב אבל כמו שכבר אמרו פה – אני מרגיש מנוצל…חחח

  23. tomerz
    11/04/2012 בשעה 23:43

    חחחח בגלל זה רשום מתחת stop spam read books.

  24. zelahit
    13/04/2012 בשעה 01:04

    פשוט גאוני, עבדתי בשבליהם יותר מדי :)

  25. cmp
    15/04/2012 בשעה 14:42

    ibilbob – הגאונות היא לקנות את ReCaptcha בתחילת דרכם, וכן יכול להיות שיש לי חיבה מסוימת דווקא לגוגל אז אני מעריץ אותם :)

  26. zoltech.co.il
    24/01/2013 בשעה 00:43

    חחחח חזק ביותר.

  27. דניאל
    17/01/2015 בשעה 13:51

    טעות אחת קטנה.
    כתוב "נכפיל את זה במליארדי אנשים שמפעילים את ReCaptcha ביום". לא רק שלא מדובר על מיליארדים ביום, אני די בספק אם מגיעים למיליונים ביום. שכל אחד יעשה חושבים כמה פעמים הוא הפעיל RC בשנה. אני נתקלתי בזה אולי 10 פעמים בשנה החולפת ואני עובד כל הזמן עם המחשב…

השאר תגובה