בינה מלאכותית מסייעת בקיטלוג ויזואלי

 computer vision

הספרייה הלאומית של נורבגיה החלה בפרויקט נסיוני של קיטלוג ויזואלי מבוסס בינה מלאכותית (AI), בתחום הראייה הממוחשבת (Computer vision).
הסתכלו על התמונה למעלה. שימו לב לאזורים המסומנים בריבועים ולתיאורים שצמודים אליהם. מדובר בגישה מהפכנית, הן לקיטלוג והן לאופן בו המידע מושג.

מהות המהפכה

היכולת של מחשבים ׳להבין׳ תוכן ויזואלי, בתמונות או בוידאו, אינה חדשה, אם כי היא עדיין בחיתוליה (סוף 2017). המחשב מנתח כי יש בפריט הנסרק אוסף של פיקסלים (או תמנה וקטורית) ויודע לנתח את צבעיהם ואת האופן בו הם מאורגנים. היכולת להסיק לגבי המשמעות של אוסף הפיסקלים או הוקטורים הזה מחייבת מרכיב של לימוד (training and learning) ולכן שייכת לתחום הבינה המלאכותית.
בקצרה, מכונה נחשבת לומדת כאשר היא יודעת להצביע על משמעות של תוכן חדש, שבו לא נתקלה בעבר. כלומר, אם תציגו למכונה 2000 סוגי שולחנות, בצבעים, גדלים, עיצובים וזוויות שונות ותאמרו למכונה תמיד ״זהו שולחן״, תבצעו למעשה אקט של אימון מכונה. כעת, אם תציגו לפני המכונה דגם עם רגלים ומשטח בגובה שבאזור 80 ס״מ, שאליו לא נחשפה בעבר, היא אמורה לקבוע ברמות מסוימות של וודאות שמדובר בשולחן, למרות שדגם כזה לא קיים אצלה בזיכרון. הפלט של המכונה ״זהו שולחן״ הוא ישום של מסקנה שנובעת מניתוח תמונות קודמות של שולחנות אחרים ולא בגלל השוואה של השולחן הזה לדגם זהה, שקים כבר במסד הנתונים של המכונה.
דנתי כבר בבלוג הזה במשמעות של למידה חישובית (Machine Learning) ולא ארחיב יותר. רק אציין כי השימוש בביטוים כמו ׳המכונה אומרת׳, ׳המכונה מבינה׳, ׳המכונה משערת׳ וכו׳ הוא מטאפורי בלבד. אנחנו רחוקים מאוד מהמקום בו מחשבים יהיו קרובים לבני אדם (על חולשותיהם ומעלותיהם).  

שיטת הקיטלוג

בקיטלוג ישנה דילמה מובנית: האם לקטלג פריט שלם? האם לקטלג חלקי פריט? לדוגמה, האם לסכם סרט במילה ״קומדיה רומנטית״? ומה אם הפתיחה שלו מזכירה יותר סרט אימה? ומה אם הקומדיה הרומנטית הזו מכילה קטעי ארכיון בעלי משמעות היסטורית נרחבת?
אלו לא שאלות היפותטיות. ככל שהקולנוע (או הספרות, או האמנות) מודרנים יותר, הם כוללים יותר דילוגים היברידיים בין ז׳אנרים מוכרים. הסופרת והוגת הדיעות סוזן סונטאג טענה כי כל שהיצירה אסתטית יותר, כך קשה יותר להגדיר אותה. ההגדרה הזו מתכתבת עם הקווים הכלליים עליהם מסכימים רוב העוסקים בפילוסופיה של האמנות, בבואם להגדיר אמנות גבוהה.

מה צריכים ספרנים ומידענים לעשות במקרה כזה?
המוח האנושי וגם המחפש הממוצע שואף לשורה תחתונה קצרה (לדוגמה - ׳קומדיה רומנטית׳, ׳ספר מתח׳ וכו׳). המציאות מורכבת יותר.
בנוסף, כאשר מדובר בחוקר ויזואלי, לפעמים הוא או היא לפעמים פשוט מחפשים מרכיבים מסוימים, מבודדים. למשל - אוצרת המחפשת בתוך ארכיון, צילומי חדשות בהם רואים צלמים נוספים, עבור תערוכה העוסקת בתיעוד התיעוד.
איך ניתן לסייע לאותם מחפשים?

הסתכלו שוב על התמונה למעלה

 יש בה אבחון, המבוסס על אנליזה ממוחשבת, של מרכיבים בתוך התמונה. האם כולם מדויקים? ובכן, לא... אבל זה בסדר. לימוד מכונה מתקדם כל הזמן. היכולת לנבא היא סטטיסטית בלבד. כן, גם לגבי בני אדם. אבל היא עוזרת לנו לקרב את המחפשים, במוזיאון או בספרייה, אל מה שהם מחפשים. ואם נוכל להוסיף לניתוח היבש (״קרחון על ראש הר״) גם מרכיב סגנוני, של זרם באמנות, הרי שהלכנו צעד ענק קדימה.
ראו את התמנוה כאן למטה. היא פרי של פיתוח של צוות בסטנפורד. בחלק מהמקומות, המכונה מצליחה להלביש על תמונה קיימת מאפיינים טבעיים של משהו אחר, כמו להפוך תמונה קיצית לחורפית או לצבוע סוס כזברה, מבלי כמובן שאדם עבד על התמונה.
אבל הצוות מלמד את המכונה להבחין וגם ליצור סגנונות בציור ומסוגל לייצר תמונות חדשות על בסיס הקיימות, הנאמנות לסגנון יחודי של אמנים גדולים.  וזה קצת מעורר צמרמורת.

art syles computer vision