גוגל חשפה מודל בינה מלאכותית המפיח חיים בכל תמונה

חוקרים בגוגל (Google) פרסמו מודל בינה מלאכותית חדש המאפשר להשתמש בכל תמונה סטטית ולהפוך אותה לתמונה חיה כאווטאר הניתן לשליטה, כאילו ממש צולמה בוידאו.

המודל המכונה VLOGGER יכול ליצור ולהשלים בעצמו את תנועות האדם המצולם וכן את השפתיים. זה כולל יצירת תנועת ראש, הבעות פנים, מבט עין, מצמוצים וכן מחוות ידיים ותנועות פלג גוף עליון. הדגם לוקח גם קובץ שמע של האדם מדבר ומטפל בתנועות הגוף והשפתיים כדי לשקף את הדרך הטבעית שבה אותו אדם עשוי לזוז אם הוא היה זה שאומר את המילים.

לדברי גוגל, אימון הדגם דרש סט נתונים גדול עם מעל 800,000 סרטונים של אנשים שונים מדברים כשהוא עובר על כל תנועות הפנים וחלקי הגוף. אמנם יש כלים שכבר קיימים היום לסנכרון שפתיים מתמונות, אך כאן מדובר בתנועות גוף מלאות ועל פניו גם נראה טבעי יותר. הוא משתמש במספר מודלים שונים כשהוא מפעיל המרות טקסט לתמונה, וידאו ודגמים תלת מימדיים כמו MidJourney, אבל מוסיף מנגנוני בקרה נוספים.

בינתיים לא מדובר במוצר של ממש ובגוגל אומרים כי אחד ממקרי השימוש העיקריים הוא בתרגום וידאו. לדוגמה, לקיחת סרטון קיים בשפה מסוימת ועריכת השפתיים והפנים כך שיתאימו לשמע החדש והמתורגם. מקרי שימוש פוטנציאליים אחרים כוללים יצירת אווטארים מונפשים עבור עוזרים וירטואליים, צ’אטבוטים או דמויות וירטואליות שנראות וזזות בצורה מציאותית בסביבת משחק.

אפשר לקרוא עוד על הפרויקט והדגמות נוספות בעמוד הרשמי ב-github.

AI | בינה מלאכותית Google | גוגל