חוקרים מאוניברסיטת ברקלי שבקליפורניה ארה”ב, פיתחו תוכנה המבוססת על אינטליגנציה מלאכותית שתוקפת עוזרות וירטואליות כמו אלקסה (Alexa), סירי (Siri) ו-Google Assistant, במטרה להוכיח שאפשר לפרוץ בקלות מערכות מבוססות טקסט-שמע.
התוכנה, מסוגלת להסוות פקודות קוליות בתוך קבצי קול שונים כמו למשל רצועות שירים, בצורה כזו שאוזן של בן אנוש לא תהיה מסוגלת לזהות את הפקודה, אבל רמקולים חכמים וטלפונים חכמים שמאזינים כל הזמן יהיו מסוגלים, ואפילו להציג את הטקסט שהתוקף מעוניין בו.
לצורך המחקר השתמש הצמד באלגוריתם הקוד הפתוח DeepSpeech של מוזילה (Mozilla) בכך שגרמו לרמקול לפעול כנגד עצמו. “באמצעות יצירת גל קול אקראי, כמו למשל מוזיקה, אנחנו יכולים להטמיע דיבור בתוך הסאונד, שכביכול לא אמור להיות מזוהה כדיבור. כמו כן, אנחנו יכולים להסתיר דיבור מסויים ממערכות ממערכות שמע לטקסט”, אמרו החוקרים. המשמעות היא שהם מסוגלים לקחת כל קובץ סאונד שהוא, להמיר אותו באמצעות התוכנה שפיתחו ולשכנע את האלגוריתמים שמדובר בפקודה קולית שיש לפעול לפיה.
החוקרים אף טענו כי בשיתוף קולגות מאוניברסיטת ג’ורג’טאון הם הצליחו ליצור פקודות קוליות מעוותות, שלא נשמעות בבירור לאוזן אנושית, אך העוזרות הווירטואליות מבינות אותן בכל זאת ופועלות לפיהן. הצעד הבא היה לעוות קבצי קול בצורה שלא תהיה שקופה לאוזן האנושית, ולגרום לעוזרות לזהות את הרעש כפקודה לתמלול מילים אחרות לגמרי.
יחד עם זאת, ההתקפה המתוחכמת יותר פועלת כעת רק על מוצרים שמשתמשים באלגוריתם של DeepSpeech (כלומר, לא על העוזרות הווירטואליות הפופולריות). אך החוקרים טוענים כי עבודה ממושכת בנושא יכולה ליצור דרך שבה הפקודות הנסתרות יועברו למכשירים דרך האוויר, כלומר על ידי מוזיקה שיכולה להתנגן ברקע בכל בית דרך הרדיו, או אפילו ברחוב. מה שבהחלט מגביר את החשש מפני מתקפת סייבר שתגרום לעוזרות הווירטואליות של כולנו להתקומם עלינו, כפי שהוליווד חוזה כבר שנים.