פורסם: 21 בנובמבר 2024
אחרי שקיבלנו מספר רב של הצעות מדהימות לתחרות למפתחים של Gemini API, בחרנו את הזוכה בקטגוריה 'אפליקציית האינטרנט הטובה ביותר': ViddyScribe.
ViddyScribe הוא דוגמה לאופן שבו Gemini יכול לעזור להפוך סרטונים לנגישים יותר ב-YouTube, ואולי גם בפלטפורמות אחרות, על ידי יצירת תיאורי אודיו לכל סרטון שמותאמים לאנשים עם לקויות ראייה.
תכונות ויכולות של Gemini
חברת ViddyScribe יצרה אפליקציה שמתמקדת במשתמשים. קיימים כבר מספר פתרונות ליצירת תמלילים ותיאורי אודיו, אבל ב-ViddyScribe התמקדו ביצירת פלט שנותן עדיפות לתוצאות מהירות ולחוויית משתמש נעימה לקהל ספציפי: אנשים עם לקויות ראייה.
הוספת הערות לסרטונים באופן ידני כדי לספק פרטים נוספים לקהל הזה אורכת זמן רב מדי, ולכן לרוב לא מתבצעת. החברה השתמשה ב-Gemini כדי ליצור פתרון מותאם אישית שמתרחב מעבר להוספת תיאורים שרירותיים של פריימים לקובץ טקסט.

כדי להשיג את התוצאות הכי טובות, ViddyScribe השתמש בהנדסת הנחיות, וערך את השפה והסגנון של השאלות עבור Gemini 1.5 Pro. ההנחיה הזו השתמשה בטכניקת שרשרת מחשבה כדי לבקש:
- המטרה וההקשר של הסרטון.
- תיאורים קוליים מותאמים אישית שמבוססים על ניתוח והנחיות ספציפיים לסרטון.
- חותמות הזמן והתיאורים עוצבו מחדש כדי ליצור פורמט צפוי ועקבי.
למה בחרנו ב-ViddyScribe
בחרנו ב-ViddyScribe כי זה היה פתרון אלגנטי לבעיה אמיתית של משתמשים.
הם גילו שיש בשוק אפליקציות אחרות שמספקות תיאורי אודיו, אבל הרגישו שהצרכים של אנשים חירשים ולקויי ראייה לא מובנים במלואם. המפתחים האלה עבדו עם אנשים אמיתיים עם מוגבלויות כדי להבין בדיוק מה הם צריכים באפליקציה של תיאור אודיו.
החוויה של אנשים עם מוגבלויות יכולה להיות שונה מאוד, ולפעמים יש להם צרכים סותרים. בנוסף, תיאורי אודיו יכולים להפוך את הסרטונים האלה לנגישים לאנשים עם נוירודיברסיטי ולאנשים אחרים שמעדיפים לקרוא תמליל במקום לצפות בסרטון.
אנחנו נרגשים לראות איך מפתחים ממשיכים לשפר את ViddyScribe, ומרחיבים את הקהל ואת היכולות בעתיד.
מרחיבים את העסק עם ממשקי AI API מובנים
ViddyScribe הייתה רק אחת מהאפליקציות המדהימות הרבות שיצרתם באמצעות Gemini.
אנחנו מפתחים AI מובנה: ממשקי API של פלטפורמת אינטרנט ותכונות של דפדפן שנועדו לשלב מודלים של AI, כולל מודלים גדולים של שפה (LLM), ישירות בדפדפן. המודל הזה כולל את Gemini Nano, הגרסה הכי יעילה של משפחת מודלי ה-LLM של Gemini, שנועדה לפעול באופן מקומי ברוב המחשבים הנייחים והניידים המודרניים.
כדי להתחיל ליצור אתרים, אפליקציות אינטרנט ותוספים ל-Chrome, כדאי לעיין בממשקי ה-API הזמינים.
אתם מוזמנים לשתף איתנו את מה שאתם יוצרים ב-@ChromiumDev או לשתף עם Chrome for Developers ב-LinkedIn.