תאריך פרסום: 21 בנובמבר 2024
אחרי מספר רב של הגשות מדהימות לתחרות המפתחים של Gemini API, בחרנו את הזוכה באפליקציית האינטרנט הטובה ביותר: ViddyScribe.
ViddyScribe הוא דוגמה לאופן שבו Gemini יכול לעזור בשיפור הנגישות של סרטונים ב-YouTube, ואולי גם מעבר לכך, על ידי יצירת תיאורים קוליים של כל סרטון שמותאמים לאנשים עם לקות ראייה.
התכונות והיכולות של Gemini
ב-ViddyScribe פיתחו אפליקציה שממוקדת במשתמש. כבר קיימים כמה פתרונות ליצירת תמלילים ותיאורי אודיו, אבל ב-ViddyScribe העדיפו ליצור פלט שמתמקד גם בתוצאות מהירות וגם בחוויית משתמש נעימה לקהל ספציפי: אנשים עם לקויות ראייה.
הוספת הערות ידניות לסרטונים כדי לספק פרטים נוספים לקהל הזה דורשת הרבה זמן, ולרוב היא לא מתבצעת. ב-ViddyScribe השתמשו ב-Gemini כדי ליצור פתרון מותאם אישית שאפשר להרחיב מעבר להוספת תיאורים שרירותיים של פריימים לקובץ טקסט.
כדי לקבל את התוצאות הטובות ביותר, צוות ViddyScribe השתמש בהנדסת הנחיות כדי לבחור את השפה והסגנון של השאלות עבור Gemini 1.5 Pro. בהנחיה הזו נעשה שימוש בהנחיות בטכניקת שרשרת מחשבה כדי לבקש:
- מטרת הסרטון וההקשר שלו.
- תיאורי אודיו מותאמים אישית על סמך ניתוח והנחיות ספציפיים לסרטון.
- חותמות זמן ותיאורים בפורמט מעודכן, עקבי וצפוי.
למה בחרנו ב-ViddyScribe
בחרנו ב-ViddyScribe כי זהו פתרון אלגנטי לבעיה אמיתית של משתמשים.
הם גילו שיש אפליקציות אחרות בשוק שמספקות תיאורים אודיו, אבל לדעתם הצרכים של אנשים חירשים ואנשים עם לקות ראייה לא הובאו בחשבון במלואם. המפתחים האלה עבדו עם אנשים אמיתיים שיש להם את המוגבלויות האלה כדי לקבוע בדיוק מה הם צריכים באפליקציה עם תיאור אודיו.
חוויית החיים של אנשים עם מוגבלויות יכולה להשתנות מאוד, ולפעמים יכול להיות שיש להם צרכים מתחרים. בנוסף, תיאור אודיו יכול גם להפוך את הסרטונים האלה לנגישים לאנשים עם הפרעה נוירו-התפתחותית ולאנשים שמעדיפים לקרוא תמליל במקום לצפות בסרטון.
אנחנו שמחים לראות איך המפתחים ממשיכים לשפר את ViddyScribe, ולהרחיב את הקהל והיכולות שלו בעתיד.
ממשיכים לפתח בעזרת ממשקי API מובנים ל-AI
ViddyScribe הייתה רק אחת מהאפליקציות המדהימות הרבות שיצרתם באמצעות Gemini.
אנחנו מפתחים בינה מלאכותית מובנית: ממשקי API של פלטפורמות אינטרנט ותכונות דפדפן שנועדו לשלב מודלים של AI, כולל מודלים גדולים של שפה (LLM), ישירות בדפדפן. הגרסה היעילה ביותר של משפחת ה-LLM של Gemini היא Gemini Nano, שנועדה לפעול באופן מקומי ברוב המחשבים המודרניים, כולל מחשבים נייחים ומחשבים ניידים.
ממשקי ה-API הזמינים יעזרו לכם ליצור אתרים, אפליקציות אינטרנט ותוספים ל-Chrome חזקים.
אתם יכולים לשתף איתנו את היצירות שלכם ב-@ChromiumDev או ב-Chrome למפתחים ב-LinkedIn.