تاریخ انتشار: 21 نوامبر 2024
پس از ارسالهای باورنکردنی متعدد به مسابقه توسعهدهنده API Gemini ، ما برنده بهترین برنامه وب را انتخاب کردیم: ViddyScribe .
ViddyScribe نشان میدهد که چگونه Gemini میتواند با تولید توضیحات صوتی از هر ویدیویی که برای افرادی که دارای اختلال بینایی هستند، به دسترسی بیشتر ویدیوها در YouTube و حتی فراتر از آن کمک کند.
ویژگی ها و قابلیت های Gemini
ViddyScribe یک برنامه کاربردی طراحی شده توسط کاربر ساخته است. در حالی که تعدادی راهحل برای تولید رونوشتها و توضیحات صوتی وجود دارد، ViddyScribe ایجاد خروجیای را اولویتبندی کرد که هم نتایج سریع و هم تجربه کاربری دلپذیر را برای یک مخاطب خاص در اولویت قرار میدهد: افراد دارای اختلالات بینایی.
حاشیه نویسی دستی ویدیوها برای ارائه جزئیات اضافی برای این مخاطب زمان زیادی می برد و اغلب نادیده گرفته می شود. ViddyScribe از Gemini برای کمک به ایجاد یک راه حل سفارشی استفاده کرد که فراتر از افزودن برخی توضیحات فریم دلخواه به یک فایل متنی است.
ViddyScribe از مهندسی سریع برای دریافت بهترین نتایج استفاده کرد و زبان و سبک سؤال را برای Gemini 1.5 Pro تنظیم کرد. این اعلان از دستور زنجیره ای برای درخواست استفاده می کرد:
- هدف و زمینه ویدیو.
- توضیحات صوتی مناسب با استفاده از تجزیه و تحلیل و دستورالعمل های ویدئویی خاص.
- مُهرهای زمانی و توضیحات برای قالبی قابل پیشبینی و سازگار با قالببندی مجدد.
چرا ViddyScribe را انتخاب کردیم
ما ViddyScribe را انتخاب کردیم زیرا راه حلی زیبا برای یک مشکل واقعی کاربر بود.
در حالی که آنها دریافتند برنامه های کاربردی دیگری در بازار وجود دارد که توضیحات صوتی را ارائه می دهند، آنها احساس کردند که نیازهای افراد ناشنوا و کم بینا به طور کامل درک نشده است. این توسعه دهندگان با افراد واقعی که این ناتوانی ها را دارند کار کردند تا دقیقاً در یک برنامه توصیف صوتی به چه چیزی نیاز دارند.
تجربه افراد دارای معلولیت می تواند بسیار متفاوت باشد، و گاهی اوقات ممکن است نیازهای رقابتی داشته باشند. علاوه بر این، توضیحات صوتی همچنین میتواند این ویدیوها را برای افرادی که دارای انحراف عصبی هستند و سایر افرادی که ترجیح میدهند به جای تماشای یک ویدیو بخوانند، قابل دسترسی باشد.
ما هیجان زده هستیم که ببینیم چگونه توسعه دهندگان به بهبود ViddyScribe ادامه می دهند و مخاطبان و قابلیت ها را در آینده گسترش می دهند.
به ساختن با APIهای هوش مصنوعی داخلی ادامه دهید
ViddyScribe تنها یکی از بسیاری از برنامه های شگفت انگیزی بود که با Gemini ساخته اید.
ما در حال توسعه هوش مصنوعی داخلی هستیم: API های پلت فرم وب و ویژگی های مرورگر که برای ادغام مدل های هوش مصنوعی، از جمله مدل های زبان بزرگ (LLM) به طور مستقیم در مرورگر طراحی شده اند. این شامل Gemini Nano ، کارآمدترین نسخه از خانواده LLMهای Gemini است که برای اجرا به صورت محلی در اکثر رایانههای رومیزی و لپتاپ مدرن طراحی شده است.
API های موجود را برای شروع ساختن وب سایت های قدرتمند، برنامه های کاربردی وب و برنامه های افزودنی Chrome کشف کنید.
آنچه را که میسازید با ما در ChromiumDev@ به اشتراک بگذارید یا با Chrome for Developers در LinkedIn به اشتراک بگذارید.