قابلیت دسترسی به ویدیو برنده جایزه وب مسابقه برنامه‌نویس API Gemini شد

تاریخ انتشار: 21 نوامبر 2024

پس از ارسال‌های باورنکردنی متعدد به مسابقه توسعه‌دهنده API Gemini ، ما برنده بهترین برنامه وب را انتخاب کردیم: ViddyScribe .

ViddyScribe نشان می‌دهد که چگونه Gemini می‌تواند با تولید توضیحات صوتی از هر ویدیویی که برای افرادی که دارای اختلال بینایی هستند، به دسترسی بیشتر ویدیوها در YouTube و حتی فراتر از آن کمک کند.

ویژگی ها و قابلیت های Gemini

ViddyScribe یک برنامه کاربردی طراحی شده توسط کاربر ساخته است. در حالی که تعدادی راه‌حل برای تولید رونوشت‌ها و توضیحات صوتی وجود دارد، ViddyScribe ایجاد خروجی‌ای را اولویت‌بندی کرد که هم نتایج سریع و هم تجربه کاربری دلپذیر را برای یک مخاطب خاص در اولویت قرار می‌دهد: افراد دارای اختلالات بینایی.

حاشیه نویسی دستی ویدیوها برای ارائه جزئیات اضافی برای این مخاطب زمان زیادی می برد و اغلب نادیده گرفته می شود. ViddyScribe از Gemini برای کمک به ایجاد یک راه حل سفارشی استفاده کرد که فراتر از افزودن برخی توضیحات فریم دلخواه به یک فایل متنی است.

ViddyScribe دو نمونه و یک فضای آپلود دارد.
برنامه ViddyScribe به کاربران این امکان را می دهد که از یک نمونه ویدیو استفاده کنند یا ویدیوی خود را (100 مگابایت و 2 دقیقه) برای تولید توضیحات صوتی با Gemini آپلود کنند.

ViddyScribe از مهندسی سریع برای دریافت بهترین نتایج استفاده کرد و زبان و سبک سؤال را برای Gemini 1.5 Pro تنظیم کرد. این اعلان از دستور زنجیره ای برای درخواست استفاده می کرد:

  • هدف و زمینه ویدیو.
  • توضیحات صوتی مناسب با استفاده از تجزیه و تحلیل و دستورالعمل های ویدئویی خاص.
  • مُهرهای زمانی و توضیحات برای قالبی قابل پیش‌بینی و سازگار با قالب‌بندی مجدد.

چرا ViddyScribe را انتخاب کردیم

ما ViddyScribe را انتخاب کردیم زیرا راه حلی زیبا برای یک مشکل واقعی کاربر بود.

در حالی که آنها دریافتند برنامه های کاربردی دیگری در بازار وجود دارد که توضیحات صوتی را ارائه می دهند، آنها احساس کردند که نیازهای افراد ناشنوا و کم بینا به طور کامل درک نشده است. این توسعه دهندگان با افراد واقعی که این ناتوانی ها را دارند کار کردند تا دقیقاً در یک برنامه توصیف صوتی به چه چیزی نیاز دارند.

تجربه افراد دارای معلولیت می تواند بسیار متفاوت باشد، و گاهی اوقات ممکن است نیازهای رقابتی داشته باشند. علاوه بر این، توضیحات صوتی همچنین می‌تواند این ویدیوها را برای افرادی که دارای انحراف عصبی هستند و سایر افرادی که ترجیح می‌دهند به جای تماشای یک ویدیو بخوانند، قابل دسترسی باشد.

ما هیجان زده هستیم که ببینیم چگونه توسعه دهندگان به بهبود ViddyScribe ادامه می دهند و مخاطبان و قابلیت ها را در آینده گسترش می دهند.

به ساختن با APIهای هوش مصنوعی داخلی ادامه دهید

ViddyScribe تنها یکی از بسیاری از برنامه های شگفت انگیزی بود که با Gemini ساخته اید.

ما در حال توسعه هوش مصنوعی داخلی هستیم: API های پلت فرم وب و ویژگی های مرورگر که برای ادغام مدل های هوش مصنوعی، از جمله مدل های زبان بزرگ (LLM) به طور مستقیم در مرورگر طراحی شده اند. این شامل Gemini Nano ، کارآمدترین نسخه از خانواده LLMهای Gemini است که برای اجرا به صورت محلی در اکثر رایانه‌های رومیزی و لپ‌تاپ مدرن طراحی شده است.

API های موجود را برای شروع ساختن وب سایت های قدرتمند، برنامه های کاربردی وب و برنامه های افزودنی Chrome کشف کنید.

آنچه را که می‌سازید با ما در ChromiumDev@ به اشتراک بگذارید یا با Chrome for Developers در LinkedIn به اشتراک بگذارید.