วิดีโอการช่วยเหลือพิเศษได้รับรางวัลเว็บจากการแข่งขันนักพัฒนาซอฟต์แวร์ Gemini API

Alexandra Klepper
Alexandra Klepper

เผยแพร่: 21 พฤศจิกายน 2024

หลังจากได้รับผลงานที่น่าทึ่งมากมายในการ การแข่งขันนักพัฒนา Gemini API เราได้ เลือกผู้ชนะสำหรับเว็บแอปพลิเคชันยอดเยี่ยมแล้ว ซึ่งก็คือ ViddyScribe

ViddyScribe เป็นตัวอย่างที่แสดงให้เห็นว่า Gemini ช่วยให้วิดีโอเข้าถึงได้มากขึ้นบน YouTube และอาจรวมถึงแพลตฟอร์มอื่นๆ ด้วยการสร้างเสียงบรรยายแทนภาพของวิดีโอ ที่ปรับให้เหมาะกับผู้พิการทางสายตา

ฟีเจอร์และความสามารถของ Gemini

ViddyScribe สร้างแอปพลิเคชันที่ออกแบบโดยคำนึงถึงผู้ใช้เป็นอันดับแรก แม้ว่าจะมีโซลูชันหลายอย่างที่สร้างข้อความถอดเสียงและคำบรรยายแทนเสียงได้อยู่แล้ว แต่ ViddyScribe ก็ให้ความสำคัญกับการสร้างเอาต์พุตที่เน้นทั้งผลลัพธ์ที่รวดเร็วและ ประสบการณ์การใช้งานที่น่าพึงพอใจสำหรับกลุ่มเป้าหมายที่เฉพาะเจาะจง นั่นก็คือผู้ที่มีความบกพร่องทางสายตา

การใส่คำอธิบายประกอบวิดีโอด้วยตนเองเพื่อให้รายละเอียดเพิ่มเติมแก่ผู้ชมกลุ่มนี้ใช้เวลานานเกินไป และมักถูกละเลย ViddyScribe ใช้ Gemini เพื่อช่วยสร้าง โซลูชันที่กำหนดเองซึ่งปรับขนาดได้มากกว่าการเพิ่มคำอธิบายเฟรมที่กำหนดเองลงใน ไฟล์ข้อความ

ViddyScribe มีตัวอย่าง 2 รายการและพื้นที่อัปโหลด
แอป ViddyScribe ช่วยให้ผู้ใช้สามารถใช้วิดีโอตัวอย่างหรืออัปโหลดวิดีโอของตนเอง (ขนาด 100 MB และยาว 2 นาที) เพื่อสร้างคำอธิบายเสียงด้วย Gemini

ViddyScribe ใช้การออกแบบพรอมต์ เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด โดยคัดสรรภาษาและรูปแบบคำถามสำหรับ Gemini 1.5 Pro พรอมต์นี้ใช้การแจ้งแบบลูกโซ่ความคิดเพื่อขอ

  • วัตถุประสงค์และบริบทของวิดีโอ
  • เสียงบรรยายที่ปรับแต่งโดยใช้การวิเคราะห์และหลักเกณฑ์เฉพาะวิดีโอ
  • การประทับเวลาและคำอธิบายที่จัดรูปแบบใหม่เพื่อให้มีรูปแบบที่สอดคล้องกันและคาดการณ์ได้

เหตุผลที่เราเลือก ViddyScribe

เราเลือก ViddyScribe เพราะเป็นโซลูชันที่ยอดเยี่ยมสำหรับปัญหาที่ผู้ใช้พบเจอจริงๆ

แม้ว่าพวกเขาจะพบว่ามีแอปพลิเคชันอื่นๆ ในตลาดที่ให้บริการคำอธิบายเสียง แต่ก็รู้สึกว่าความต้องการของผู้พิการทางหูและผู้พิการทางสายตาไม่ได้รับการตอบสนองอย่างเต็มที่ นักพัฒนาแอปเหล่านี้ได้ทำงานร่วมกับผู้พิการตัวจริงเพื่อพิจารณาว่าผู้พิการต้องการอะไรบ้างในแอปพลิเคชันเสียงบรรยายแทนภาพ

ประสบการณ์การใช้งานของผู้พิการอาจแตกต่างกันอย่างมาก และบางครั้งผู้พิการอาจมีความต้องการที่ขัดแย้งกัน นอกจากนี้ คำบรรยายแทนเสียงยังช่วยให้ผู้ที่มีความหลากหลายทางระบบประสาทและคนอื่นๆ ที่ต้องการอ่านข้อความถอดเสียงมากกว่าดูวิดีโอเข้าถึงวิดีโอเหล่านี้ได้ด้วย

เราตื่นเต้นที่จะได้เห็นนักพัฒนาแอปปรับปรุง ViddyScribe ต่อไป ขยายกลุ่มเป้าหมายและความสามารถในอนาคต

สร้างสรรค์ต่อไปด้วย AI API ในตัว

ViddyScribe เป็นเพียงหนึ่งในแอปพลิเคชันที่ยอดเยี่ยมมากมายที่คุณสร้างขึ้นด้วย Gemini

เรากำลังพัฒนา AI ในตัว ซึ่งเป็น API ของแพลตฟอร์มเว็บและฟีเจอร์ของเบราว์เซอร์ ที่ออกแบบมาเพื่อผสานรวมโมเดล AI รวมถึงโมเดลภาษาขนาดใหญ่ (LLM) เข้ากับเบราว์เซอร์โดยตรง ซึ่งรวมถึง Gemini Nano LLM ตระกูล Gemini เวอร์ชันที่มีประสิทธิภาพมากที่สุด ซึ่งออกแบบมาให้ทำงานในเครื่อง บนคอมพิวเตอร์เดสก์ท็อปและแล็ปท็อปที่ทันสมัยส่วนใหญ่

ค้นหา API ที่พร้อมใช้งานเพื่อเริ่มสร้างเว็บไซต์ เว็บแอปพลิเคชัน และส่วนขยาย Chrome ที่มีประสิทธิภาพ

แชร์สิ่งที่คุณสร้างกับเราได้ที่ @ChromiumDev หรือแชร์กับ Chrome for Developers บน LinkedIn