Video về tính năng hỗ trợ tiếp cận giành giải thưởng web trong Cuộc thi dành cho nhà phát triển sử dụng Gemini API

Alexandra Klepper
Alexandra Klepper

Xuất bản: Ngày 21 tháng 11 năm 2024

Sau khi nhận được vô số bài dự thi xuất sắc trong Cuộc thi dành cho nhà phát triển sử dụng Gemini API, chúng tôi đã chọn ra người chiến thắng cho ứng dụng web xuất sắc nhất: ViddyScribe.

ViddyScribe là một ví dụ điển hình về cách Gemini có thể giúp video dễ tiếp cận hơn trên YouTube và có thể là cả những nền tảng khác, bằng cách tạo nội dung mô tả bằng âm thanh cho mọi video theo cách phù hợp với người khiếm thị.

Các tính năng và khả năng của Gemini

ViddyScribe đã tạo một ứng dụng được thiết kế lấy người dùng làm trung tâm. Mặc dù đã có một số giải pháp để tạo bản chép lời và nội dung mô tả bằng âm thanh, nhưng ViddyScribe ưu tiên tạo ra kết quả nhanh chóng và trải nghiệm người dùng dễ chịu cho một đối tượng cụ thể: người khiếm thị.

Việc chú thích video theo cách thủ công để cung cấp thêm thông tin chi tiết cho đối tượng này tốn quá nhiều thời gian và thường bị bỏ qua. ViddyScribe đã sử dụng Gemini để tạo một giải pháp tuỳ chỉnh có thể mở rộng, thay vì chỉ thêm một số nội dung mô tả khung hình tuỳ ý vào một tệp văn bản.

ViddyScribe có 2 mẫu và một không gian tải lên.
Ứng dụng ViddyScribe cho phép người dùng sử dụng video mẫu hoặc tải video của riêng họ lên (dung lượng 100 MB và thời lượng 2 phút) để tạo nội dung mô tả bằng âm thanh bằng Gemini.

ViddyScribe đã sử dụng kỹ thuật tạo câu lệnh để đạt được kết quả tốt nhất, đồng thời chọn lọc ngôn ngữ và phong cách đặt câu hỏi cho Gemini 1.5 Pro. Câu lệnh này sử dụng phương pháp gợi ý theo chuỗi suy nghĩ để yêu cầu:

  • Mục đích và bối cảnh của video.
  • Nội dung mô tả bằng âm thanh phù hợp dựa trên hướng dẫn và thông tin phân tích cụ thể cho từng video.
  • Định dạng lại dấu thời gian và nội dung mô tả để có định dạng nhất quán và dễ dự đoán.

Lý do chúng tôi chọn ViddyScribe

Chúng tôi chọn ViddyScribe vì đây là một giải pháp hiệu quả cho một vấn đề thực tế của người dùng.

Mặc dù nhận thấy có những ứng dụng khác trên thị trường cung cấp nội dung mô tả bằng âm thanh, nhưng họ cảm thấy nhu cầu của người khiếm thính và khiếm thị chưa được hiểu đầy đủ. Những nhà phát triển này đã làm việc với người khuyết tật thực sự để xác định chính xác những gì họ cần trong một ứng dụng mô tả bằng âm thanh.

Trải nghiệm của người khuyết tật có thể rất khác nhau và đôi khi họ có thể có những nhu cầu mâu thuẫn. Ngoài ra, nội dung mô tả bằng âm thanh cũng có thể giúp những người có tư duy khác biệt và những người khác thích đọc bản chép lời hơn là xem video tiếp cận được những video này.

Chúng tôi rất mong được thấy các nhà phát triển tiếp tục cải tiến ViddyScribe, mở rộng đối tượng và khả năng của ứng dụng này trong tương lai.

Tiếp tục xây dựng bằng các API tích hợp sẵn về AI

ViddyScribe chỉ là một trong số nhiều ứng dụng tuyệt vời mà bạn đã tạo bằng Gemini.

Chúng tôi đang phát triển AI tích hợp sẵn: các API nền tảng web và tính năng trình duyệt được thiết kế để tích hợp các mô hình AI (bao gồm cả mô hình ngôn ngữ lớn (LLM)) trực tiếp vào trình duyệt. Trong đó có Gemini Nano, phiên bản hiệu quả nhất của họ mô hình ngôn ngữ lớn Gemini, được thiết kế để chạy cục bộ trên hầu hết các máy tính và máy tính xách tay hiện đại.

Khám phá các API hiện có để bắt đầu xây dựng các trang web, ứng dụng web và Tiện ích mạnh mẽ cho Chrome.

Hãy chia sẻ những gì bạn tạo ra với chúng tôi tại @ChromiumDev hoặc chia sẻ với Chrome for Developers trên LinkedIn.