Video về tính năng hỗ trợ tiếp cận giành giải thưởng web trong Cuộc thi dành cho nhà phát triển sử dụng Gemini API

Alexandra Klepper
Alexandra Klepper

Ngày phát hành: 21 tháng 11 năm 2024

Sau khi nhận được nhiều bài dự thi tuyệt vời cho Cuộc thi dành cho nhà phát triển sử dụng Gemini API, chúng tôi đã chọn ứng dụng web tốt nhất: ViddyScribe.

ViddyScribe là một ví dụ về cách Gemini có thể giúp video trở nên dễ tiếp cận hơn trên YouTube và có thể cả ở những nơi khác bằng cách tạo bản mô tả bằng âm thanh cho mọi video phù hợp với những người khiếm thị.

Các tính năng và chức năng của Gemini

ViddyScribe đã xây dựng một ứng dụng được thiết kế để ưu tiên người dùng. Mặc dù đã có một số giải pháp để tạo bản chép lời và nội dung mô tả bằng âm thanh, nhưng ViddyScribe ưu tiên tạo ra một sản phẩm ưu tiên cả kết quả nhanh chóng và trải nghiệm người dùng dễ chịu cho một đối tượng cụ thể: những người khiếm thị.

Việc chú thích video theo cách thủ công để cung cấp thêm thông tin chi tiết cho đối tượng này mất quá nhiều thời gian và thường bị bỏ qua. ViddyScribe đã sử dụng Gemini để tạo một giải pháp tuỳ chỉnh có thể mở rộng quy mô ngoài việc thêm một số nội dung mô tả khung hình tuỳ ý vào tệp văn bản.

ViddyScribe có hai mẫu và một không gian tải lên.
Ứng dụng ViddyScribe cho phép người dùng sử dụng video mẫu hoặc tải video của riêng họ lên (dung lượng 100 MB và dài 2 phút) để tạo bản mô tả bằng âm thanh bằng Gemini.

ViddyScribe đã sử dụng công nghệ câu lệnh để đạt được kết quả tốt nhất, tuyển chọn ngôn ngữ và phong cách câu hỏi cho Gemini 1.5 Pro. Câu lệnh này sử dụng chuỗi câu lệnh gợi ý để yêu cầu:

  • Mục đích và bối cảnh của video.
  • Nội dung mô tả bằng âm thanh được điều chỉnh dựa trên bản phân tích và nguyên tắc dành riêng cho video.
  • Định dạng lại dấu thời gian và nội dung mô tả để có định dạng nhất quán và dễ dự đoán.

Lý do chúng tôi chọn ViddyScribe

Chúng tôi chọn ViddyScribe vì đây là một giải pháp tinh tế cho một vấn đề thực tế của người dùng.

Mặc dù nhận thấy có các ứng dụng khác trên thị trường cung cấp nội dung mô tả bằng âm thanh, nhưng họ cảm thấy các ứng dụng này chưa hiểu hết nhu cầu của người khiếm thính và khiếm thị. Các nhà phát triển này đã làm việc với những người thực sự mắc các khuyết tật này để xác định chính xác những gì họ cần trong một ứng dụng mô tả bằng âm thanh.

Trải nghiệm của người khuyết tật có thể rất khác nhau và đôi khi, họ có thể có các nhu cầu cạnh tranh. Ngoài ra, nội dung mô tả bằng âm thanh cũng giúp những người mắc chứng rối loạn thần kinh và những người khác thích đọc bản chép lời thay vì xem video có thể tiếp cận các video này.

Chúng tôi rất mong được thấy cách các nhà phát triển tiếp tục nâng cao ViddyScribe, mở rộng khán giả và các tính năng trong tương lai.

Tiếp tục xây dựng bằng các API AI tích hợp sẵn

ViddyScribe chỉ là một trong số nhiều ứng dụng tuyệt vời mà bạn đã tạo bằng Gemini.

Chúng tôi đang phát triển AI tích hợp: API nền tảng web và các tính năng trình duyệt được thiết kế để tích hợp các mô hình AI, bao gồm cả mô hình ngôn ngữ lớn (LLM), trực tiếp vào trình duyệt. Trong đó có Gemini Nano, phiên bản hiệu quả nhất của gia đình LLM Gemini, được thiết kế để chạy cục bộ trên hầu hết các máy tính để bàn và máy tính xách tay hiện đại.

Khám phá các API hiện có để bắt đầu xây dựng các trang web, ứng dụng web và Tiện ích Chrome mạnh mẽ.

Hãy chia sẻ những gì bạn xây dựng với chúng tôi tại@ChromiumDev hoặc chia sẻ với Chrome dành cho nhà phát triển trên LinkedIn.