게시일: 2024년 11월 21일
Gemini API 개발자 대회에 수많은 놀라운 제출작이 접수된 가운데 최고의 웹 애플리케이션으로 ViddyScribe가 선정되었습니다.
ViddyScribe는 시각장애인에 맞게 조정된 모든 동영상의 오디오 설명을 생성하여 Gemini가 YouTube 및 그 밖의 플랫폼에서 동영상의 접근성을 높이는 데 어떻게 도움이 되는지 보여주는 좋은 예입니다.
기능 및 Gemini 기능
ViddyScribe는 사용자 중심 설계 애플리케이션을 구축했습니다. 스크립트와 오디오 설명을 생성하는 다양한 솔루션이 이미 존재하지만 ViddyScribe는 시각장애인이라는 특정 시청자를 위해 빠른 결과와 쾌적한 사용자 환경을 모두 우선시하는 출력을 만드는 데 중점을 두었습니다.
이 시청자층을 위해 추가 세부정보를 제공하기 위해 동영상을 수동으로 주석 처리하는 데 너무 많은 시간이 소요되며 종종 무시됩니다. ViddyScribe는 Gemini를 사용하여 텍스트 파일에 임의의 프레임 설명을 추가하는 것 이상으로 확장되는 맞춤 솔루션을 만드는 데 도움을 받았습니다.

ViddyScribe는 프롬프트 엔지니어링을 사용하여 최상의 결과를 얻고 Gemini 1.5 Pro에 맞게 질문 언어와 스타일을 선별했습니다. 이 프롬프트는 연쇄적 사고(CoT) 프롬프팅을 사용하여 다음을 요청했습니다.
- 동영상의 목적과 맥락
- 동영상별 분석 및 가이드라인을 사용한 맞춤 오디오 설명
- 예측 가능하고 일관된 형식을 위해 타임스탬프와 설명을 다시 지정했습니다.
ViddyScribe를 선택한 이유
ViddyScribe는 실제 사용자 문제를 해결하는 우아한 솔루션이기 때문에 선택했습니다.
시장에 오디오 설명을 제공하는 다른 애플리케이션이 있다는 것을 알게 되었지만, 청각장애인과 시각장애인의 요구사항이 완전히 이해되지 않는다고 생각했습니다. 이러한 개발자들은 이러한 장애가 있는 실제 사용자와 협력하여 오디오 설명 애플리케이션에 필요한 것이 무엇인지 정확히 파악했습니다.
장애인의 경험은 매우 다양하며 때로는 상충되는 요구사항이 있을 수 있습니다. 또한 오디오 설명은 신경다양성을 가진 사람과 동영상을 시청하는 대신 스크립트를 읽는 것을 선호하는 사람도 이러한 동영상을 이용할 수 있도록 지원합니다.
앞으로 개발자들이 ViddyScribe를 계속 개선하여 잠재고객과 기능을 확대할 수 있기를 기대합니다.
내장된 AI API로 계속 빌드
ViddyScribe는 Gemini로 빌드한 수많은 멋진 애플리케이션 중 하나일 뿐입니다.
Google은 내장 AI를 개발하고 있습니다. 이는 대규모 언어 모델(LLM)을 비롯한 AI 모델을 브라우저에 직접 통합하도록 설계된 웹 플랫폼 API와 브라우저 기능입니다. 여기에는 최신 데스크톱 및 노트북 컴퓨터에서 로컬로 실행되도록 설계된 Gemini LLM 제품군 중 가장 효율적인 버전인 Gemini Nano가 포함됩니다.
사용 가능한 API를 알아보고 강력한 웹사이트, 웹 애플리케이션, Chrome 확장 프로그램을 빌드해 보세요.
@ChromiumDev에서 개발한 내용을 공유하거나 LinkedIn의 Chrome for Developers와 공유하세요.