Video-Barrierefreiheit gewinnt den Web-Award des Gemini API Developer Competition

Alexandra Klepper
Alexandra Klepper

Veröffentlicht: 21. November 2024

Nach zahlreichen beeindruckenden Einreichungen für den Gemini API Developer Competition haben wir den Gewinner für die beste Webanwendung ausgewählt: ViddyScribe.

ViddyScribe ist ein Beispiel dafür, wie Gemini dazu beitragen kann, Videos auf YouTube und möglicherweise auch darüber hinaus barrierefreier zu machen. So werden Audiobeschreibungen für jedes Video generiert, die auf sehbehinderte Nutzer zugeschnitten sind.

Funktionen und Gemini-Funktionen

ViddyScribe hat eine Anwendung entwickelt, die sich an den Nutzern orientiert. Es gibt bereits eine Reihe von Lösungen zum Erstellen von Transkripten und Audiobeschreibungen. Bei ViddyScribe stand jedoch die Erstellung einer Ausgabe im Vordergrund, die sowohl schnelle Ergebnisse als auch eine angenehme Nutzererfahrung für eine bestimmte Zielgruppe bietet: Menschen mit Sehbehinderung.

Die manuelle Anmerkung von Videos, um zusätzliche Details für diese Zielgruppe anzugeben, nimmt zu viel Zeit in Anspruch und wird oft vernachlässigt. ViddyScribe hat mit Gemini eine benutzerdefinierte Lösung entwickelt, die über das Hinzufügen einiger beliebiger Framebeschreibungen zu einer Textdatei hinausgeht.

ViddyScribe bietet zwei Samples und einen Uploadbereich.
Mit der ViddyScribe App können Nutzer ein Beispielvideo verwenden oder ein eigenes Video (100 MB und 2 Minuten lang) hochladen, um mit Gemini Audiobeschreibungen zu erstellen.

ViddyScribe hat Prompt-Engineering eingesetzt, um die besten Ergebnisse zu erzielen. Dabei wurden die Sprache und der Stil der Fragen für Gemini 1.5 Pro ausgewählt. Bei diesem Prompt wurde Chain-of-Thought Prompting verwendet, um Folgendes anzufordern:

  • Zweck und Kontext des Videos
  • Individuelle Audiobeschreibungen anhand videospezifischer Analysen und Richtlinien
  • Zeitstempel und Beschreibungen wurden in ein einheitliches Format umgewandelt.

Warum wir uns für ViddyScribe entschieden haben

Wir haben uns für ViddyScribe entschieden, weil es eine elegante Lösung für ein echtes Nutzerproblem darstellt.

Er fand zwar heraus, dass es andere Apps auf dem Markt gibt, die Audiobeschreibungen anbieten, aber er hatte das Gefühl, dass die Bedürfnisse von gehörlosen und sehbehinderten Menschen nicht vollständig verstanden wurden. Diese Entwickler haben mit echten Menschen mit diesen Behinderungen zusammengearbeitet, um genau herauszufinden, was sie in einer App für Audiobeschreibungen benötigen.

Die Erfahrungen von Menschen mit Behinderungen können sehr unterschiedlich sein und manchmal haben sie konkurrierende Bedürfnisse. Außerdem können Audiobeschreibungen diese Videos für Menschen mit neurodiversen Merkmalen und andere Nutzer zugänglich machen, die lieber ein Transkript lesen als sich ein Video anzusehen.

Wir sind gespannt, wie Entwickler ViddyScribe weiter verbessern und die Zielgruppe und Funktionen in Zukunft ausweiten.

Mit integrierten KI-APIs weiter entwickeln

ViddyScribe war nur eine von vielen tollen Anwendungen, die Sie mit Gemini erstellt haben.

Wir entwickeln integrierte KI: APIs für Webplattformen und Browserfunktionen, mit denen KI-Modelle, einschließlich Large Language Models (LLMs), direkt in den Browser eingebunden werden können. Dazu gehört Gemini Nano, die effizienteste Version der LLM-Familie von Gemini, die lokal auf den meisten modernen Desktop- und Laptop-Computern ausgeführt werden kann.

Informieren Sie sich über die verfügbaren APIs, um leistungsstarke Websites, Webanwendungen und Chrome-Erweiterungen zu erstellen.

Teilen Sie Ihre Entwicklungen mit uns unter @ChromiumDev oder mit Chrome for Developers auf LinkedIn.