Video-Barrierefreiheit gewinnt den Web-Award des Gemini API Developer Competition

Alexandra Klepper
Alexandra Klepper

Veröffentlicht am 21. November 2024

Nachdem wir zahlreiche beeindruckende Beiträge für die Gemini API Developer Competition erhalten haben, haben wir den Gewinner für die beste Webanwendung ausgewählt: ViddyScribe.

ViddyScribe ist ein Beispiel dafür, wie Gemini dazu beitragen kann, Videos auf YouTube und darüber hinaus zugänglicher zu machen. Das Tool generiert Audiobeschreibungen für Videos, die auf Menschen mit Sehbehinderung zugeschnitten sind.

Funktionen und Gemini-Funktionen

ViddyScribe hat eine benutzerfreundliche Anwendung entwickelt. Es gibt bereits eine Reihe von Lösungen zum Generieren von Transkripten und Audiobeschreibungen. Bei ViddyScribe wurde jedoch Wert darauf gelegt, ein Tool zu entwickeln, das sowohl schnelle Ergebnisse als auch eine angenehme Nutzererfahrung für eine bestimmte Zielgruppe bietet: Menschen mit Sehbehinderung.

Die manuelle Annotation von Videos, um zusätzliche Details für diese Zielgruppe bereitzustellen, ist zu zeitaufwendig und wird daher oft vernachlässigt. ViddyScribe nutzte Gemini, um eine benutzerdefinierte Lösung zu entwickeln, die über das Hinzufügen einiger beliebiger Frame-Beschreibungen zu einer Textdatei hinausgeht.

ViddyScribe hat zwei Beispiele und einen Uploadbereich.
Mit der ViddyScribe App können Nutzer ein Beispielvideo verwenden oder ein eigenes Video (100 MB und 2 Minuten lang) hochladen, um mit Gemini Audiobeschreibungen zu generieren.

ViddyScribe hat Prompt-Engineering verwendet, um die besten Ergebnisse zu erzielen. Dabei wurden die Sprache und der Stil der Fragen für Gemini 1.5 Pro optimiert. Bei diesem Prompt wurde Chain-of-Thought-Prompting verwendet, um Folgendes anzufordern:

  • Zweck und Kontext des Videos.
  • Maßgeschneiderte Audiodeskriptionen auf Grundlage von videospezifischen Analysen und Richtlinien.
  • Neu formatierte Zeitstempel und Beschreibungen für ein vorhersagbares und einheitliches Format.

Warum wir uns für ViddyScribe entschieden haben

Wir haben uns für ViddyScribe entschieden, weil es eine elegante Lösung für ein echtes Nutzerproblem ist.

Es gab zwar schon andere Apps auf dem Markt, die Audiobeschreibungen anboten, aber die Bedürfnisse von Menschen mit Hör- und Sehbehinderung wurden nicht vollständig berücksichtigt. Diese Entwickler haben mit Menschen mit diesen Behinderungen zusammengearbeitet, um genau herauszufinden, was sie in einer App für Audiobeschreibungen benötigen.

Die Erfahrungen von Menschen mit Beeinträchtigungen können sehr unterschiedlich sein und manchmal haben sie widersprüchliche Bedürfnisse. Außerdem können Audiodeskriptionen diese Videos auch für Menschen mit Neurodivergenz und andere, die lieber ein Transkript lesen als ein Video ansehen, zugänglich machen.

Wir sind gespannt, wie Entwickler ViddyScribe weiter verbessern und die Zielgruppe und Funktionen in Zukunft erweitern werden.

Weiterentwicklung mit integrierten KI-APIs

ViddyScribe war nur eine der vielen beeindruckenden Anwendungen, die Sie mit Gemini entwickelt haben.

Wir entwickeln integrierte KI: Webplattform-APIs und Browserfunktionen, die darauf ausgelegt sind, KI-Modelle, einschließlich Large Language Models (LLMs), direkt in den Browser zu integrieren. Dazu gehört Gemini Nano, die effizienteste Version der Gemini-Familie von LLMs, die für die lokale Ausführung auf den meisten modernen Desktop- und Laptop-Computern entwickelt wurde.

Verfügbare APIs für die Entwicklung leistungsstarker Websites, Webanwendungen und Chrome-Erweiterungen

Teilen Sie uns Ihre Projekte unter @ChromiumDev mit oder teilen Sie sie auf Chrome for Developers auf LinkedIn.