पब्लिश होने की तारीख: 21 नवंबर, 2024
Gemini API Developer कॉम्पटिशन में, हमें कई बेहतरीन सबमिशन मिले. इनमें से हमने सबसे अच्छे वेब ऐप्लिकेशन के तौर पर, ViddyScribe को चुना है.
ViddyScribe इस बात का सबसे अच्छा उदाहरण है कि Gemini, YouTube पर वीडियो को ज़्यादा सुलभ बनाने में कैसे मदद कर सकता है. साथ ही, यह सुविधा अन्य प्लैटफ़ॉर्म पर भी उपलब्ध हो सकती है. यह किसी भी वीडियो के लिए ऑडियो ब्यौरे जनरेट करती है. ये ब्यौरे, दृष्टिबाधित लोगों की ज़रूरतों के हिसाब से तैयार किए जाते हैं.
सुविधाएँ और Gemini की क्षमताएँ
ViddyScribe ने ऐसा ऐप्लिकेशन बनाया है जिसे उपयोगकर्ता की ज़रूरतों को ध्यान में रखकर डिज़ाइन किया गया है. ट्रांसक्रिप्ट और ऑडियो ब्यौरे जनरेट करने के लिए, पहले से ही कई समाधान उपलब्ध हैं. हालांकि, ViddyScribe ने ऐसे आउटपुट को प्राथमिकता दी है जो खास ऑडियंस के लिए, तुरंत नतीजे और बेहतर उपयोगकर्ता अनुभव, दोनों को प्राथमिकता देता है. यह खास ऑडियंस, दृष्टिबाधित लोगों की है.
इस ऑडियंस के लिए वीडियो में मैन्युअल तरीके से एनोटेशन जोड़ने में बहुत समय लगता है. इसलिए, अक्सर ऐसा नहीं किया जाता. ViddyScribe ने Gemini का इस्तेमाल करके, एक कस्टम समाधान बनाया. यह समाधान, टेक्स्ट फ़ाइल में कुछ फ़्रेम के ब्यौरे जोड़ने से ज़्यादा काम करता है.

ViddyScribe ने बेहतरीन नतीजे पाने के लिए, प्रॉम्प्ट इंजीनियरिंग का इस्तेमाल किया. साथ ही, Gemini 1.5 Pro के लिए सवाल की भाषा और स्टाइल को बेहतर बनाया. इस प्रॉम्प्ट में, चेन-ऑफ़-थॉट प्रॉम्प्ट का इस्तेमाल करके यह अनुरोध किया गया है:
- वीडियो बनाने का मकसद और कॉन्टेक्स्ट.
- वीडियो के हिसाब से विश्लेषण और दिशा-निर्देशों का इस्तेमाल करके, ऑडियो फ़ॉर्मैट में जानकारी को अपनी पसंद के मुताबिक बनाया जा सकता है.
- टाइमस्टैंप और ब्यौरे को फिर से फ़ॉर्मैट किया गया है, ताकि उन्हें अनुमानित और एक जैसे फ़ॉर्मैट में दिखाया जा सके.
हमने ViddyScribe को क्यों चुना
हमने ViddyScribe को इसलिए चुना, क्योंकि यह उपयोगकर्ताओं की एक अहम समस्या का बेहतरीन समाधान था.
उन्हें पता चला कि बाज़ार में ऐसे कई ऐप्लिकेशन उपलब्ध हैं जो ऑडियो के साथ जानकारी देते हैं. हालांकि, उन्हें लगा कि सुनने और देखने में परेशानी वाले लोगों की ज़रूरतों को पूरी तरह से नहीं समझा गया है. इन डेवलपर ने, इन समस्याओं से जूझ रहे लोगों के साथ मिलकर काम किया. इससे उन्हें यह पता चला कि ऑडियो ब्यौरे वाले ऐप्लिकेशन में उन्हें किन सुविधाओं की ज़रूरत है.
दिव्यांग लोगों का अनुभव अलग-अलग हो सकता है. साथ ही, कभी-कभी उनकी ज़रूरतें अलग-अलग हो सकती हैं. इसके अलावा, ऑडियो ब्यौरे की मदद से, न्यूरोडाइवर्जेंट (मानसिक रूप से अलग) लोगों के साथ-साथ उन लोगों के लिए भी इन वीडियो को ऐक्सेस करना आसान हो जाता है जो वीडियो देखने के बजाय ट्रांसक्रिप्ट पढ़ना पसंद करते हैं.
हम यह जानने के लिए बेहद उत्सुक हैं कि डेवलपर, ViddyScribe को कैसे बेहतर बनाते हैं. साथ ही, आने वाले समय में दर्शकों की संख्या और सुविधाओं को कैसे बढ़ाते हैं.
पहले से मौजूद एआई एपीआई का इस्तेमाल जारी रखना
ViddyScribe, Gemini की मदद से बनाए गए कई बेहतरीन ऐप्लिकेशन में से सिर्फ़ एक है.
हम बिल्ट-इन एआई को डेवलप कर रहे हैं: वेब प्लैटफ़ॉर्म एपीआई और ब्राउज़र की ऐसी सुविधाएं जो एआई मॉडल को सीधे तौर पर ब्राउज़र में इंटिग्रेट करने के लिए डिज़ाइन की गई हैं. इनमें लार्ज लैंग्वेज मॉडल (एलएलएम) भी शामिल हैं. इसमें Gemini Nano शामिल है. यह Gemini फ़ैमिली के एलएलएम का सबसे बेहतर वर्शन है. इसे ज़्यादातर आधुनिक डेस्कटॉप और लैपटॉप कंप्यूटर पर स्थानीय तौर पर काम करने के लिए डिज़ाइन किया गया है.
बेहतरीन वेबसाइटें, वेब ऐप्लिकेशन, और Chrome एक्सटेंशन बनाने के लिए, उपलब्ध एपीआई के बारे में जानें.
आपने जो भी बनाया है उसे हमारे साथ शेयर करें. इसके लिए, @ChromiumDev पर जाएं या LinkedIn पर Chrome for Developers के साथ शेयर करें.