पब्लिश किया गया: 21 नवंबर, 2024
Gemini API Developer कॉम्पटिशन में कई बेहतरीन सबमिशन मिलने के बाद, हमने सबसे अच्छे वेब ऐप्लिकेशन के लिए विजेता चुना है: ViddyScribe.
ViddyScribe से पता चलता है कि Gemini, YouTube पर वीडियो को ज़्यादा ऐक्सेस करने लायक कैसे बना सकता है. साथ ही, यह भी पता चलता है कि Gemini किसी भी वीडियो के लिए, ऑडियो डिस्क्रिप्शन जनरेट करके, उसे ऐसे लोगों के लिए तैयार कर सकता है जिन्हें देखने में परेशानी होती है.
Gemini की सुविधाएं
ViddyScribe ने उपयोगकर्ता के हिसाब से डिज़ाइन किया गया ऐप्लिकेशन बनाया है. ट्रांसक्रिप्ट और ऑडियो डिस्क्रिप्शन जनरेट करने के लिए, कई समाधान पहले से मौजूद हैं. हालांकि, ViddyScribe ने ऐसे आउटपुट बनाने पर प्राथमिकता दी है जो एक खास ऑडियंस के लिए, तेज़ नतीजे और बेहतर उपयोगकर्ता अनुभव, दोनों को प्राथमिकता देता है: ऐसे लोग जिनकी आंखों की रोशनी कम है.
इस ऑडियंस के लिए ज़्यादा जानकारी देने के लिए, वीडियो में मैन्युअल तौर पर एनोटेशन जोड़ने में काफ़ी समय लगता है. इसलिए, अक्सर इस बात को अनदेखा कर दिया जाता है. ViddyScribe ने Gemini का इस्तेमाल करके, अपनी ज़रूरत के हिसाब से एक ऐसा समाधान बनाया है जो टेक्स्ट फ़ाइल में कुछ फ़्रेम की जानकारी जोड़ने के अलावा, और भी काम करता है.
ViddyScribe ने Gemini 1.5 Pro के लिए, सवाल की भाषा और स्टाइल को चुनकर, बेहतर नतीजे पाने के लिए प्रॉम्प्ट इंजीनियरिंग का इस्तेमाल किया. इस प्रॉम्प्ट में, सिलसिलेवार तरीके से सवाल पूछने की सुविधा का इस्तेमाल करके, ये अनुरोध किए गए:
- वीडियो का मकसद और कॉन्टेक्स्ट.
- वीडियो के हिसाब से विश्लेषण और दिशा-निर्देशों का इस्तेमाल करके, ऑडियो के ज़रिए जानकारी देने की सुविधा.
- टाइमस्टैंप और ब्यौरे को एक जैसा और अनुमानित फ़ॉर्मैट देने के लिए, उन्हें फिर से फ़ॉर्मैट किया गया.
हमने ViddyScribe को क्यों चुना
हमने ViddyScribe को इसलिए चुना, क्योंकि यह उपयोगकर्ता की असल समस्या का बेहतरीन समाधान था.
जबकि उन्होंने पाया कि बाज़ार में ऑडियो उपलब्ध कराने वाले अन्य एप्लिकेशन भी थे विवरण के अनुसार, उन्होंने बहरे और दृष्टिबाधित लोगों की ज़रूरतों को महसूस किया पूरी तरह से समझ नहीं पाए थे. इन डेवलपर ने इन दिव्यांगताओं से ग्रस्त लोगों के साथ मिलकर काम किया, ताकि यह पता लगाया जा सके कि ऑडियो डिस्क्रिप्शन ऐप्लिकेशन में उन्हें क्या चाहिए.
दिव्यांग लोगों के अनुभव अलग-अलग हो सकते हैं. साथ ही, कभी-कभी उनकी ज़रूरतें भी अलग-अलग हो सकती हैं. इसके अलावा, ऑडियो डिस्क्रिप्शन की मदद से, ऐसे लोगों के लिए भी इन वीडियो को ऐक्सेस किया जा सकता है जो न्यूरोडाइवर्जेंट (अलग तरह से सोचने-समझने वाले) हैं. साथ ही, ऐसे लोग भी इन वीडियो को ऐक्सेस कर सकते हैं जो वीडियो देखने के बजाय, ट्रांसक्रिप्ट पढ़ना पसंद करते हैं.
हमें यह देखकर खुशी हो रही है कि डेवलपर, ViddyScribe को बेहतर बना रहे हैं. इससे आने वाले समय में, दर्शकों की संख्या और सुविधाओं में बढ़ोतरी होगी.
पहले से मौजूद एआई एपीआई की मदद से, ऐप्लिकेशन को बेहतर बनाना
ViddyScribe, Gemini की मदद से बनाए गए कई बेहतरीन ऐप्लिकेशन में से एक था.
हम पहले से मौजूद एआई को डेवलप कर रहे हैं: वेब प्लैटफ़ॉर्म एपीआई और ब्राउज़र की सुविधाएं, जिन्हें एआई मॉडल को सीधे ब्राउज़र में इंटिग्रेट करने के लिए डिज़ाइन किया गया है. इनमें लार्ज लैंग्वेज मॉडल (एलएलएम) भी शामिल हैं. इनमें Gemini Nano भी शामिल है. यह एलएलएम के Gemini फ़ैमिली का सबसे बेहतर वर्शन है. इसे ज़्यादातर आधुनिक डेस्कटॉप और लैपटॉप कंप्यूटर पर स्थानीय तौर पर चलाने के लिए डिज़ाइन किया गया है.
बेहतरीन वेबसाइटें, वेब ऐप्लिकेशन, और Chrome एक्सटेंशन बनाने के लिए, उपलब्ध एपीआई खोजें.
@ChromiumDev पर, अपने बनाए गए टूल शेयर करें या LinkedIn पर Chrome for Developers के साथ शेयर करें.