पब्लिश होने की तारीख: 22 मई, 2025
एआई, वेब डेवलपर के वेबसाइट और वेब ऐप्लिकेशन बनाने के तरीके में बदलाव कर रहा है. Google I/O 2025 में, हमने बताया कि पिछले एक साल में हमने किन चीज़ों पर काम किया है. साथ ही, यह भी दिखाया कि हमारे पार्टनर, वेब पर एआई का इस्तेमाल कैसे कर रहे हैं. इसके अलावा, हमने एआई से जुड़े नए एपीआई के बारे में एलान किया.
क्या आपने इवेंट मिस कर दिया? खुशखबरी! अब इन टॉक्स को ऑन-डिमांड देखा जा सकता है!
Chrome में Gemini Nano की मदद से, पहले से मौजूद एआई की सुविधा का इस्तेमाल करना
हमारा मुख्य मकसद, Chrome और वेब को सभी डेवलपर और सभी उपयोगकर्ताओं के लिए बेहतर बनाना है. इस बातचीत में, थॉमस स्टाइनर ने बिल्ट-इन एआई के अपडेट, इस्तेमाल के उदाहरण, और आने वाले समय में एआई के इस्तेमाल के बारे में जानकारी दी है.
इसमें पहले से मौजूद एआई, ब्राउज़र में क्लाइंट-साइड मॉडल चलाता है. इससे कई फ़ायदे मिलते हैं:
- निजी: उपयोगकर्ता का संवेदनशील डेटा, डिवाइस पर ही रहता है. इसे कभी भी ब्राउज़र से बाहर नहीं भेजा जाता.
- ऑफ़लाइन: ऐप्लिकेशन, इंटरनेट कनेक्शन के बिना भी एआई की सुविधाओं को ऐक्सेस कर सकते हैं.
- बेहतर परफ़ॉर्मेंस: हार्डवेयर से तेज़ी लाने की सुविधा की वजह से, ये एपीआई बेहतरीन परफ़ॉर्मेंस देते हैं.
पहले से मौजूद एआई एपीआई के लिए कोड सैंपल देखें. साथ ही, उनकी स्थिति के बारे में अपडेट पाएं. यह भी देखें कि कौनसी कंपनियां इस टेक्नोलॉजी को लागू कर रही हैं.
मल्टीमॉडल एपीआई
हम बिलकुल नए मल्टीमॉडल एपीआई पर काम कर रहे हैं. इसका मतलब है कि Gemini Nano को विज़ुअल कॉन्टेंट में "दिखने" वाली या ऑडियो कॉन्टेंट में "सुनाई देने" वाली चीज़ों के बारे में पूछा जा सकता है. उदाहरण के लिए, किसी ब्लॉग प्लैटफ़ॉर्म पर अपलोड की गई इमेज के लिए वैकल्पिक टेक्स्ट के सुझाव पाएं. उपयोगकर्ता इन सुझावों को बेहतर बना सकते हैं और उनमें बदलाव कर सकते हैं. इसके अलावा, Gemini Nano से पॉडकास्ट के लिए ब्यौरे या ट्रांसक्रिप्ट लिखने के लिए कहा जा सकता है.
हाइब्रिड एआई
क्लाइंट-साइड एआई के साथ डेवलपर को एक चुनौती का सामना करना पड़ता है. वह यह है कि सभी प्लैटफ़ॉर्म और ब्राउज़र, डिवाइस पर मॉडल चलाने के लिए हार्डवेयर से जुड़ी ज़रूरी शर्तों को पूरा नहीं करते. Gemini और Firebase ने मिलकर Firebase Web SDK बनाया है. इससे क्लाइंट-साइड पर Gemini Nano की सुविधा उपलब्ध न होने पर, सर्वर पर Gemini Nano का इस्तेमाल किया जा सकता है.
आपके साथ काम करना
हमें खुशी है कि हमने एआई की सुविधा वाले एपीआई बनाने के लिए, कई डेवलपर के साथ काम किया. आपकी मदद के बिना, हम ये काम नहीं कर सकते.
- अर्ली प्रीव्यू प्रोग्राम: 16,000 से ज़्यादा डेवलपर ईपीपी में शामिल हो चुके हैं. ये डेवलपर, नए एपीआई की टेस्टिंग कर रहे हैं, इस्तेमाल के नए उदाहरणों के बारे में जान रहे हैं, और वेब के लिए बेहतर एआई बनाने के लिए सुझाव/राय दे रहे हैं या शिकायत कर रहे हैं.
- हैकथॉन: हमने दो हैकथॉन होस्ट किए हैं. इनमें आपने कुछ बेहतरीन वेबसाइटें और एक्सटेंशन बनाए हैं.
आपका काम अभी खत्म नहीं हुआ है. अपने सुझाव, राय, और शिकायतें शेयर करते रहें. साथ ही, नए बिल्ट-इन एपीआई की जांच करते रहें. हम इन सुविधाओं को बेहतर बनाने के लिए काम करते रहेंगे. W3C के वेब मशीन लर्निंग कम्यूनिटी ग्रुप में शामिल होकर, इन एपीआई को स्टैंडर्ड बनाने में भी मदद की जा सकती है.
आपके ब्राउज़र में Gemini के साथ Chrome एक्सटेंशन का भविष्य
पिछले दो सालों में, एआई की मदद से काम करने वाले एक्सटेंशन की संख्या दोगुनी हो गई है. दरअसल, Chrome Web Store से इंस्टॉल किए गए सभी एक्सटेंशन में से 10% एक्सटेंशन, एआई का इस्तेमाल करते हैं. इस बातचीत में, Sebastian Benz ने कुछ उदाहरण दिए हैं. इनसे पता चलता है कि Chrome एक्सटेंशन और Gemini का कॉम्बिनेशन कितना असरदार है.
उदाहरण के लिए, Chrome के नए प्रॉम्प्ट एपीआई का इस्तेमाल करके, क्लाइंट की वेबसाइटों से डेटा निकालकर और उसे प्रोसेस करके, ब्राउज़र को ज़्यादा मददगार बनाया जा सकता है.
Chrome एक्सटेंशन में, Chrome के प्रॉम्प्टिंग एपीआई की नई मल्टीमॉडल क्षमताओं को दिखाने के लिए, ताकि उपयोगकर्ताओं के लिए ऑडियो और इमेज को ज़्यादा ऐक्सेस किया जा सके.
इसमें ब्राउज़िंग के भविष्य के बारे में बताया गया है. साथ ही, यह भी बताया गया है कि Google DeepMind का Project Mariner, Chrome एक्सटेंशन और Gemini Cloud API के नए वर्शन का इस्तेमाल करके, ब्राउज़र एजेंट कैसे बनाता है.
ब्राउज़िंग के नए अनुभव बनाने और ब्राउज़र को ज़्यादा मददगार बनाने के लिए, Chrome एक्सटेंशन में Gemini को क्लाउड या ब्राउज़र में इस्तेमाल करने की संभावनाओं के बारे में जानें.
असल दुनिया में, वेब एआई को इस्तेमाल करने के उदाहरण और रणनीतियां
यूरिको हिरोता और श्वेता गोपालकृष्णन ने, वेब पर एआई का इस्तेमाल करने वाली कंपनियों के कुछ उदाहरण दिए. इन कंपनियों ने एआई का इस्तेमाल करके, अपने कारोबार और उपयोगकर्ता अनुभव को बेहतर बनाया है. इससे कोई फ़र्क़ नहीं पड़ता कि उनका समाधान, क्लाइंट-साइड मॉडल, सर्वर-साइड या हाइब्रिड समाधान का इस्तेमाल करता है. अहम बात यह है कि आप अपने उपयोगकर्ताओं के लिए, अभी कौनसी नई सुविधाएं और फ़ंक्शन उपलब्ध कराते हैं.
BILIBILI ने एक नई सुविधा लॉन्च की है. इससे वीडियो स्ट्रीम को ज़्यादा दिलचस्प बनाया जा सकता है. इस सुविधा का नाम है: बुलेट-स्क्रीन टिप्पणियां. ये वीडियो में रीयल-टाइम में उपयोगकर्ता की टिप्पणियां दिखाते हैं. ये टिप्पणियां, स्पीकर के पीछे दिखती हैं. इसके लिए, वे इमेज सेगमेंटेशन का इस्तेमाल करते हैं. यह मशीन लर्निंग का एक जाना-माना कॉन्सेप्ट है. इस वजह से, सेशन की अवधि में 30% की बढ़ोतरी हुई! Tokopedia ने सेलर की पुष्टि करने की प्रोसेस को आसान बनाने के लिए, फ़ेस डिटेक्शन मॉडल का इस्तेमाल किया. इससे अपलोड की गई फ़ोटो की क्वालिटी का आकलन किया जा सका. इस वजह से, मैन्युअल तरीके से मंज़ूरी देने की प्रोसेस में लगभग 70% की कमी आई.
Vision Nanny, सेरेब्रल विज़ुअल इंपेयरमेंट (सीवीआई) से पीड़ित बच्चों के लिए एक वेब प्लैटफ़ॉर्म है. यह एआई की मदद से, विज़न स्टिम्युलेशन से जुड़ी गतिविधियां उपलब्ध कराता है. ये कई MediaPipe लाइब्रेरी का इस्तेमाल करते हैं. इनमें हाथ के लैंडमार्क का पता लगाने वाला मॉडल भी शामिल है. यह मॉडल, किसी इमेज, वीडियो या रीयल-टाइम में हाथों के मुख्य पॉइंट का पता लगाता है. 50 बच्चों के साथ किए गए एक पायलट टेस्ट से पता चला कि विज़न नैनी, मैन्युअल तरीके से की जाने वाली विज़ुअल स्टिम्युलेशन गतिविधियों की तुलना में पांच गुना तेज़ी से जवाब देती है. थेरेपिस्ट ने बताया कि मैन्युअल सेटअप की सुविधा हटाने से, उन्हें हर सेशन में औसतन तीन घंटे की बचत हुई.
Google Meet में एआई की मदद से काम करने वाली कई सुविधाएं उपलब्ध हैं. जैसे, वीडियो की रोशनी को बेहतर बनाना, वीडियो को धुंधला होने से बचाना, और वीडियो को साफ़ दिखाना. सबसे बड़ी चुनौती यह है कि इन सुविधाओं को रीयल टाइम में काम करना होता है. ऐसे में, WebAssembly (Wasm) काम आता है. इसकी मदद से, कंप्यूटर के सीपीयू का पूरा इस्तेमाल किया जा सकता है और रीयल-टाइम में वीडियो प्रोसेस किया जा सकता है.
ये वेब पर एआई के इस्तेमाल के कुछ उदाहरण हैं. कई अन्य कंपनियों ने, डिवाइस में पहले से मौजूद एआई एपीआई का इस्तेमाल किया. इनमें से कुछ कंपनियों ने केस स्टडी में अपने काम के बारे में बताया.
उपयोगकर्ताओं को आने वाले समय में बेहतर अनुभव देने के लिए, क्लाइंट-साइड वेब एआई एजेंट
जेसन मेज़ ने इंटरनेट के आने वाले समय के बारे में बताया: वेब एआई एजेंट. वेब का भविष्य एआई पर आधारित है. इसमें एआई की क्षमताओं को सीधे तौर पर ब्राउज़र में शामिल किया जाएगा. इससे, एलएलएम की क्षमताओं से आगे बढ़कर, आपके लिए काम के टास्क पूरे किए जा सकेंगे.
क्लाइंट-साइड अप्रोच से, निजता को बेहतर बनाया जा सकता है. साथ ही, पेज लोड होने में लगने वाले समय को कम किया जा सकता है और लागत में काफ़ी बचत की जा सकती है. एजेंट की मदद से, अपनी मौजूदा वेबसाइट को अपग्रेड किया जा सकता है. साथ ही, किसी उपयोगकर्ता के लिए टास्क अपने-आप पूरे किए जा सकते हैं. इसके अलावा, एजेंट, उपलब्ध टूल को डाइनैमिक तरीके से चुनकर उनका इस्तेमाल कर सकता है. ऐसा हो सकता है कि एजेंट, एक ही टूल को बार-बार इस्तेमाल करे. इससे एजेंट को मुश्किल या कई चरणों वाले टास्क पूरे करने में मदद मिलती है.
एजेंट ये काम कर सकते हैं:
- प्लान बनाना और सब-टास्क को बांटना. साथ ही, मुश्किल समस्याओं को हल करने के लिए, कई चरणों वाली प्लानिंग करना, ताकि टास्क को पूरा करने के लिए लॉजिकल चरणों में बांटा जा सके.
- सबसे अच्छे टूल चुनें. ये टूल, फ़ंक्शन, एपीआई का इस्तेमाल या ऑगमेंटेड लैंग्वेज मॉडल की बुनियादी जानकारी के लिए डेटास्टोर का ऐक्सेस हो सकते हैं. इसके बाद, बाहरी दुनिया में कार्रवाइयां करें.
- संदर्भ के हिसाब से मेमोरी को सेव रखना. यह एजेंट या बाहरी टूल से मिले पिछले आउटपुट के आधार पर होता है. कम समय के लिए जानकारी सेव रखने की सुविधा, मॉडल की कॉन्टेक्स्ट विंडो के साइज़ के हिसाब से, कॉन्टेक्स्ट के इतिहास के FIFO बफ़र की तरह काम करती है. वहीं, लंबे समय के लिए जानकारी सेव रखने की सुविधा में, वेक्टर डेटाबेस का इस्तेमाल किया जा सकता है. इससे, पिछली बातचीत के सेशन या अन्य डेटा सोर्स से ज़रूरत के हिसाब से जानकारी को वापस पाया जा सकता है.
वेब एआई एजेंट को JavaScript में, मौजूदा वेब टेक्नोलॉजी के साथ इंटिग्रेट करने के लिए डिज़ाइन किया गया है. आखिर में, यह ज़रूरी है कि हम अपने हार्डवेयर को बेहतर बनाते रहें, ताकि ब्राउज़र में मॉडल को सबसे अच्छी तरह से चलाया जा सके. आने वाले समय में, WebNN जैसी टेक्नोलॉजी, सीपीयू, जीपीयू, और एनपीयू पर मॉडल को ऑप्टिमाइज़ करने में अहम भूमिका निभाएगी. छोटे एलएलएम के बढ़ते चलन और लगातार हो रहे विकास की वजह से, आने वाले समय में यह सुविधा और भी बेहतर हो जाएगी.
हाइब्रिड अप्रोच का इस्तेमाल करें. इसमें डिवाइस पर प्रोसेस करने की सुविधा को क्लाउड कॉल की रणनीतियों के साथ जोड़ा जाता है. इससे आपको ब्राउज़र में, उपयोगकर्ताओं के लिए बेहतर, रिस्पॉन्सिव, और उनकी पसंद के मुताबिक अनुभव बनाने में मदद मिलेगी. जल्द ही, वेब एआई के लिए किए गए आपके निवेश का फ़ायदा आपको मिलेगा. ऐसा इसलिए, क्योंकि डिवाइसों में एलएलएम को चलाने की क्षमता बेहतर हो जाएगी.
Google I/O 2025 के बारे में ज़्यादा जानें
हमने Google I/O 2025 की सभी बातचीत रिलीज़ कर दी हैं. साथ ही, हमने वेब डेवलपर के लिए एक खास प्लेलिस्ट भी बनाई है. ज़्यादा जानकारी के लिए, io.google/2025 पर जाएं.