I/O 2024 वेब एआई रैप अप: आपके अगले वेब ऐप्लिकेशन के लिए नए मॉडल, टूल, और एपीआई

Alexandra Klepper
Alexandra Klepper

पिछले एक साल में, वेब एआई में काफ़ी बदलाव हुए हैं. अगर आपने I/O 2024 में हमारी बातचीत नहीं सुनी, तो हम आपको बता दें कि हमने आपके अगले वेब ऐप्लिकेशन के लिए नए मॉडल, टूल, और एपीआई के बारे में बताया था.

वेब एआई, टेक्नोलॉजी और तकनीकों का एक सेट है. इसका इस्तेमाल, मशीन लर्निंग (एमएल) मॉडल को क्लाइंट-साइड पर इस्तेमाल करने के लिए किया जाता है. ये मॉडल, डिवाइस के सीपीयू या जीपीयू पर चल रहे वेब ब्राउज़र में काम करते हैं. इसे JavaScript और अन्य वेब टेक्नोलॉजी, जैसे कि WebAssembly और WebGPU की मदद से बनाया जा सकता है. यह सर्वर-साइड एआई या "क्लाउड एआई" से अलग है. इसमें मॉडल, सर्वर पर काम करता है और इसे एपीआई की मदद से ऐक्सेस किया जाता है.

इस बातचीत में, हमने यह जानकारी शेयर की:

  • ब्राउज़र में हमारे नए लार्ज लैंग्वेज मॉडल (एलएलएम) को चलाने का तरीका और क्लाइंट-साइड पर मॉडल चलाने का असर;
  • विज़ुअल ब्लॉक की आने वाली सुविधाओं के बारे में जानकारी, ताकि प्रोटोटाइप को तेज़ी से बनाया जा सके;
  • साथ ही, वेब डेवलपर Chrome में JavaScript का इस्तेमाल करके, बड़े पैमाने पर Web AI के साथ कैसे काम कर सकते हैं.

ब्राउज़र में एलएलएम

Gemma Web, Google का एक नया ओपन मॉडल है. यह उपयोगकर्ता के डिवाइस पर ब्राउज़र में चल सकता है. इसे उसी रिसर्च और टेक्नोलॉजी का इस्तेमाल करके बनाया गया है जिसका इस्तेमाल हमने Gemini को बनाने के लिए किया था.

एलएलएम को डिवाइस पर लाने से, क्लाउड सर्वर पर अनुमान लगाने के मुकाबले लागत में काफ़ी बचत हो सकती है. साथ ही, इससे उपयोगकर्ता की निजता बेहतर होती है और लेटेन्सी कम होती है. ब्राउज़र में जनरेटिव एआई की सुविधा अभी शुरुआती दौर में है. हालांकि, जैसे-जैसे हार्डवेयर बेहतर होता जाएगा (ज़्यादा सीपीयू और जीपीयू रैम के साथ), वैसे-वैसे हमें उम्मीद है कि ज़्यादा मॉडल उपलब्ध होंगे.

कारोबार, वेब पेज पर किए जा सकने वाले कामों के बारे में नए तरीके से सोच सकते हैं. खास तौर पर, टास्क के हिसाब से इस्तेमाल के मामलों में, जहां छोटे एलएलएम (200 करोड़ से 800 करोड़ पैरामीटर) के वेट को उपभोक्ता हार्डवेयर पर चलाने के लिए ट्यून किया जा सकता है.

Gemma 2B को Kaggle Models से डाउनलोड किया जा सकता है. यह ऐसे फ़ॉर्मैट में उपलब्ध है जो हमारे Web LLM inference API के साथ काम करता है. इसके अलावा, Microsoft Phi-2, Falcon RW 1B, और Stable LM 3B जैसे आर्किटेक्चर भी इस्तेमाल किए जा सकते हैं. इन्हें हमारी कन्वर्टर लाइब्रेरी का इस्तेमाल करके, ऐसे फ़ॉर्मैट में बदला जा सकता है जिसे रनटाइम इस्तेमाल कर सके.

विज़ुअल ब्लॉक की मदद से, तेज़ी से प्रोटोटाइप बनाना

विज़ुअल ब्लॉक की मदद से, क्लाइंट में डेप्थ एस्टिमेशन की सुविधा का इस्तेमाल किया जा सकता है. इसके लिए, किसी कोड की ज़रूरत नहीं होती.

हम Hugging Face के साथ मिलकर काम कर रहे हैं. इस कंपनी ने विज़ुअल ब्लॉक के लिए, 16 बिलकुल नए कस्टम नोड बनाए हैं. इससे Visual Blocks में Transformers.js और Hugging Face के बड़े इकोसिस्टम को इस्तेमाल किया जा सकता है.

इनमें से आठ नए नोड, पूरी तरह से क्लाइंट साइड पर Web AI के साथ काम करते हैं. इनमें ये शामिल हैं:

इसके अलावा, Hugging Face के सात सर्वर-साइड एमएल टास्क हैं. इनकी मदद से, विज़ुअल ब्लॉक में एपीआई के साथ हज़ारों मॉडल चलाए जा सकते हैं. Hugging Face Visual Blocks collection देखें.

Chrome की मदद से, बड़े पैमाने पर वेब एआई के लिए JavaScript का इस्तेमाल करना

पिछले उदाहरणों में, जैसे कि Gemma के साथ, मॉडल को वेब पेज में ही लोड और चलाया जाता है. Chrome, डिवाइस में पहले से मौजूद एआई पर काम कर रहा है. इसकी मदद से, स्टैंडर्ड और टास्क के हिसाब से JavaScript API वाले मॉडल ऐक्सेस किए जा सकते हैं.

बस इतना ही नहीं. Chrome ने WebGPU को भी अपडेट किया है. अब यह 16 बिट फ़्लोटिंग पॉइंट वैल्यू के साथ काम करता है.

WebAssembly ने 64 बिट मेमोरी इंडेक्स के साथ काम करने के लिए, एक नया प्रस्ताव Memory64 दिया है. इससे आपको पहले की तुलना में बड़े एआई मॉडल लोड करने में मदद मिलेगी.

हेडलेस Chrome की मदद से, वेब एआई मॉडल की टेस्टिंग शुरू करना

अब हेडलेस Chrome का इस्तेमाल करके, क्लाइंट-साइड एआई (या WebGL या WebGPU सपोर्ट वाले किसी भी ऐप्लिकेशन) की जांच की जा सकती है. साथ ही, NVIDIA T4 या P100 जैसे सर्वर-साइड जीपीयू का इस्तेमाल करके, परफ़ॉर्मेंस को बेहतर बनाया जा सकता है. ज़्यादा जानें:

याद रखें कि आपने जो भी बनाया है उसे शेयर करते समय, #WebAI जोड़ें. इससे ज़्यादा से ज़्यादा लोग आपका काम देख पाएंगे. X, LinkedIn या अपने पसंदीदा सोशल प्लैटफ़ॉर्म पर, अपनी राय और सुझाव शेयर करें.