Kesimpulan I/O 2024 Web AI: Model, alat, dan API baru untuk aplikasi web Anda berikutnya

Alexandra Klepper
Alexandra Klepper

Banyak hal telah berubah di AI Web selama setahun terakhir. Jika Anda melewatkannya, kami memberikan presentasi di I/O 2024 tentang model, alat, dan API baru untuk aplikasi web Anda berikutnya.

Web AI adalah serangkaian teknologi dan teknik untuk menggunakan model machine learning (ML) di sisi klien dalam browser web yang berjalan di CPU atau GPU perangkat. Hal ini dapat dibangun dengan JavaScript dan teknologi web lainnya, seperti WebAssembly dan WebGPU. Hal ini berbeda dengan AI sisi server atau "AI Cloud", yang modelnya dieksekusi di server dan diakses dengan API.

Dalam diskusi ini, kami membagikan:

  • Cara menjalankan model bahasa besar (LLM) baru kami di browser dan dampak menjalankan model di sisi klien;
  • Melihat masa depan Blok Visual, untuk membuat prototipe lebih cepat;
  • Selain itu, cara developer web dapat menggunakan JavaScript di Chrome untuk bekerja dengan AI Web dalam skala besar.

LLM di browser

Gemma Web adalah model terbuka baru dari Google yang dapat berjalan di browser pada perangkat pengguna, yang dibangun dari riset dan teknologi yang sama dengan yang kami gunakan untuk membuat Gemini.

Dengan menghadirkan LLM di perangkat, ada potensi penghematan biaya yang signifikan dibandingkan dengan menjalankan inferensi di server cloud, serta peningkatan privasi pengguna dan pengurangan latensi. AI generatif di browser masih dalam tahap awal, tetapi seiring dengan terus meningkatnya kualitas hardware (dengan RAM CPU dan GPU yang lebih tinggi), kami berharap akan ada lebih banyak model yang tersedia.

Bisnis dapat membayangkan kembali apa yang dapat Anda lakukan di halaman web, terutama untuk kasus penggunaan khusus tugas, di mana bobot LLM yang lebih kecil (2 hingga 8 miliar parameter) dapat disesuaikan untuk dijalankan di hardware konsumen.

Gemma 2B tersedia untuk didownload di Kaggle Models, dan hadir dalam format yang kompatibel dengan Web LLM inference API kami. Arsitektur lain yang didukung mencakup Microsoft Phi-2, Falcon RW 1B, dan Stable LM 3B, yang dapat Anda konversi ke format yang dapat digunakan runtime, menggunakan library konverter kami.

Buat prototipe yang lebih cepat dengan Blok Visual

Dengan Blok Visual, Anda dapat menjalankan estimasi kedalaman di klien, tanpa kode.

Kami berkolaborasi dengan Hugging Face, yang telah membuat 16 node kustom baru untuk Blok Visual. Hal ini menghadirkan Transformers.js dan ekosistem Hugging Face yang lebih luas ke Blok Visual.

Delapan node baru ini berjalan sepenuhnya di sisi klien, dengan AI Web, termasuk:

Selain itu, ada tujuh tugas ML sisi server dari Hugging Face yang memungkinkan Anda menjalankan ribuan model dengan API di Blok Visual. Lihat koleksi Blok Visual Hugging Face.

Menggunakan JavaScript untuk AI Web dalam skala besar dengan Chrome

Pada instance sebelumnya, seperti dengan Gemma, model dimuat dan dijalankan dalam halaman web itu sendiri. Chrome sedang mengembangkan AI bawaan di perangkat, tempat Anda dapat mengakses model dengan API JavaScript standar khusus tugas.

Bukan itu saja. Chrome juga telah mengupdate WebGPU dengan dukungan untuk nilai floating point 16 bit.

WebAssembly memiliki proposal baru, Memory64, untuk mendukung indeks memori 64 bit, yang akan memungkinkan Anda memuat model AI yang lebih besar daripada sebelumnya.

Mulai menguji model AI Web dengan Chrome tanpa antarmuka

Sekarang Anda dapat menguji AI sisi klien (atau aplikasi apa pun yang memerlukan dukungan WebGL atau WebGPU) menggunakan Headless Chrome, sekaligus memanfaatkan GPU sisi server untuk akselerasi seperti NVIDIA T4 atau P100. Pelajari lebih lanjut:

Ingat, saat Anda membagikan hasil kreasi Anda, tambahkan #WebAI agar komunitas yang lebih luas dapat melihat karya Anda. Bagikan temuan dan saran Anda di X, LinkedIn, atau platform media sosial pilihan Anda.