Kesimpulan I/O 2024 Web AI: Model, alat, dan API baru untuk aplikasi web Anda berikutnya

Banyak hal yang telah berubah di AI Web selama setahun terakhir. Jika Anda melewatkannya, kami memberikan presentasi di I/O 2024 tentang model, alat, dan API baru untuk aplikasi web Anda berikutnya.

AI Web adalah serangkaian teknologi dan teknik untuk menggunakan model machine learning (ML) sisi klien di browser web yang berjalan di CPU atau GPU perangkat. Ini dapat di-build dengan JavaScript dan teknologi web lainnya, seperti WebAssembly dan WebGPU. Hal ini berbeda dengan AI sisi server atau "Cloud AI", tempat model dieksekusi di server dan diakses dengan API.

Dalam diskusi ini, kami membagikan:

  • Cara menjalankan model bahasa besar (LLM) baru kami di browser dan dampak dari menjalankan model sisi klien;
  • Tampilan masa depan Visual Blocks, untuk membuat prototipe lebih cepat;
  • Dan cara developer web dapat menggunakan JavaScript di Chrome untuk bekerja dengan Web AI, dalam skala besar.

LLM di browser

Gemma Web adalah model terbuka baru dari Google yang dapat berjalan di browser pada perangkat pengguna, yang dibuat dari riset dan teknologi yang sama dengan yang kami gunakan untuk membuat Gemini.

Dengan menghadirkan LLM di perangkat, ada potensi penghematan biaya yang signifikan dibandingkan dengan menjalankan inferensi di server cloud, serta meningkatkan privasi pengguna dan mengurangi latensi. AI generatif di browser masih dalam tahap awal, tetapi seiring dengan peningkatan hardware (dengan RAM CPU dan GPU yang lebih tinggi), kami berharap lebih banyak model akan tersedia.

Bisnis dapat membayangkan ulang hal yang dapat Anda lakukan di halaman web, terutama untuk kasus penggunaan khusus tugas, dengan bobot LLM yang lebih kecil (2 hingga 8 miliar parameter) yang dapat disesuaikan untuk berjalan di hardware konsumen.

Gemma 2B tersedia untuk didownload di Kaggle Models, dan memiliki format yang kompatibel dengan API inferensi LLM Web kami. Arsitektur lain yang didukung mencakup Microsoft Phi-2, Falcon RW 1B, dan Stable LM 3B, yang dapat Anda konversi ke format yang dapat digunakan runtime, menggunakan library pengonversi kami.

Membuat prototipe dengan lebih cepat menggunakan Visual Blocks

Dengan Visual Blocks, Anda dapat menjalankan estimasi kedalaman di klien, tanpa kode.

Kami berkolaborasi dengan Hugging Face, yang telah membuat 16 node kustom baru untuk Visual Blocks. Hal ini menghadirkan Transformers.js dan ekosistem Hugging Face yang lebih luas ke Visual Blocks.

Delapan node baru ini sepenuhnya berjalan di sisi klien, dengan AI Web, termasuk:

Selain itu, ada tujuh tugas ML sisi server dari Hugging Face yang memungkinkan Anda menjalankan ribuan model dengan API di Visual Blocks. Lihat koleksi Blok Visual Hugging Face.

Menggunakan JavaScript untuk AI Web dalam skala besar dengan Chrome

Pada instance sebelumnya, seperti dengan Gemma, model dimuat dan dijalankan dalam halaman web itu sendiri. Chrome sedang mengembangkan AI bawaan di perangkat, tempat Anda dapat mengakses model dengan API JavaScript standar khusus tugas.

Bukan itu saja. Chrome juga telah mengupdate WebGPU dengan dukungan untuk nilai floating point 16 bit.

WebAssembly memiliki proposal baru, Memory64, untuk mendukung indeks memori 64-bit, yang akan memungkinkan Anda memuat model AI yang lebih besar dari sebelumnya.

Mulai menguji model AI Web dengan Chrome headless

Sekarang Anda dapat menguji AI sisi klien (atau aplikasi apa pun yang memerlukan dukungan WebGL atau WebGPU) menggunakan Headless Chrome, sekaligus menggunakan GPU sisi server untuk akselerasi seperti NVIDIA T4 atau P100. Pelajari lebih lanjut:

Ingat, saat Anda membagikan hasil karya Anda, tambahkan #WebAI agar komunitas yang lebih luas dapat melihat karya Anda. Bagikan temuan dan saran Anda di X, LinkedIn, atau platform sosial yang Anda sukai.