เว็บ AI มีการเปลี่ยนแปลงมากมายในช่วงปีที่ผ่านมา ในกรณีที่คุณพลาดไป เราได้มีการพูดคุยเกี่ยวกับโมเดล เครื่องมือ และ API ใหม่ๆ สําหรับเว็บแอปถัดไปของคุณในงาน I/O 2024
AI บนเว็บคือชุดเทคโนโลยีและเทคนิคในการใช้โมเดลแมชชีนเลิร์นนิง (ML) ฝั่งไคลเอ็นต์ในเว็บเบราว์เซอร์ที่ทำงานบน CPU หรือ GPU ของอุปกรณ์ ซึ่งสามารถสร้างด้วย JavaScript และเทคโนโลยีเว็บอื่นๆ เช่น WebAssembly และ WebGPU ซึ่งแตกต่างจาก AI ฝั่งเซิร์ฟเวอร์หรือ "AI บนระบบคลาวด์" ที่โมเดลจะทำงานบนเซิร์ฟเวอร์และเข้าถึงด้วย API
เราได้แชร์ข้อมูลต่อไปนี้ในการพูดคุยครั้งนี้
- วิธีเรียกใช้โมเดลภาษาขนาดใหญ่ (LLM) ใหม่ในเบราว์เซอร์และผลกระทบของการใช้โมเดลฝั่งไคลเอ็นต์
- ข้อมูลอัปเดตเกี่ยวกับบล็อกภาพเพื่อพัฒนาต้นแบบได้เร็วขึ้น
- และวิธีที่นักพัฒนาเว็บสามารถใช้ JavaScript ใน Chrome เพื่อทํางานร่วมกับ Web AI ได้ในวงกว้าง
LLM ในเบราว์เซอร์
Gemma Web เป็นโมเดลแบบเปิดใหม่จาก Google ที่ทำงานในเบราว์เซอร์บนอุปกรณ์ของผู้ใช้ ซึ่งสร้างขึ้นจากงานวิจัยและเทคโนโลยีเดียวกับที่เราใช้สร้าง Gemini
การใช้ LLM ในอุปกรณ์ช่วยให้คุณประหยัดค่าใช้จ่ายได้อย่างมากเมื่อเทียบกับการเรียกใช้บนเซิร์ฟเวอร์ระบบคลาวด์สําหรับการอนุมาน ทั้งยังช่วยเพิ่มความเป็นส่วนตัวของผู้ใช้และลดเวลาในการตอบสนอง Generative AI ในเบราว์เซอร์ยังอยู่ในช่วงเริ่มต้น แต่เราคาดว่าจะมีโมเดลอื่นๆ เพิ่มเข้ามาเรื่อยๆ เนื่องจากฮาร์ดแวร์ได้รับการปรับปรุงอย่างต่อเนื่อง (ด้วย CPU และ RAM ของ GPU ที่สูงขึ้น)
ธุรกิจสามารถจินตนาการใหม่เกี่ยวกับสิ่งที่คุณทําได้ในหน้าเว็บ โดยเฉพาะสําหรับกรณีการใช้งานเฉพาะงาน ซึ่งสามารถปรับน้ำหนักของ LLM ขนาดเล็ก (พารามิเตอร์ 2-8 พันล้านรายการ) ให้ทํางานบนฮาร์ดแวร์ของผู้บริโภคได้
Gemma 2B พร้อมให้ดาวน์โหลดใน Kaggle Models และมีรูปแบบที่เข้ากันได้กับ Web LLM inference API สถาปัตยกรรมอื่นๆ ที่รองรับ ได้แก่ Microsoft Phi-2, Falcon RW 1B และ Stable LM 3B ซึ่งคุณสามารถแปลงเป็นรูปแบบที่รันไทม์ใช้ได้โดยใช้ไลบรารีตัวแปลง
สร้างโปรโตไทป์ได้เร็วขึ้นด้วย Visual Block
เรากำลังร่วมมือกับ Hugging Face ซึ่งได้สร้างโหนดที่กำหนดเองใหม่ 16 รายการสำหรับบล็อกภาพ ซึ่งจะนํา Transformers.js และระบบนิเวศ Hugging Face ที่กว้างขึ้นมาสู่บล็อกภาพ
โหนดใหม่ 8 รายการนี้ทำงานทั้งหมดฝั่งไคลเอ็นต์ด้วย Web AI ซึ่งได้แก่
- การแบ่งกลุ่มรูปภาพ
- คำแปล
- การจัดประเภทโทเค็น
- การตรวจจับวัตถุ
- การจัดประเภทข้อความ
- การนำพื้นหลังออก
- การประมาณความลึก
นอกจากนี้ ยังมีงาน ML ฝั่งเซิร์ฟเวอร์ 7 รายการจาก Hugging Face ที่ช่วยให้คุณเรียกใช้โมเดลหลายพันรายการด้วย API ในบล็อกภาพ ดูคอลเล็กชันบล็อกภาพใบหน้าที่กอดกัน
ใช้ JavaScript สําหรับ AI บนเว็บในวงกว้างด้วย Chrome
ในอินสแตนซ์ก่อนหน้านี้ เช่น Gemma ระบบจะโหลดและเรียกใช้โมเดลภายในหน้าเว็บ Chrome กำลังพัฒนาAI ในอุปกรณ์ในตัว ซึ่งคุณจะเข้าถึงโมเดลได้ด้วย JavaScript API มาตรฐานสำหรับงานเฉพาะ
แต่ยังไม่หมดเพียงเท่านี้ Chrome ได้อัปเดต WebGPU ให้รองรับค่าทศนิยม 16 บิตด้วย
WebAssembly มีข้อเสนอใหม่ชื่อ Memory64 เพื่อรองรับดัชนีหน่วยความจำ 64 บิต ซึ่งจะช่วยให้คุณโหลดโมเดล AI ได้ขนาดใหญ่ขึ้นกว่าที่เคย
เริ่มทดสอบโมเดล Web AI ด้วย Chrome แบบ Headless
ตอนนี้คุณสามารถทดสอบ AI ฝั่งไคลเอ็นต์ (หรือแอปพลิเคชันใดๆ ที่ต้องรองรับ WebGL หรือ WebGPU) โดยใช้ Chrome แบบ Headless ขณะใช้ประโยชน์จาก GPU ฝั่งเซิร์ฟเวอร์เพื่อเร่งความเร็ว เช่น NVIDIA T4 หรือ P100 ดูข้อมูลเพิ่มเติม
อย่าลืมใส่แฮชแท็ก #WebAI เมื่อแชร์ผลงานของคุณเพื่อให้ชุมชนวงกว้างได้เห็น แชร์สิ่งที่ค้นพบและคำแนะนำใน X, LinkedIn หรือแพลตฟอร์มโซเชียลที่ต้องการ