หลายสิ่งหลายอย่างใน AI บนเว็บมีการเปลี่ยนแปลงในช่วงปีที่ผ่านมา เผื่อคุณพลาดไป เราได้พูดคุย ในงาน I/O 2024 เกี่ยวกับโมเดล เครื่องมือ และ API ใหม่สำหรับเว็บแอปต่อไปของคุณ
AI บนเว็บคือชุดเทคโนโลยีและเทคนิคในการใช้โมเดลแมชชีนเลิร์นนิง (ML) ซึ่งเป็นฝั่งไคลเอ็นต์ในเว็บเบราว์เซอร์ที่ทำงานบน CPU หรือ GPU ของอุปกรณ์ ซึ่งสร้างด้วย JavaScript และเทคโนโลยีเว็บอื่นๆ เช่น WebAssembly และ WebGPU ซึ่งต่างจาก AI ฝั่งเซิร์ฟเวอร์หรือ "Cloud AI" ที่โมเดลจะปฏิบัติการบนเซิร์ฟเวอร์และเข้าถึงด้วย API
ในการพูดคุยนี้ เราได้แชร์เรื่องต่อไปนี้
- วิธีเรียกใช้โมเดลภาษาขนาดใหญ่ (LLM) ใหม่ของเราในเบราว์เซอร์และผลของการเรียกใช้โมเดลฝั่งไคลเอ็นต์
- การมองอนาคตของ Visual Blocks เพื่อสร้างต้นแบบให้เร็วขึ้น
- และวิธีที่นักพัฒนาเว็บสามารถใช้ JavaScript ใน Chrome เพื่อทำงานกับ AI บนเว็บจำนวนมาก
LLM ในเบราว์เซอร์
Gemma Web เป็นโมเดลใหม่จาก Google แบบเปิดที่สามารถทำงานในเบราว์เซอร์บนอุปกรณ์ของผู้ใช้ สร้างขึ้นจากการวิจัยและเทคโนโลยีเดียวกันกับที่เราใช้ในการสร้าง Gemini
การนำ LLM มาไว้ในอุปกรณ์จะช่วยประหยัดค่าใช้จ่ายได้อย่างมาก เมื่อเทียบกับการเรียกใช้เซิร์ฟเวอร์ระบบคลาวด์เพื่อการอนุมาน รวมถึงมีความเป็นส่วนตัวมากขึ้นของผู้ใช้และลดเวลาในการตอบสนองได้ Generative AI ในเบราว์เซอร์ยังอยู่ในระยะเริ่มต้น แต่เนื่องจากฮาร์ดแวร์มีการปรับปรุงอย่างต่อเนื่อง (ด้วย CPU และ GPU RAM ที่สูงขึ้น) เราจึงคาดว่าจะมีรุ่นอื่นๆ เพิ่มเติมให้ใช้งาน
ธุรกิจต่างๆ สามารถปรับโฉมสิ่งที่คุณทำได้ในหน้าเว็บ โดยเฉพาะใน Use Case เฉพาะงาน ซึ่งปรับน้ำหนักของ LLM ขนาดเล็กลง (พารามิเตอร์ 2 ถึง 8 พันล้านรายการ) ให้ทำงานในฮาร์ดแวร์ของผู้บริโภคได้
Gemma 2B พร้อมให้ดาวน์โหลดใน Kaggle Models โดยอยู่ในรูปแบบที่เข้ากันได้กับ Web LLM inference API สถาปัตยกรรมที่รองรับอื่นๆ ได้แก่ Microsoft Phi-2, Falcon RW 1B และ Stable LM 3B ซึ่งคุณจะแปลงเป็นรูปแบบที่รันไทม์ใช้ได้โดยใช้ไลบรารีตัวแปลงของเรา
สร้างต้นแบบได้เร็วขึ้นด้วย Visual Blocks
เรากำลังทำงานร่วมกับ Hugging Face ที่สร้างโหนดที่กำหนดเองใหม่ 16 โหนดสำหรับ Visual Blocks ซึ่งจะนำ Transformers.js และระบบนิเวศ Hugging Face มาใช้กับ Visual Blocks ที่กว้างกว่า
โหนดใหม่ 8 โหนดเหล่านี้จะทำงานฝั่งไคลเอ็นต์ทั้งหมดโดยใช้ Web AI ดังนี้
- การแบ่งกลุ่มรูปภาพ
- คำแปล
- การจำแนกประเภทโทเค็น
- การตรวจจับออบเจ็กต์
- การจัดประเภทข้อความ
- การนำพื้นหลังออก
- การประมาณความลึก
นอกจากนี้ ยังมีงาน ML ฝั่งเซิร์ฟเวอร์ 7 งานจาก Hugging Face ที่ให้คุณเรียกใช้โมเดลหลายพันโมเดลด้วย API ใน Visual Blocks ดู คอลเล็กชันภาพการกอดใบหน้า
ใช้ JavaScript สำหรับ AI บนเว็บในวงกว้างด้วย Chrome
ในอินสแตนซ์ก่อนหน้านี้ เช่น ด้วย Gemma โมเดลจะโหลดและเรียกใช้ภายในหน้าเว็บเอง Chrome กําลังพัฒนา AI ในตัวในอุปกรณ์ ซึ่งคุณเข้าถึงโมเดลที่มี JavaScript API มาตรฐานเฉพาะงานได้
แต่ยังไม่หมดเพียงเท่านี้ นอกจากนี้ Chrome ยังได้อัปเดต WebGPU ด้วยการรองรับค่าจุดลอยตัว 16 บิต
WebAssembly มีข้อเสนอใหม่ชื่อ Memory64 เพื่อรองรับดัชนีหน่วยความจำ 64 บิต ซึ่งช่วยให้คุณโหลดโมเดล AI ที่มีขนาดใหญ่ขึ้นได้
เริ่มทดสอบโมเดล AI ของเว็บโดยใช้ Chrome แบบไม่มีส่วนหัว
ตอนนี้คุณสามารถทดสอบ AI ฝั่งไคลเอ็นต์ (หรือแอปพลิเคชันใดก็ตามที่ต้องใช้การรองรับ WebGL หรือ WebGPU) โดยใช้ Chrome แบบ Headless ได้แล้ว ในขณะเดียวกันก็ใช้ GPU ฝั่งเซิร์ฟเวอร์เพื่อเร่งการทำงาน เช่น NVIDIA T4 หรือ P100 ดูข้อมูลเพิ่มเติม
อย่าลืมว่าเมื่อคุณแชร์สิ่งที่สร้างสรรค์ ให้เพิ่ม #WebAI เพื่อให้ชุมชนในวงกว้าง ได้เห็นผลงานของคุณ แชร์สิ่งที่คุณค้นพบและคำแนะนำบน X, LinkedIn หรือแพลตฟอร์มโซเชียลที่คุณชอบ