เริ่มต้นใช้งาน AI ในตัว

Alexandra Klepper
Alexandra Klepper

Published: December 12, 2024, Last updated: May 20, 2025

AI API ในตัวช่วยให้เว็บแอปพลิเคชันทำงานที่ขับเคลื่อนด้วย AI ได้โดยไม่จำเป็นต้องติดตั้งใช้งานหรือจัดการโมเดล AI ของตัวเอง เรากำลังดำเนินการเพื่อ กำหนดมาตรฐาน API เหล่านี้ในเบราว์เซอร์ต่างๆ

ข้อกำหนด

การใช้ AI ในตัวมีข้อกำหนดเกี่ยวกับโมเดลและฮาร์ดแวร์

โมเดล

API ของ Translator และ Language Detector ใช้โมเดลผู้เชี่ยวชาญ ส่วน API อื่นๆ ทั้งหมดใช้โมเดลภาษาที่ออกแบบมาให้ทำงานในเครื่องบนเดสก์ท็อปและแล็ปท็อป

Summarizer API, Writer API, Rewriter API และ Proofreader API รองรับเฉพาะรูปแบบข้อความเป็นข้อความ ส่วน Prompt API มีความสามารถในสื่อหลากรูปแบบ

Gemini Nano ใน Chrome

Chrome ใช้โมเดลภาษา Gemini Nano Gemini Nano ไม่พร้อมให้บริการในอุปกรณ์เคลื่อนที่

ตั้งแต่ Chrome 149 เป็นต้นไป Gemini Nano รองรับภาษาอังกฤษ สเปน ญี่ปุ่น เยอรมัน และฝรั่งเศสสำหรับข้อความอินพุตและเอาต์พุต

ฮาร์ดแวร์

นักพัฒนาแอปและผู้ใช้ที่ใช้ฟีเจอร์โดยใช้ API เหล่านี้ใน Chrome ต้องมีคุณสมบัติตามข้อกำหนดต่อไปนี้ เบราว์เซอร์อื่นๆ อาจมีข้อกำหนดในการทำงานที่แตกต่างกัน

API ของ Language Detector และ Translator ทำงานใน Chrome บน เดสก์ท็อป แต่ API เหล่านี้ไม่ทำงานในอุปกรณ์เคลื่อนที่

API ของ Prompt, Summarizer API, Writer API, Rewriter API และ Proofreader API ทำงานใน Chrome เมื่อเป็นไปตามเงื่อนไขต่อไปนี้

  • ระบบปฏิบัติการ: Windows 10 หรือ 11, macOS 13 ขึ้นไป (Ventura ขึ้นไป), Linux หรือ ChromeOS (ตั้งแต่แพลตฟอร์ม 16389.0.0 ขึ้นไป) ใน อุปกรณ์ Chromebook Plus API ที่ใช้ Gemini Nano ยังไม่รองรับ Chrome สำหรับ Android, iOS และ ChromeOS ในอุปกรณ์ที่ไม่ใช่ Chromebook Plus
  • พื้นที่เก็บข้อมูล: มีพื้นที่ว่างอย่างน้อย 22 GB ในโวลุ่มที่มีโปรไฟล์ Chrome
  • GPU หรือ CPU: โมเดลในตัวสามารถทำงานร่วมกับ GPU หรือ CPU ได้
    • GPU: VRAM มากกว่า 4 GB
    • CPU: RAM 16 GB ขึ้นไปและคอร์ CPU 4 คอร์ขึ้นไป
    • หมายเหตุ: Prompt API ที่มีอินพุตเสียงต้องใช้ GPU
  • เครือข่าย: อินเทอร์เน็ตแบบไม่จำกัดหรือการเชื่อมต่อแบบไม่จำกัดปริมาณข้อมูล

ขนาดที่แน่นอนของ Gemini Nano อาจแตกต่างกันไปเมื่อเบราว์เซอร์อัปเดตโมเดล หากต้องการทราบขนาดปัจจุบัน ให้ไปที่ chrome://on-device-internals

เริ่มสร้าง

มี AI API ในตัวหลายรายการที่พร้อมใช้งานในขั้นตอนการพัฒนาต่างๆ บางรายการอยู่ใน Chrome เวอร์ชันเสถียร บางรายการพร้อมให้บริการแก่ ผู้เข้าร่วมการทดลองใช้จากต้นทาง และบางรายการพร้อมให้บริการแก่ ผู้เข้าร่วมโปรแกรมทดลองใช้ก่อนเปิดตัวเท่านั้น

API แต่ละรายการมีชุดวิธีการของตัวเองเพื่อเริ่มต้นใช้งานและดาวน์โหลดโมเดล ทั้งสำหรับการสร้างต้นแบบในเครื่องและในสภาพแวดล้อมการใช้งานจริงด้วยการทดลองใช้จากต้นทาง

คุณสามารถใช้ API เหล่านี้ทั้งหมดเมื่อสร้างส่วนขยาย Chrome

การดาวน์โหลดโมเดล

API และโมเดลจะฝังอยู่ใน Chrome เมื่อผู้ใช้โต้ตอบกับ API เหล่านี้เป็นครั้งแรก ระบบจะต้องดาวน์โหลดโมเดลลงในเบราว์เซอร์

หากต้องการตรวจสอบว่า API พร้อมใช้งานหรือไม่ ให้เรียกใช้ฟังก์ชัน availability() แบบไม่พร้อมกัน ซึ่งจะแสดงผล Promise ที่มีค่าใดค่าหนึ่งต่อไปนี้

  • "unavailable": อุปกรณ์ของผู้ใช้หรือตัวเลือกเซสชันที่ขอไม่ได้รับการรองรับ อุปกรณ์อาจมีพลังงานหรือพื้นที่ในดิสก์ไม่เพียงพอ
  • "downloadable": ต้องดาวน์โหลดเพิ่มเติมเพื่อสร้างเซสชัน ซึ่ง อาจรวมถึงโมเดลผู้เชี่ยวชาญ โมเดลภาษา หรือการปรับแต่ง การเปิดใช้งานผู้ใช้ อาจจำเป็นต้องใช้เพื่อเรียกใช้ create()
  • "downloading": การดาวน์โหลดกำลังดำเนินการอยู่และต้องเสร็จสมบูรณ์ก่อนจึงจะใช้ เซสชันได้
  • "available": คุณสามารถสร้างเซสชันได้ทันที

API บางรายการต้องมีตัวเลือกเพิ่มเติมเมื่อเรียกใช้ความพร้อมใช้งาน เช่น Prompt API ต้องประกาศการรองรับภาษาดังนี้

// Makes sure the model is available for English and Japanese.
await LanguageModel.availability({ languages: ["en", "ja"] });

การเปิดใช้งานผู้ใช้

หากอุปกรณ์รองรับ AI API ในตัว แต่ยังไม่ได้ดาวน์โหลดโมเดล ผู้ใช้ต้องโต้ตอบกับหน้าเว็บของคุณอย่างมีความหมายเพื่อให้แอปพลิเคชันเริ่มเซสชันด้วย create()

ใช้ UserActivation.isActive พร็อพเพอร์ตี้ เพื่อยืนยันว่าผู้ใช้โต้ตอบกับหน้าเว็บโดยตรงตั้งแต่หน้าเว็บ โหลดเสร็จแล้ว ซึ่งอาจรวมถึงการแตะ การคลิก การกดแป้น mousedown หรือ เหตุการณ์การเปิดใช้งานแบบติดหนึบอื่นๆ

// Check for user activation.
if (navigator.userActivation.isActive) {
  // Create an instance of a built-in API
}

ตัวอย่างเช่น สำหรับ Summarizer API คุณอาจ ขอให้ผู้ใช้โต้ตอบกับปุ่มที่ระบุว่า "สรุป" เพื่อเปิดใช้งาน Summarizer.create() หรือคุณสามารถสร้างตัวสรุปเมื่อผู้ใช้เริ่ม พิมพ์ ซึ่งเป็นเหตุการณ์ keydown

ใช้ API ใน localhost

API ทั้งหมดพร้อมใช้งานใน localhost ใน Chrome

  1. ไปที่ chrome://flags/#optimization-guide-on-device-model
  2. เลือกเปิดใช้
  3. คลิกเปิดใหม่ หรือรีสตาร์ท Chrome

สำหรับ API ที่ใช้ Gemini Nano คุณต้องตั้งค่า chrome://flags/#prompt-api-for-gemini-nano เป็นเปิดใช้ หรือเปิดใช้หลายภาษา ด้วย คุณสามารถยืนยันว่าโมเดลดาวน์โหลดแล้วและทำงาน ตามที่ต้องการในคอนโซลเครื่องมือสำหรับนักพัฒนาเว็บ โดยเรียกใช้ await LanguageModel.availability(); ในคอนโซล

แก้ปัญหา localhost

หากไม่เห็นแฟล็กใน chrome://flags ให้ตรวจสอบว่าคุณได้ดาวน์โหลด Chrome เวอร์ชันล่าสุดแล้ว

หากโมเดลไม่ทำงานตามที่คาดไว้ ให้ทำตามขั้นตอนต่อไปนี้

  1. รีสตาร์ท Chrome
  2. ไปที่ chrome://on-device-internals
  3. เลือกแท็บสถานะโมเดล และตรวจสอบว่าไม่มีข้อผิดพลาด
  4. เปิดเครื่องมือสำหรับนักพัฒนาเว็บแล้วพิมพ์ LanguageModel.availability(); ลงในคอนโซล ซึ่งควรแสดงผล available

หากจำเป็น ให้รอสักครู่แล้วทำตามขั้นตอนเหล่านี้อีกครั้ง

กระบวนการมาตรฐาน

เรากำลังดำเนินการเพื่อกำหนดมาตรฐาน API เหล่านี้ เพื่อให้ทำงานได้ในทุกเบราว์เซอร์ ซึ่งหมายความว่าเราได้เสนอ API ให้กับ ชุมชนแพลตฟอร์มเว็บ และย้าย API ไปยัง W3C Web Incubator Community Group เพื่อหารือเพิ่มเติม

เรากำลังขอความคิดเห็นจาก W3C, Mozilla และ WebKit สำหรับ API แต่ละรายการ

มีส่วนร่วมและแชร์ความคิดเห็น

หากคุณลองใช้ AI ในตัวและมีความคิดเห็น โปรดแจ้งให้เราทราบ