Published: December 12, 2024, Last updated: May 20, 2025
AI API ในตัวช่วยให้เว็บแอปพลิเคชันทำงานที่ขับเคลื่อนด้วย AI ได้โดยไม่จำเป็นต้องติดตั้งใช้งานหรือจัดการโมเดล AI ของตัวเอง เรากำลังดำเนินการเพื่อ กำหนดมาตรฐาน API เหล่านี้ในเบราว์เซอร์ต่างๆ
ข้อกำหนด
การใช้ AI ในตัวมีข้อกำหนดเกี่ยวกับโมเดลและฮาร์ดแวร์
โมเดล
API ของ Translator และ Language Detector ใช้โมเดลผู้เชี่ยวชาญ ส่วน API อื่นๆ ทั้งหมดใช้โมเดลภาษาที่ออกแบบมาให้ทำงานในเครื่องบนเดสก์ท็อปและแล็ปท็อป
Summarizer API, Writer API, Rewriter API และ Proofreader API รองรับเฉพาะรูปแบบข้อความเป็นข้อความ ส่วน Prompt API มีความสามารถในสื่อหลากรูปแบบ
Gemini Nano ใน Chrome
Chrome ใช้โมเดลภาษา Gemini Nano Gemini Nano ไม่พร้อมให้บริการในอุปกรณ์เคลื่อนที่
ตั้งแต่ Chrome 149 เป็นต้นไป Gemini Nano รองรับภาษาอังกฤษ สเปน ญี่ปุ่น เยอรมัน และฝรั่งเศสสำหรับข้อความอินพุตและเอาต์พุต
ฮาร์ดแวร์
นักพัฒนาแอปและผู้ใช้ที่ใช้ฟีเจอร์โดยใช้ API เหล่านี้ใน Chrome ต้องมีคุณสมบัติตามข้อกำหนดต่อไปนี้ เบราว์เซอร์อื่นๆ อาจมีข้อกำหนดในการทำงานที่แตกต่างกัน
API ของ Language Detector และ Translator ทำงานใน Chrome บน เดสก์ท็อป แต่ API เหล่านี้ไม่ทำงานในอุปกรณ์เคลื่อนที่
API ของ Prompt, Summarizer API, Writer API, Rewriter API และ Proofreader API ทำงานใน Chrome เมื่อเป็นไปตามเงื่อนไขต่อไปนี้
- ระบบปฏิบัติการ: Windows 10 หรือ 11, macOS 13 ขึ้นไป (Ventura ขึ้นไป), Linux หรือ ChromeOS (ตั้งแต่แพลตฟอร์ม 16389.0.0 ขึ้นไป) ใน อุปกรณ์ Chromebook Plus API ที่ใช้ Gemini Nano ยังไม่รองรับ Chrome สำหรับ Android, iOS และ ChromeOS ในอุปกรณ์ที่ไม่ใช่ Chromebook Plus
- พื้นที่เก็บข้อมูล: มีพื้นที่ว่างอย่างน้อย 22 GB ในโวลุ่มที่มีโปรไฟล์ Chrome
- GPU หรือ CPU: โมเดลในตัวสามารถทำงานร่วมกับ GPU หรือ CPU ได้
- GPU: VRAM มากกว่า 4 GB
- CPU: RAM 16 GB ขึ้นไปและคอร์ CPU 4 คอร์ขึ้นไป
- หมายเหตุ: Prompt API ที่มีอินพุตเสียงต้องใช้ GPU
- เครือข่าย: อินเทอร์เน็ตแบบไม่จำกัดหรือการเชื่อมต่อแบบไม่จำกัดปริมาณข้อมูล การเชื่อมต่อ Wi-Fi และอีเทอร์เน็ตมักจะเป็นแบบไม่มีการวัดปริมาณอินเทอร์เน็ต โดยค่าเริ่มต้น ในขณะที่การเชื่อมต่อเครือข่ายมือถือมักจะเป็นแบบจำกัดปริมาณ
ขนาดที่แน่นอนของ Gemini Nano อาจแตกต่างกันไปเมื่อเบราว์เซอร์อัปเดตโมเดล หากต้องการทราบขนาดปัจจุบัน ให้ไปที่ chrome://on-device-internals
เริ่มสร้าง
มี AI API ในตัวหลายรายการที่พร้อมใช้งานในขั้นตอนการพัฒนาต่างๆ บางรายการอยู่ใน Chrome เวอร์ชันเสถียร บางรายการพร้อมให้บริการแก่ ผู้เข้าร่วมการทดลองใช้จากต้นทาง และบางรายการพร้อมให้บริการแก่ ผู้เข้าร่วมโปรแกรมทดลองใช้ก่อนเปิดตัวเท่านั้น
API แต่ละรายการมีชุดวิธีการของตัวเองเพื่อเริ่มต้นใช้งานและดาวน์โหลดโมเดล ทั้งสำหรับการสร้างต้นแบบในเครื่องและในสภาพแวดล้อมการใช้งานจริงด้วยการทดลองใช้จากต้นทาง
- Translator API
- Language Detector API
- Summarizer API
- Writer API และ Rewriter API
- Proofreader API
- Prompt API
คุณสามารถใช้ API เหล่านี้ทั้งหมดเมื่อสร้างส่วนขยาย Chrome
การดาวน์โหลดโมเดล
API และโมเดลจะฝังอยู่ใน Chrome เมื่อผู้ใช้โต้ตอบกับ API เหล่านี้เป็นครั้งแรก ระบบจะต้องดาวน์โหลดโมเดลลงในเบราว์เซอร์
หากต้องการตรวจสอบว่า API พร้อมใช้งานหรือไม่ ให้เรียกใช้ฟังก์ชัน availability() แบบไม่พร้อมกัน ซึ่งจะแสดงผล Promise ที่มีค่าใดค่าหนึ่งต่อไปนี้
"unavailable": อุปกรณ์ของผู้ใช้หรือตัวเลือกเซสชันที่ขอไม่ได้รับการรองรับ อุปกรณ์อาจมีพลังงานหรือพื้นที่ในดิสก์ไม่เพียงพอ"downloadable": ต้องดาวน์โหลดเพิ่มเติมเพื่อสร้างเซสชัน ซึ่ง อาจรวมถึงโมเดลผู้เชี่ยวชาญ โมเดลภาษา หรือการปรับแต่ง การเปิดใช้งานผู้ใช้ อาจจำเป็นต้องใช้เพื่อเรียกใช้create()"downloading": การดาวน์โหลดกำลังดำเนินการอยู่และต้องเสร็จสมบูรณ์ก่อนจึงจะใช้ เซสชันได้"available": คุณสามารถสร้างเซสชันได้ทันที
API บางรายการต้องมีตัวเลือกเพิ่มเติมเมื่อเรียกใช้ความพร้อมใช้งาน เช่น Prompt API ต้องประกาศการรองรับภาษาดังนี้
// Makes sure the model is available for English and Japanese.
await LanguageModel.availability({ languages: ["en", "ja"] });
การเปิดใช้งานผู้ใช้
หากอุปกรณ์รองรับ AI API ในตัว แต่ยังไม่ได้ดาวน์โหลดโมเดล ผู้ใช้ต้องโต้ตอบกับหน้าเว็บของคุณอย่างมีความหมายเพื่อให้แอปพลิเคชันเริ่มเซสชันด้วย create()
ใช้ UserActivation.isActive
พร็อพเพอร์ตี้ เพื่อยืนยันว่าผู้ใช้โต้ตอบกับหน้าเว็บโดยตรงตั้งแต่หน้าเว็บ
โหลดเสร็จแล้ว ซึ่งอาจรวมถึงการแตะ การคลิก การกดแป้น mousedown หรือ
เหตุการณ์การเปิดใช้งานแบบติดหนึบอื่นๆ
// Check for user activation.
if (navigator.userActivation.isActive) {
// Create an instance of a built-in API
}
ตัวอย่างเช่น สำหรับ Summarizer API คุณอาจ
ขอให้ผู้ใช้โต้ตอบกับปุ่มที่ระบุว่า "สรุป" เพื่อเปิดใช้งาน
Summarizer.create() หรือคุณสามารถสร้างตัวสรุปเมื่อผู้ใช้เริ่ม
พิมพ์ ซึ่งเป็นเหตุการณ์ keydown
ใช้ API ใน localhost
API ทั้งหมดพร้อมใช้งานใน localhost ใน Chrome
- ไปที่
chrome://flags/#optimization-guide-on-device-model - เลือกเปิดใช้
- คลิกเปิดใหม่ หรือรีสตาร์ท Chrome
สำหรับ API ที่ใช้ Gemini Nano คุณต้องตั้งค่า chrome://flags/#prompt-api-for-gemini-nano เป็นเปิดใช้ หรือเปิดใช้หลายภาษา ด้วย คุณสามารถยืนยันว่าโมเดลดาวน์โหลดแล้วและทำงาน
ตามที่ต้องการในคอนโซลเครื่องมือสำหรับนักพัฒนาเว็บ
โดยเรียกใช้ await LanguageModel.availability(); ในคอนโซล
แก้ปัญหา localhost
หากไม่เห็นแฟล็กใน chrome://flags ให้ตรวจสอบว่าคุณได้ดาวน์โหลด
Chrome เวอร์ชันล่าสุดแล้ว
หากโมเดลไม่ทำงานตามที่คาดไว้ ให้ทำตามขั้นตอนต่อไปนี้
- รีสตาร์ท Chrome
- ไปที่
chrome://on-device-internals - เลือกแท็บสถานะโมเดล และตรวจสอบว่าไม่มีข้อผิดพลาด
- เปิดเครื่องมือสำหรับนักพัฒนาเว็บแล้วพิมพ์
LanguageModel.availability();ลงในคอนโซล ซึ่งควรแสดงผลavailable
หากจำเป็น ให้รอสักครู่แล้วทำตามขั้นตอนเหล่านี้อีกครั้ง
กระบวนการมาตรฐาน
เรากำลังดำเนินการเพื่อกำหนดมาตรฐาน API เหล่านี้ เพื่อให้ทำงานได้ในทุกเบราว์เซอร์ ซึ่งหมายความว่าเราได้เสนอ API ให้กับ ชุมชนแพลตฟอร์มเว็บ และย้าย API ไปยัง W3C Web Incubator Community Group เพื่อหารือเพิ่มเติม
เรากำลังขอความคิดเห็นจาก W3C, Mozilla และ WebKit สำหรับ API แต่ละรายการ
มีส่วนร่วมและแชร์ความคิดเห็น
หากคุณลองใช้ AI ในตัวและมีความคิดเห็น โปรดแจ้งให้เราทราบ
- ดู AI API ในตัวทั้งหมด
- เข้าร่วมโปรแกรมทดลองใช้ก่อนเปิดตัว เพื่อดู API ใหม่ก่อนใครและรับสิทธิ์เข้าถึงรายชื่ออีเมลของเรา
- หากมีความคิดเห็นเกี่ยวกับการติดตั้งใช้งานของ Chrome โปรดรายงานข้อบกพร่อง Chromium
- ดูข้อมูลเกี่ยวกับมาตรฐานเว็บ