פורסם: 21 באוקטובר 2025
יכולות ה-AI המובנות שמבוססות על Gemini Nano נועדו להיות חלקות גם למשתמשים וגם למפתחים. כשמשתמשים בממשק API מובנה של AI, ניהול המודלים מתבצע אוטומטית ברקע. במאמר הזה מוסבר איך Chrome מטפל בהורדות, בעדכונים ובמחיקות של מודל Gemini Nano.
הורדה ראשונית של המודל
כשמשתמש מוריד או מעדכן את Chrome, Gemini Nano מוריד לפי דרישה כדי לוודא ש-Chrome מוריד את המודל הנכון לחומרה של המשתמש.
ההורדה הראשונית של המודל מופעלת על ידי הקריאה הראשונה לפונקציה *.create()
(לדוגמה, Summarizer.create()
) של כל API מבוסס-AI מובנה שתלוי ב-Gemini Nano. במקרה כזה, Chrome מריץ סדרה של בדיקות כדי לקבוע את דרך הפעולה הטובה ביותר.
קודם, Chrome מעריך את ביצועי ה-GPU של המכשיר על ידי הפעלת shader מייצג. על סמך התוצאות האלה, המערכת מחליטה אם:
- הורדה של וריאציה גדולה יותר ומשוכללת יותר של Gemini Nano (למשל, פרמטרים של 4B).
- הורדה של וריאנט קטן ויעיל יותר של Gemini Nano (כמו 2B פרמטרים).
- אם המכשיר עומד בדרישות סטטיות נפרדות, המערכת תעבור להסקת מסקנות מבוססת-CPU. אם המכשיר לא עומד בדרישות החומרה, הדגם לא יורד.
תהליך ההורדה בנוי כך שיהיה עמיד:
- אם החיבור לאינטרנט מופסק, ההורדה ממשיכה מהמקום שבו היא נעצרה ברגע שהחיבור מתחדש.
- אם סוגרים את הכרטיסייה שהפעילה את ההורדה, ההורדה ממשיכה ברקע.
- אם הדפדפן נסגר, ההורדה תתחדש בהפעלה הבאה, בתנאי שהדפדפן ייפתח תוך 30 יום.
לפעמים, התקשרות אל availability()
מפעילה את הורדת המודל. המצב הזה קורה אם השיחה מתבצעת זמן קצר אחרי הפעלה של פרופיל משתמש חדש, ואם התכונה זיהוי תרמיות שמבוסס על Gemini Nano פעילה.
הורדה של משקלי LoRA
חלק מממשקי ה-API, כמו Proofreader API, מסתמכים על משקלים של Low-Rank Adaptation (LoRA) שמוחלים על מודל הבסיס כדי להתאים את הפונקציה שלו. אם ה-API תלוי ב-LoRA, המשקלים של LoRA יורדים יחד עם מודל הבסיס. משקלים של LoRA עבור ממשקי API אחרים לא מורדים באופן יזום.
עדכונים אוטומטיים של מודלים
אנחנו מפרסמים עדכונים למודל Gemini Nano באופן קבוע. Chrome בודק אם יש עדכונים כאלה כשהדפדפן מופעל. בנוסף, Chrome בודק מדי יום אם יש עדכונים למקורות משלימים, כמו משקלים של LoRA. אי אפשר לשלוח שאילתה לגבי גרסת המודל מ-JavaScript באופן פרוגרמטי, אבל אפשר לבדוק באופן ידני איזו גרסה מותקנת ב-chrome://on-device-internals
.
תהליך העדכון נועד להיות חלק וללא הפרעות:
- Chrome ימשיך לפעול עם המודל הנוכחי בזמן ההורדה של הגרסה החדשה ברקע.
- אחרי שמורידים את המודל המעודכן, מתבצעת החלפה בזמן אמת, כלומר המודלים מוחלפים ללא השבתה. כל קריאה חדשה ל-AI API תשתמש מיד במודל החדש. הערה: יכול להיות שהנחיה שמופעלת בדיוק ברגע ההחלפה תיכשל.
- כל עדכון הוא הורדה מלאה של מודל חדש, ולא הורדה חלקית. הסיבה לכך היא שהמשקלים של המודלים יכולים להיות שונים באופן משמעותי בין הגרסאות, והחישוב וההחלה של דלתאות בקבצים גדולים כאלה יכולים להיות איטיים.
העדכונים כפופים לאותן דרישות כמו ההורדה הראשונית. עם זאת, אם מודל כבר מותקן, לא מתבצעת בדיקה ראשונית של המקום בדיסק. אפשר גם לעדכן את משקלי LoRA. אפשר להחיל גרסה חדשה של משקלי LoRA על מודל בסיס קיים. עם זאת, גרסה חדשה של מודל בסיסי תמיד דורשת קבוצה חדשה של משקלי LoRA.
מחיקת מודל
Chrome מנהל באופן פעיל את נפח האחסון בדיסק כדי לוודא שלא ייגמר למשתמש. מודל Gemini Nano נמחק באופן אוטומטי אם נפח האחסון הפנוי במכשיר יורד מתחת לסף מסוים. בנוסף, המודל נמחק אם מדיניות ארגונית משביתה את התכונה, או אם משתמש לא עומד בקריטריונים אחרים לזכאות במשך 30 ימים. הזכאות עשויה לכלול שימוש ב-API ויכולות המכשיר. תהליך ההסרה מאופיין במאפיינים הבאים:
- אפשר למחוק את המודל בכל שלב, גם באמצע סשן, בלי קשר להנחיות שמופעלות. כלומר, יכול להיות ש-API שהיה זמין בתחילת הסשן כבר לא יהיה זמין בהמשך.
- אחרי שהמודל נמחק, הוא לא יורד מחדש באופן אוטומטי. הורדה חדשה צריכה להיות מופעלת על ידי אפליקציה שקוראת לפונקציה
*.create()
. - כשמודל הבסיס נמחק, גם משקלי LoRA שקשורים אליו נמחקים אחרי תקופת חסד של 30 יום.
התפקיד שלכם בניהול מודלים
כדי לספק חוויית משתמש טובה, חשוב להבין את מחזור החיים של מודל ה-AI המובנה. ההורדה של המודל היא לא חד-פעמית, צריך גם להיות מודעים לאפשרות שהמודל ייעלם שוב באופן פתאומי בגלל לחץ על שטח הדיסק, או שהמודל יתעדכן כשגרסה חדשה תצא. הדפדפן מטפל בכל זה.
אם תפעלו לפי השיטות המומלצות להורדת המודל, תוכלו ליצור חוויית משתמש טובה בהורדה הראשונית, בהורדות חוזרות ובעדכונים.