מה חדש ב-WebGPU (Chrome {8/}120)

François Beaufort

תמיכה בערכי נקודה צפה (floating-point) של 16 ביט ב-WGSL

ב-WGSL, ‏ הסוג f16 הוא קבוצת הערכים של נקודה צפה בגודל 16 ביט בפורמט binary16 (חצי דיוק) של IEEE-754. המשמעות היא שהיא משתמשת ב-16 ביטים כדי לייצג מספר נקודה צפה, בניגוד ל-32 ביטים עבור נקודה צפה רגילה עם דיוק יחיד (f32). הגודל הקטן יותר הזה יכול להוביל לשיפורים משמעותיים בביצועים, במיוחד כשמעבדים כמויות גדולות של נתונים.

לשם השוואה, במכשיר Apple M1 Pro, ההטמעה של f16 מודלים של Llama2 7B שנעשה בה שימוש בהדגמה של צ'אט WebLLM מהירה משמעותית מההטמעה של f32, עם שיפור של 28% במהירות המילוי המקדים ושיפור של 41% במהירות הפענוח, כפי שמוצג בצילומי המסך הבאים.

צילום מסך של הדגמות של צ'אט ב-WebLLM עם מודלים של f32 ו-f16 Llama2 7B. — הדגמות של צ'אט ב-WebLLM עם מודלים של `f32` (מימין) ו-`f16` (משמאל) Llama2 7B.

לא כל המעבדים הגרפיים תומכים בערכים של נקודה צפה (floating-point) של 16 ביט. אם התכונה "shader-f16" זמינה ב-GPUAdapter, עכשיו אפשר לבקש GPUDevice עם התכונה הזו וליצור מודול הצללה של WGSL שמנצל את סוג הנקודה הצפה בחצי דיוק f16. אפשר להשתמש בסוג הזה במודול ההצללה של WGSL רק אם מפעילים את f16 התוסף WGSL עם enable f16;. אחרת, הפונקציה createShaderModule() תיצור שגיאת אימות. אפשר לעיין בדוגמה המינימלית הבאה ובבעיה dawn:1510.

const adapter = await navigator.gpu.requestAdapter();
if (!adapter.features.has("shader-f16")) {
  throw new Error("16-bit floating-point value support is not available");
}
// Explicitly request 16-bit floating-point value support.
const device = await adapter.requestDevice({
  requiredFeatures: ["shader-f16"],
});

const code = `
  enable f16;

  @compute @workgroup_size(1)
  fn main() {
    const c : vec3h = vec3<f16>(1.0h, 2.0h, 3.0h);
  }
`;

const shaderModule = device.createShaderModule({ code });
// Create a compute pipeline with this shader module
// and run the shader on the GPU...

אפשר לתמוך גם בסוגים f16 וגם בסוגים f32 בקוד של מודול ההצללה של WGSL באמצעות alias, בהתאם לתמיכה בתכונה "shader-f16", כמו שמוצג בקטע הקוד הבא.

const adapter = await navigator.gpu.requestAdapter();
const hasShaderF16 = adapter.features.has("shader-f16");

const device = await adapter.requestDevice({
  requiredFeatures: hasShaderF16 ? ["shader-f16"] : [],
});

const header = hasShaderF16
  ? `enable f16;
     alias min16float = f16;`
  : `alias min16float = f32;`;

const code = `
  ${header}

  @compute @workgroup_size(1)
  fn main() {
    const c = vec3<min16float>(1.0, 2.0, 3.0);
  }
`;

ללכת עד הקצה

מספר הבייטים המקסימלי שנדרש כדי להכיל דגימה אחת (פיקסל או תת-פיקסל) של נתוני פלט של צינור העיבוד, בכל מצורפי הצבעים, הוא 32 בייטים כברירת מחדל. עכשיו אפשר לבקש עד 64 באמצעות המגבלה maxColorAttachmentBytesPerSample. אפשר לעיין בדוגמה הבאה ובבעיה dawn:2036.

const adapter = await navigator.gpu.requestAdapter();

if (adapter.limits.maxColorAttachmentBytesPerSample < 64) {
  // When the desired limit isn't supported, take action to either fall back to
  // a code path that does not require the higher limit or notify the user that
  // their device does not meet minimum requirements.
}

// Request highest limit of max color attachments bytes per sample.
const device = await adapter.requestDevice({
  requiredLimits: { maxColorAttachmentBytesPerSample: 64 },
});

הגדלנו את המגבלות של maxInterStageShaderVariables ושל maxInterStageShaderComponents שמשמשות לתקשורת בין שלבים בכל הפלטפורמות. פרטים נוספים מופיעים בבעיה dawn:1448.

בכל שלב של הצללה, מספר הרשומות המקסימלי בפריסת קבוצת האיגוד בפריסת צינור, שהן מאגרי אחסון, הוא 8 כברירת מחדל. עכשיו אפשר לבקש עד 10 באמצעות המגבלה maxStorageBuffersPerShaderStage. מידע נוסף

נוספה מגבלה חדשה של maxBindGroupsPlusVertexBuffers. הוא מורכב מהמספר המקסימלי של משבצות של קבוצות קשירה ושל מאגרי קודקודים שנעשה בהם שימוש בו-זמנית, כולל משבצות ריקות מתחת לאינדקס הגבוה ביותר. ערך ברירת המחדל הוא 24. מידע נוסף

שינויים במצב של תבנית עומק

כדי לשפר את חוויית המפתחים, כבר לא תמיד צריך להשתמש במאפיינים depthWriteEnabled ו-depthCompare של מצב השבלונה של העומק: צריך להשתמש ב-depthWriteEnabled רק בפורמטים עם עומק, ולא צריך להשתמש ב-depthCompare בפורמטים עם עומק אם לא נעשה בו שימוש בכלל. מידע נוסף

עדכונים במידע של מתאמים

עכשיו אפשר לקבל מאפייני מידע של מתאמים לא סטנדרטיים type ו-backend באמצעות קריאה ל-requestAdapterInfo() אם המשתמש הפעיל את הדגל 'תכונות למפתחים של WebGPU' בכתובת chrome://flags/#enable-webgpu-developer-features. הערך של type יכול להיות 'discrete GPU',‏ 'integrated GPU',‏ 'CPU' או 'unknown'. הערך של backend הוא WebGPU,‏ D3D11,‏ D3D12,‏ metal,‏ vulkan,‏ openGL,‏ openGLES או null. מידע נוסף ומידע נוסף

צילום מסך של https://webgpureport.org שבו מוצגים פרטים על המתאם, כולל backend וסוג. — פרטי המתאם (Adapter) והסוג שלו מוצגים בכתובת https://webgpureport.org.

הפרמטר האופציונלי unmaskHints list ב-requestAdapterInfo() הוסר. מידע נוסף

קוונטיזציה של שאילתות עם חותמות זמן

שאילתות של חותמות זמן מאפשרות לאפליקציות למדוד את זמן הביצוע של פקודות GPU ברמת דיוק של ננו-שנייה. עם זאת, מפרט WebGPU קובע ששאילתות של חותמות זמן הן אופציונליות בגלל חששות לגבי מתקפות תזמון. צוות Chrome מאמין שכימות של שאילתות חותמות זמן מספק פשרה טובה בין דיוק לאבטחה, על ידי הקטנת הרזולוציה ל-100 מיקרו-שניות. מידע נוסף

ב-Chrome, המשתמשים יכולים להשבית את הכמות של חותמות הזמן על ידי הפעלת הדגל 'תכונות למפתחים של WebGPU' ב-chrome://flags/#enable-webgpu-developer-features. שימו לב שהדגל הזה לבדו לא מפעיל את התכונה "timestamp-query". ההטמעה שלו עדיין ניסיונית, ולכן נדרש הדגל Unsafe WebGPU Support (תמיכה לא בטוחה ב-WebGPU) בכתובת chrome://flags/#enable-unsafe-webgpu.

ב-Dawn, נוסף מתג מכשיר חדש בשם timestamp_quantization, שמופעל כברירת מחדל. בקטע הקוד הבא מוצג איך לאפשר את התכונה הניסיונית timestamp-query בלי כימות של חותמת הזמן כשמבקשים מכשיר.

wgpu::DawnTogglesDescriptor deviceTogglesDesc = {};

const char* allowUnsafeApisToggle = "allow_unsafe_apis";
deviceTogglesDesc.enabledToggles = &allowUnsafeApisToggle;
deviceTogglesDesc.enabledToggleCount = 1;

const char* timestampQuantizationToggle = "timestamp_quantization";
deviceTogglesDesc.disabledToggles = &timestampQuantizationToggle;
deviceTogglesDesc.disabledToggleCount = 1;

wgpu::DeviceDescriptor desc = {.nextInChain = &deviceTogglesDesc};

// Request a device with no timestamp quantization.
myAdapter.RequestDevice(&desc, myCallback, myUserData);

תכונות של ניקיון כללי

התכונה הניסיונית timestamp-query-inside-passes קיבלה את השם החדש chromium-experimental-timestamp-query-inside-passes כדי להבהיר למפתחים שהתכונה הזו ניסיונית וזמינה כרגע רק בדפדפנים שמבוססים על Chromium. מידע נוסף

הסרנו את התכונה הניסיונית pipeline-statistics-query, שהייתה מיושמת באופן חלקי בלבד, כי הפיתוח שלה הופסק. מידע נוסף

המידע הזה כולל רק נקודות עיקריות. רשימה מלאה של קומיטים