מה חדש ב-WebGPU (Chrome {8/}120)

François Beaufort

תמיכה בערכי נקודה צפה (floating-point) של 16 ביט ב-WGSL

ב-WGSL, ‏ הסוג f16 הוא קבוצת הערכים של נקודה צפה בגודל 16 ביט בפורמט binary16‏ (half precision) של IEEE-754. המשמעות היא שהיא משתמשת ב-16 ביטים כדי לייצג מספר נקודה צפה, בניגוד ל-32 ביטים עבור נקודה צפה רגילה עם דיוק יחיד (f32). הגודל הקטן יותר הזה יכול להוביל לשיפורים משמעותיים בביצועים, במיוחד כשמעבדים כמויות גדולות של נתונים.

לשם השוואה, במכשיר Apple M1 Pro, ההטמעה של f16 מודלים של Llama2 7B שנעשה בה שימוש בהדגמה של צ'אט WebLLM מהירה משמעותית מההטמעה של f32, עם שיפור של 28% במהירות המילוי המקדים ושיפור של 41% במהירות הפענוח, כפי שמוצג בצילומי המסך הבאים.

צילום מסך של הדגמות של צ'אט ב-WebLLM עם מודלים של f32 ו-f16 Llama2 7B. — הדגמות של צ'אט ב-WebLLM עם מודלים של Llama2 7B‏ `f32` (מימין) ו-`f16` (משמאל).

לא כל המעבדים הגרפיים תומכים בערכים של נקודה צפה (floating-point) של 16 ביט. אם התכונה "shader-f16" זמינה ב-GPUAdapter, עכשיו אפשר לבקש GPUDevice עם התכונה הזו וליצור מודול הצללה של WGSL שמנצל את סוג הנקודה הצפה בחצי דיוק f16. אפשר להשתמש בסוג הזה במודול ההצללה של WGSL רק אם מפעילים את f16 התוסף WGSL עם enable f16;. אחרת, הפונקציה createShaderModule() תיצור שגיאת אימות. אפשר לעיין בדוגמה המינימלית הבאה ובבעיה dawn:1510.

const adapter = await navigator.gpu.requestAdapter();
if (!adapter.features.has("shader-f16")) {
  throw new Error("16-bit floating-point value support is not available");
}
// Explicitly request 16-bit floating-point value support.
const device = await adapter.requestDevice({
  requiredFeatures: ["shader-f16"],
});

const code = `
  enable f16;

  @compute @workgroup_size(1)
  fn main() {
    const c : vec3h = vec3<f16>(1.0h, 2.0h, 3.0h);
  }
`;

const shaderModule = device.createShaderModule({ code });
// Create a compute pipeline with this shader module
// and run the shader on the GPU...

אפשר לתמוך גם בסוגים f16 וגם בסוגים f32 בקוד של מודול ההצללה WGSL באמצעות alias בהתאם לתמיכה בתכונה "shader-f16", כמו שמוצג בקטע הקוד הבא.

const adapter = await navigator.gpu.requestAdapter();
const hasShaderF16 = adapter.features.has("shader-f16");

const device = await adapter.requestDevice({
  requiredFeatures: hasShaderF16 ? ["shader-f16"] : [],
});

const header = hasShaderF16
  ? `enable f16;
     alias min16float = f16;`
  : `alias min16float = f32;`;

const code = `
  ${header}

  @compute @workgroup_size(1)
  fn main() {
    const c = vec3<min16float>(1.0, 2.0, 3.0);
  }
`;

ללכת עד הקצה

מספר הבייטים המקסימלי שנדרש כדי להכיל דגימה אחת (פיקסל או תת-פיקסל) של נתוני פלט של צינור העיבוד, בכל מצורפי הצבעים, הוא 32 בייטים כברירת מחדל. עכשיו אפשר לבקש עד 64 באמצעות המגבלה maxColorAttachmentBytesPerSample. אפשר לעיין בדוגמה הבאה ובבעיה dawn:2036.

const adapter = await navigator.gpu.requestAdapter();

if (adapter.limits.maxColorAttachmentBytesPerSample < 64) {
  // When the desired limit isn't supported, take action to either fall back to
  // a code path that does not require the higher limit or notify the user that
  // their device does not meet minimum requirements.
}

// Request highest limit of max color attachments bytes per sample.
const device = await adapter.requestDevice({
  requiredLimits: { maxColorAttachmentBytesPerSample: 64 },
});

המגבלות maxInterStageShaderVariables ו-maxInterStageShaderComponents שמשמשות לתקשורת בין שלבים הוגדלו בכל הפלטפורמות. פרטים נוספים מופיעים בבעיה dawn:1448.

בכל שלב של הצללה, מספר הכניסות המקסימלי בפריסת קבוצת האיגוד בפריסת צינור, שהן מאגרי אחסון, הוא 8 כברירת מחדל. מעכשיו אפשר לבקש עד 10 משתמשים באמצעות המגבלה maxStorageBuffersPerShaderStage. מידע נוסף

נוספה מגבלה חדשה של maxBindGroupsPlusVertexBuffers. הוא מורכב מהמספר המקסימלי של משבצות של קבוצות קשירה ושל מאגרי קודקודים שנעשה בהם שימוש בו-זמנית, כולל משבצות ריקות מתחת לאינדקס הגבוה ביותר. ערך ברירת המחדל הוא 24. מידע נוסף

שינויים במצב סטנסיל עומק

כדי לשפר את חוויית המפתחים, כבר לא תמיד נדרשים המאפיינים depthWriteEnabled ו-depthCompare של מצב השבלונה של העומק: המאפיין depthWriteEnabled נדרש רק לפורמטים עם עומק, והמאפיין depthCompare לא נדרש לפורמטים עם עומק אם לא נעשה בו שימוש בכלל. מידע נוסף

עדכונים בפרטי המתאמים

עכשיו אפשר לקבל מאפייני מידע של מתאמים לא סטנדרטיים type ו-backend כשקוראים ל-requestAdapterInfo() אם המשתמש הפעיל את הדגל 'תכונות למפתחים של WebGPU' ב-chrome://flags/#enable-webgpu-developer-features. הערך של type יכול להיות 'discrete GPU',‏ 'integrated GPU',‏ 'CPU' או 'unknown'. הערך של backend הוא WebGPU,‏ D3D11,‏ D3D12,‏ metal,‏ vulkan,‏ openGL,‏ openGLES או null. מידע נוסף

צילום מסך של https://webgpureport.org שבו מוצגים פרטים על backend וסוג במתאם. — פרטי המתאם (Adapter) והסוג שלו מוצגים בכתובת https://webgpureport.org.

הפרמטר האופציונלי unmaskHints list ב-requestAdapterInfo() הוסר. מידע נוסף

קוונטיזציה של שאילתות שכוללות חותמות זמן

שאילתות של חותמות זמן מאפשרות לאפליקציות למדוד את זמן הביצוע של פקודות GPU ברמת דיוק של ננו-שנייה. עם זאת, מפרט WebGPU קובע ששאילתות של חותמות זמן הן אופציונליות בגלל חששות לגבי מתקפות תזמון. צוות Chrome מאמין שכימות של שאילתות חותמות זמן מספק פשרה טובה בין דיוק לאבטחה, כי הוא מקטין את הרזולוציה ל-100 מיקרו-שניות. מידע נוסף

ב-Chrome, המשתמשים יכולים להשבית את הכמות של חותמות הזמן על ידי הפעלת הדגל 'תכונות למפתחים של WebGPU' ב-chrome://flags/#enable-webgpu-developer-features. שימו לב שהדגל הזה לבדו לא מפעיל את התכונה "timestamp-query". ההטמעה שלו עדיין ניסיונית, ולכן נדרש הדגל Unsafe WebGPU Support (תמיכה לא בטוחה ב-WebGPU) בכתובת chrome://flags/#enable-unsafe-webgpu.

ב-Dawn, נוסף מתג מכשיר חדש בשם timestamp_quantization, שמופעל כברירת מחדל. בקטע הקוד הבא מוצג איך לאפשר את התכונה הניסיונית timestamp-query בלי כימות של חותמת הזמן כשמבקשים מכשיר.

wgpu::DawnTogglesDescriptor deviceTogglesDesc = {};

const char* allowUnsafeApisToggle = "allow_unsafe_apis";
deviceTogglesDesc.enabledToggles = &allowUnsafeApisToggle;
deviceTogglesDesc.enabledToggleCount = 1;

const char* timestampQuantizationToggle = "timestamp_quantization";
deviceTogglesDesc.disabledToggles = &timestampQuantizationToggle;
deviceTogglesDesc.disabledToggleCount = 1;

wgpu::DeviceDescriptor desc = {.nextInChain = &deviceTogglesDesc};

// Request a device with no timestamp quantization.
myAdapter.RequestDevice(&desc, myCallback, myUserData);

תכונות לניקיונות פסח

התכונה הניסיונית timestamp-query-inside-passes קיבלה את השם החדש chromium-experimental-timestamp-query-inside-passes כדי להבהיר למפתחים שהתכונה הזו ניסיונית וזמינה כרגע רק בדפדפנים שמבוססים על Chromium. מידע נוסף

הסרנו את התכונה הניסיונית pipeline-statistics-query, שהייתה מיושמת באופן חלקי בלבד, כי הפיתוח שלה הופסק. מידע נוסף

המידע הזה כולל רק נקודות עיקריות. רשימה מלאה של קומיטים