מה חדש ב-WebGPU (Chrome {8/}120)

François Beaufort
François Beaufort

תמיכה בערכי נקודה צפה (floating-point) של 16 ביט ב-WGSL

ב-WGSL, ‏ הסוג f16 הוא קבוצת הערכים של נקודה צפה בגודל 16 ביט בפורמט binary16 (חצי דיוק) של IEEE-754. המשמעות היא שהיא משתמשת ב-16 ביטים כדי לייצג מספר נקודה צפה, בניגוד ל-32 ביטים עבור נקודה צפה רגילה עם דיוק יחיד (f32). הגודל הקטן יותר הזה יכול להוביל לשיפורים משמעותיים בביצועים, במיוחד כשמעבדים כמויות גדולות של נתונים.

לשם השוואה, במכשיר Apple M1 Pro, ההטמעה של f16 מודלים של Llama2 7B שנעשה בה שימוש בהדגמה של צ'אט WebLLM מהירה משמעותית מההטמעה של f32, עם שיפור של 28% במהירות המילוי המקדים ושיפור של 41% במהירות הפענוח, כפי שמוצג בצילומי המסך הבאים.

צילום מסך של הדגמות של צ'אט ב-WebLLM עם מודלים של f32 ו-f16 Llama2 7B.
הדגמות של צ'אט ב-WebLLM עם מודלים של Llama2 7B‏ f32 (מימין) ו-f16 (משמאל).

לא כל המעבדים הגרפיים תומכים בערכים של נקודה צפה (floating-point) של 16 ביט. אם התכונה "shader-f16" זמינה ב-GPUAdapter, עכשיו אפשר לבקש GPUDevice עם התכונה הזו וליצור מודול הצללה של WGSL שמנצל את סוג הנקודה הצפה בחצי דיוק f16. אפשר להשתמש בסוג הזה במודול של הצללה ב-WGSL רק אם מפעילים את f16 התוסף WGSL עם enable f16;. אחרת, הפונקציה createShaderModule() תיצור שגיאת אימות. אפשר לעיין בדוגמה המינימלית הבאה ובבעיה dawn:1510.

const adapter = await navigator.gpu.requestAdapter();
if (!adapter.features.has("shader-f16")) {
  throw new Error("16-bit floating-point value support is not available");
}
// Explicitly request 16-bit floating-point value support.
const device = await adapter.requestDevice({
  requiredFeatures: ["shader-f16"],
});

const code = `
  enable f16;

  @compute @workgroup_size(1)
  fn main() {
    const c : vec3h = vec3<f16>(1.0h, 2.0h, 3.0h);
  }
`;

const shaderModule = device.createShaderModule({ code });
// Create a compute pipeline with this shader module
// and run the shader on the GPU...

אפשר לתמוך בסוגים f16 ו-f32 בקוד של מודול ההצללה WGSL באמצעות alias בהתאם לתמיכה בתכונה "shader-f16", כמו שמוצג בקטע הקוד הבא.

const adapter = await navigator.gpu.requestAdapter();
const hasShaderF16 = adapter.features.has("shader-f16");

const device = await adapter.requestDevice({
  requiredFeatures: hasShaderF16 ? ["shader-f16"] : [],
});

const header = hasShaderF16
  ? `enable f16;
     alias min16float = f16;`
  : `alias min16float = f32;`;

const code = `
  ${header}

  @compute @workgroup_size(1)
  fn main() {
    const c = vec3<min16float>(1.0, 2.0, 3.0);
  }
`;

ללכת עד הקצה

מספר הבייטים המקסימלי שנדרש כדי להכיל דגימה אחת (פיקסל או תת-פיקסל) של נתוני פלט של צינור העיבוד, בכל מצורפי הצבע, הוא 32 בייטים כברירת מחדל. עכשיו אפשר לבקש עד 64 באמצעות המגבלה של maxColorAttachmentBytesPerSample. אפשר לעיין בדוגמה הבאה ובבעיה dawn:2036.

const adapter = await navigator.gpu.requestAdapter();

if (adapter.limits.maxColorAttachmentBytesPerSample < 64) {
  // When the desired limit isn't supported, take action to either fall back to
  // a code path that does not require the higher limit or notify the user that
  // their device does not meet minimum requirements.
}

// Request highest limit of max color attachments bytes per sample.
const device = await adapter.requestDevice({
  requiredLimits: { maxColorAttachmentBytesPerSample: 64 },
});

המגבלות maxInterStageShaderVariables ו-maxInterStageShaderComponents שמשמשות לתקשורת בין שלבים הוגדלו בכל הפלטפורמות. פרטים נוספים מופיעים בבעיה dawn:1448.

בכל שלב של הצללה, מספר הרשומות המקסימלי בפריסת קבוצת הכריכות בפריסת צינור, שהן מאגרי אחסון, הוא 8 כברירת מחדל. מעכשיו אפשר לבקש עד 10 באמצעות המגבלה maxStorageBuffersPerShaderStage. לפרטים על בעיה dawn:2159

נוספה מגבלה חדשה של maxBindGroupsPlusVertexBuffers. הוא מורכב מהמספר המקסימלי של חריצים של קבוצות קשירה ומאגרי קודקודים שנעשה בהם שימוש בו-זמנית, כולל חריצים ריקים מתחת לאינדקס הגבוה ביותר. ערך ברירת המחדל הוא 24. לעיון בבעיה dawn:1849

שינויים במצב של תבנית עומק

כדי לשפר את חוויית המפתחים, כבר לא תמיד צריך להשתמש במאפיינים depthWriteEnabled ו-depthCompare של מצב השבלונה של העומק: צריך להשתמש ב-depthWriteEnabled רק בפורמטים עם עומק, ולא צריך להשתמש ב-depthCompare בפורמטים עם עומק אם לא משתמשים בו בכלל. מידע נוסף על בעיה dawn:2132

עדכונים של פרטי המתאם

מאפייני מידע לא סטנדרטיים של מתאמי type ו-backend זמינים עכשיו כשקוראים ל-requestAdapterInfo() אם המשתמש הפעיל את הדגל 'תכונות למפתחים של WebGPU' ב-chrome://flags/#enable-webgpu-developer-features. הערך של type יכול להיות discrete GPU,‏ integrated GPU,‏ CPU או unknown. הערך של backend הוא WebGPU,‏ D3D11,‏ D3D12,‏ metal,‏ vulkan,‏ openGL,‏ openGLES או null. ראו issue dawn:2112 ו-issue dawn:2107.

צילום מסך של https://webgpureport.org שבו מוצגים פרטים על המתאם, כולל backend וסוג.
פרטי המתאם (Adapter) והסוג שלו מוצגים בכתובת https://webgpureport.org.

הפרמטר האופציונלי unmaskHints list ב-requestAdapterInfo() הוסר. מידע נוסף על בעיה dawn:1427

קוונטיזציה של שאילתות עם חותמות זמן

שאילתות של חותמות זמן מאפשרות לאפליקציות למדוד את זמן הביצוע של פקודות GPU ברמת דיוק של ננו-שנייה. עם זאת, במפרט WebGPU, שאילתות של חותמות זמן הן אופציונליות בגלל חששות לגבי מתקפות תזמון. צוות Chrome מאמין שהגבלת הדיוק של שאילתות חותמות זמן מספקת פשרה טובה בין דיוק לאבטחה, כי היא מקטינה את הרזולוציה ל-100 מיקרו-שניות. לעיון בבעיה dawn:1800

ב-Chrome, המשתמשים יכולים להשבית את הכמות של חותמות הזמן על ידי הפעלת התכונה הניסיונית 'תכונות למפתחים של WebGPU' בכתובת chrome://flags/#enable-webgpu-developer-features. שימו לב שהדגל הזה לבדו לא מפעיל את התכונה "timestamp-query". ההטמעה שלו עדיין ניסיונית, ולכן נדרש הדגל Unsafe WebGPU Support (תמיכה לא בטוחה ב-WebGPU) בכתובת chrome://flags/#enable-unsafe-webgpu.

ב-Dawn, נוסף מתג מכשיר חדש בשם timestamp_quantization, שמופעל כברירת מחדל. בקטע הקוד הבא מוצג איך לאפשר את התכונה הניסיונית timestamp-query בלי קוונטיזציה של חותמת הזמן כשמבקשים מכשיר.

wgpu::DawnTogglesDescriptor deviceTogglesDesc = {};

const char* allowUnsafeApisToggle = "allow_unsafe_apis";
deviceTogglesDesc.enabledToggles = &allowUnsafeApisToggle;
deviceTogglesDesc.enabledToggleCount = 1;

const char* timestampQuantizationToggle = "timestamp_quantization";
deviceTogglesDesc.disabledToggles = &timestampQuantizationToggle;
deviceTogglesDesc.disabledToggleCount = 1;

wgpu::DeviceDescriptor desc = {.nextInChain = &deviceTogglesDesc};

// Request a device with no timestamp quantization.
myAdapter.RequestDevice(&desc, myCallback, myUserData);

תכונות לניקיון פסח

התכונה הניסיונית timestamp-query-inside-passes קיבלה את השם החדש chromium-experimental-timestamp-query-inside-passes כדי להבהיר למפתחים שהתכונה הזו ניסיונית וזמינה כרגע רק בדפדפנים שמבוססים על Chromium. לפרטים על הבעיה dawn:1193

הסרנו את התכונה הניסיונית pipeline-statistics-query, שהייתה מיושמת באופן חלקי בלבד, כי הפיתוח שלה הופסק. פרטים נוספים זמינים בבעיה chromium:1177506.

המידע הזה כולל רק חלק מהנקודות העיקריות. רשימה מלאה של קומיטים

מה חדש ב-WebGPU

רשימה של כל הנושאים שמופיעים בסדרת המאמרים מה חדש ב-WebGPU.

Chrome 140

‫Chrome 139

‫Chrome 138

Chrome 137

Chrome 136

‫Chrome 135

‫Chrome 134

‫Chrome 133

‫Chrome 132

‫Chrome 131

‫Chrome 130

גרסה Chrome 129

‫Chrome 128

‫Chrome 127

‫Chrome 126

Chrome 125

‫Chrome 124

‫Chrome 123

‫Chrome 122

‫Chrome 121

‫Chrome 120

‫Chrome 119

‫Chrome 118

‫Chrome 117

Chrome 116

‫Chrome 115

‫Chrome 114

‫Chrome 113