WebGPU 的新功能 (Chrome 123)

François Beaufort
François Beaufort

DP4a 內建函式在 WGSL 中的支援

DP4a (4 個元素的內積和累加) 是指一組 GPU 指令,通常用於深度學習推論的量化作業。它可有效率地執行 8 位元整數內積,加快這類 int8 量化模型的運算速度。與 f32 版本相比,這項功能可節省最多 75% 的記憶體和網路頻寬,並改善任何機器學習模型在推論時的效能。因此,目前許多熱門 AI 架構都大量使用這個函式。

"packed_4x8_integer_dot_product" WGSL 語言擴充功能出現在 navigator.gpu.wgslLanguageFeatures 中時,您現在可以使用 32 位元整數向量,將 8 位元整數的 4 個元件向量打包,做為 WGSL 著色器程式碼中點乘指令的輸入內容,並使用 dot4U8Packeddot4I8Packed 內建函式。您也可以使用 pack4xI8pack4xU8pack4xI8Clamppack4xU8Clampunpack4xI8unpack4xU8 WGSL 內建函式,搭配 8 位元整數的 4 元組向量,使用壓縮和解壓縮指令。

建議您使用 requires-directive,在 WGSL 著色器程式碼頂端使用 requires packed_4x8_integer_dot_product; 表示可能無法移植。請參閱以下範例和 issue tint:1497

if (!navigator.gpu.wgslLanguageFeatures.has("packed_4x8_integer_dot_product")) {
  throw new Error(`DP4a built-in functions are not available`);
}

const adapter = await navigator.gpu.requestAdapter();
const device = await adapter.requestDevice();

const shaderModule = device.createShaderModule({ code: `
  requires packed_4x8_integer_dot_product;

  fn main() {
    const result: u32 = dot4U8Packed(0x01020304u, 0x02040405u); // 42
  }`,
});

特別感謝上海的 Intel 網頁圖形團隊,讓這項規格和實作項目得以完成!

WGSL 中的無限制指標參數

"unrestricted_pointer_parameters" WGSL 語言擴充功能放寬了可將哪些指標傳遞至 WGSL 函式的限制:

  • storageuniformworkgroup 位址空間的參數指標,可連結至使用者宣告的函式。

  • 將結構體成員和陣列元素的指標傳遞至使用者宣告的函式。

如要進一步瞭解,請參閱「指標做為函式參數 | WGSL 導覽」。

您可以使用 navigator.gpu.wgslLanguageFeatures 偵測這項功能。建議您一律使用 requires-directive,在 WGSL 著色器程式碼頂端使用 requires unrestricted_pointer_parameters; 表示可能無法移植。請參閱以下範例、WGSL 規格變更問題 tint:2053

if (!navigator.gpu.wgslLanguageFeatures.has("unrestricted_pointer_parameters")) {
  throw new Error(`Unrestricted pointer parameters are not available`);
}

const adapter = await navigator.gpu.requestAdapter();
const device = await adapter.requestDevice();

const shaderModule = device.createShaderModule({ code: `
  requires unrestricted_pointer_parameters;

  @group(0) @binding(0) var<storage, read_write> S : i32;

  fn func(pointer : ptr<storage, i32, read_write>) {
    *pointer = 42;
  }

  @compute @workgroup_size(1)
  fn main() {
    func(&S);
  }`
});

在 WGSL 中解析複合值的語法糖衣

"pointer_composite_access" WGSL 語言擴充功能出現在 navigator.gpu.wgslLanguageFeatures 中時,無論您是直接使用資料或指標,WGSL 著色器程式碼現在都支援使用相同的點 (.) 語法存取複雜資料類型的元件。運作方式如下:

  • 如果 foo 是指標:foo.bar 是編寫 (*foo).bar 的更方便方式。通常需要使用星號 (*) 將指標轉換為可解析的「參照」,但現在指標和參照的功能更相似,幾乎可以互換。

  • 如果 foo 不是指標:點號 (.) 運算子的運作方式,與直接存取成員時完全相同。

同樣地,如果 pa 是儲存陣列起始位址的指標,那麼使用 pa[i] 就能直接存取該陣列第 'i 個元素的記憶體位置。

建議您使用 requires-directive,在 WGSL 著色器程式碼頂端使用 requires pointer_composite_access; 表示可能無法移植。請參閱以下範例和 issue tint:2113

if (!navigator.gpu.wgslLanguageFeatures.has("pointer_composite_access")) {
  throw new Error(`Pointer composite access is not available`);
}

const adapter = await navigator.gpu.requestAdapter();
const device = await adapter.requestDevice();

const shaderModule = device.createShaderModule({ code: `
  requires pointer_composite_access;

  fn main() {
    var a = vec3f();
    let p : ptr<function, vec3f> = &a;
    let r1 = (*p).x; // always valid.
    let r2 = p.x; // requires pointer composite access.
  }`
});

為遮罩和深度層面提供不同的唯讀狀態

先前,渲染階段中的唯讀深度遮罩附件必須將深度和遮罩都設為唯讀。這項限制已解除。您現在可以以唯讀方式使用深度層面,例如用於接觸陰影追蹤,同時寫入遮罩緩衝區,以便識別要進一步處理的像素。請參閱問題 2146

黎明更新

系統現在會在發生錯誤時立即呼叫使用 wgpuDeviceSetUncapturedErrorCallback() 設定的未擷取錯誤回呼。這是開發人員在偵錯時一貫的期望和需求。請參閱變更 dawn:173620

已實作 webgpu.h APIwgpuSurfaceGetPreferredFormat() 方法。請參閱問題 dawn:1362

這份文件僅涵蓋部分重點。請查看完整的修訂版本清單

WebGPU 新功能

以下是「WebGPU 最新消息」系列文章中涵蓋的所有內容。

Chrome 132

Chrome 131

Chrome 130

Chrome 129

Chrome 128

Chrome 127

Chrome 126

Chrome 125

Chrome 124

Chrome 123

Chrome 122

Chrome 121

Chrome 120

Chrome 119

Chrome 118

Chrome 117

Chrome 116

Chrome 115

Chrome 114

Chrome 113