DP4a 內建函式在 WGSL 中的支援
DP4a (4 個元素的內積和累加) 是指一組 GPU 指令,通常用於深度學習推論的量化作業。它可有效率地執行 8 位元整數內積,加快這類 int8 量化模型的運算速度。與 f32 版本相比,這項功能可節省最多 75% 的記憶體和網路頻寬,並改善任何機器學習模型在推論時的效能。因此,目前許多熱門 AI 架構都大量使用這個函式。
當 "packed_4x8_integer_dot_product"
WGSL 語言擴充功能出現在 navigator.gpu.wgslLanguageFeatures
中時,您現在可以使用 32 位元整數向量,將 8 位元整數的 4 個元件向量打包,做為 WGSL 著色器程式碼中點乘指令的輸入內容,並使用 dot4U8Packed
和 dot4I8Packed
內建函式。您也能使用 pack4xI8
、pack4xU8
、pack4xI8Clamp
、pack4xU8Clamp
、unpack4xI8
和 unpack4xU8
WGSL 內建函式,將含有 8 位元整數的 4 元件向量封裝和解壓縮指示。
建議您使用 requires-directive,在 WGSL 著色器程式碼頂端使用 requires packed_4x8_integer_dot_product;
表示可能無法移植。請參閱以下範例和 issue tint:1497。
if (!navigator.gpu.wgslLanguageFeatures.has("packed_4x8_integer_dot_product")) {
throw new Error(`DP4a built-in functions are not available`);
}
const adapter = await navigator.gpu.requestAdapter();
const device = await adapter.requestDevice();
const shaderModule = device.createShaderModule({ code: `
requires packed_4x8_integer_dot_product;
fn main() {
const result: u32 = dot4U8Packed(0x01020304u, 0x02040405u); // 42
}`,
});
特別感謝上海的 Intel 網頁圖形團隊,讓這項規格和實作項目得以完成!
WGSL 中的無限制指標參數
"unrestricted_pointer_parameters"
WGSL 語言擴充功能會放寬可傳遞至 WGSL 函式的指標限制:
storage
、uniform
和workgroup
位址空間的參數指標,可連結至使用者宣告的函式。將指標傳遞至結構成員和陣列元素至使用者宣告的函式。
如要進一步瞭解,請參閱「指標做為函式參數 | WGSL 導覽」。
這項功能可使用 navigator.gpu.wgslLanguageFeatures
進行功能偵測。建議您一律使用 requires-directive,在 WGSL 著色器程式碼頂端使用 requires unrestricted_pointer_parameters;
表示可能無法移植。請參閱以下範例、WGSL 規格變更和 問題 tint:2053。
if (!navigator.gpu.wgslLanguageFeatures.has("unrestricted_pointer_parameters")) {
throw new Error(`Unrestricted pointer parameters are not available`);
}
const adapter = await navigator.gpu.requestAdapter();
const device = await adapter.requestDevice();
const shaderModule = device.createShaderModule({ code: `
requires unrestricted_pointer_parameters;
@group(0) @binding(0) var<storage, read_write> S : i32;
fn func(pointer : ptr<storage, i32, read_write>) {
*pointer = 42;
}
@compute @workgroup_size(1)
fn main() {
func(&S);
}`
});
WGSL 中對複合模型進行反參照的語法糖
當 "pointer_composite_access"
WGSL 語言擴充功能出現在 navigator.gpu.wgslLanguageFeatures
中時,無論您是直接使用資料或指標,WGSL 著色器程式碼現在都支援使用相同的點 (.
) 語法存取複雜資料類型的元件。運作方式如下:
如果
foo
是指標:foo.bar
是編寫(*foo).bar
更方便的方法。通常需要使用星號 (*
) 將指標轉換為可解析的「參照」,但現在指標和參照的功能更相似,幾乎可以互換。如果
foo
不是指標:點 (.
) 運算子的運作方式與直接存取成員的方式完全相同。
同樣地,如果 pa
是儲存陣列起始位址的指標,那麼使用 pa[i]
就能直接存取該陣列第 'i
個元素的記憶體位置。
建議您使用 requires-directive,在 WGSL 著色器程式碼頂端使用 requires pointer_composite_access;
表示可能無法移植。請參閱以下範例和 issue tint:2113。
if (!navigator.gpu.wgslLanguageFeatures.has("pointer_composite_access")) {
throw new Error(`Pointer composite access is not available`);
}
const adapter = await navigator.gpu.requestAdapter();
const device = await adapter.requestDevice();
const shaderModule = device.createShaderModule({ code: `
requires pointer_composite_access;
fn main() {
var a = vec3f();
let p : ptr<function, vec3f> = &a;
let r1 = (*p).x; // always valid.
let r2 = p.x; // requires pointer composite access.
}`
});
為遮罩和深度層面提供不同的唯讀狀態
以前,算繪中的唯讀深度模板附件 (深度和模板) 都必須處於唯讀狀態。這項限制已解除。您現在可以以唯讀方式使用深度層面,例如用於接觸陰影追蹤,同時寫入遮罩緩衝區,以便識別要進一步處理的像素。請參閱問題 dawn:2146。
日出最新消息
系統現在會在發生錯誤時立即呼叫使用 wgpuDeviceSetUncapturedErrorCallback()
設定的未擷取錯誤回呼。這是開發人員在偵錯時一貫的期望和需求。請參閱 變更 dawn:173620。
已實作 webgpu.h API 的 wgpuSurfaceGetPreferredFormat()
方法。請參閱問題 dawn:1362。
這份文件僅涵蓋部分重點。請查看完整的修訂版本清單。
WebGPU 新功能
以下是「WebGPU 最新消息」系列文章中涵蓋的所有內容。
Chrome 131
- WGSL 中的裁剪距離
- GPUCanvasContext getConfiguration()
- 點和線圖元不得有深度偏差
- 子群組適用的內建掃描功能
- 實驗性支援多重繪製間接功能
- 著色器模組編譯選項嚴格數學
- 移除 GPUAdapter requestAdapterInfo()
- Dawn 更新
Chrome 130
Chrome 129
Chrome 128
Chrome 127
Chrome 126
Chrome 125
Chrome 124
Chrome 123
Chrome 122
Chrome 121
- 支援 Android 上的 WebGPU
- 在 Windows 上使用 DXC 而非 FXC 進行著色器編譯
- 在運算和算繪票證中為查詢加上時間戳記
- 著色器模組的預設進入點
- 支援 display-p3 做為 GPUExternalTexture 色彩空間
- 記憶體堆積資訊
- Dawn 更新
Chrome 120
Chrome 119
Chrome 118
Chrome 117
Chrome 116
- WebCodecs 整合
- GPUAdapter
requestDevice()
傳回的遺失裝置 - 如果呼叫
importExternalTexture()
,請保持影片播放流暢 - 規格符合性
- 改善開發人員體驗
- Dawn 更新