Novidades da WebGPU (Chrome{/120)

François Beaufort
François Beaufort

Suporte para valores de ponto flutuante de 16 bits em WGSL

Em WGSL, o tipo f16 é o conjunto de valores de ponto flutuante de 16 bits do formato IEEE-754 binary16 (meia precisão). Isso significa que ele usa 16 bits para representar um número de ponto flutuante, em vez de 32 bits para ponto flutuante de precisão única convencional (f32). Esse tamanho menor pode levar a melhorias significativas de desempenho, especialmente ao processar grandes quantidades de dados.

Para comparação, em um dispositivo Apple M1 Pro, a implementação f16 dos modelos Llama2 7B usados na demonstração de chat do WebLLM é significativamente mais rápida do que a implementação f32, com uma melhoria de 28% na velocidade de pré-preenchimento e de 41% na velocidade de decodificação, conforme mostrado nas capturas de tela a seguir.

Captura de tela das demonstrações de chat do WebLLM com modelos f32 e f16 Llama2 7B.
Demonstrações de chat do WebLLM com modelos f32 (esquerda) e f16 (direita) do Llama2 7B.

Nem todas as GPUs são compatíveis com valores de ponto flutuante de 16 bits. Quando o recurso "shader-f16" estiver disponível em um GPUAdapter, você poderá solicitar um GPUDevice com esse recurso e criar um módulo de shader WGSL que aproveite o tipo de ponto flutuante de meia precisão f16. Esse tipo só é válido para uso no módulo de shader WGSL se você ativar a extensão f16 WGSL com enable f16;. Caso contrário, createShaderModule() vai gerar um erro de validação. Confira o exemplo mínimo a seguir e issue dawn:1510.

const adapter = await navigator.gpu.requestAdapter();
if (!adapter.features.has("shader-f16")) {
  throw new Error("16-bit floating-point value support is not available");
}
// Explicitly request 16-bit floating-point value support.
const device = await adapter.requestDevice({
  requiredFeatures: ["shader-f16"],
});

const code = `
  enable f16;

  @compute @workgroup_size(1)
  fn main() {
    const c : vec3h = vec3<f16>(1.0h, 2.0h, 3.0h);
  }
`;

const shaderModule = device.createShaderModule({ code });
// Create a compute pipeline with this shader module
// and run the shader on the GPU...

É possível oferecer suporte aos tipos f16 e f32 no código do módulo de shader WGSL com um alias, dependendo do suporte ao recurso "shader-f16", conforme mostrado no snippet a seguir.

const adapter = await navigator.gpu.requestAdapter();
const hasShaderF16 = adapter.features.has("shader-f16");

const device = await adapter.requestDevice({
  requiredFeatures: hasShaderF16 ? ["shader-f16"] : [],
});

const header = hasShaderF16
  ? `enable f16;
     alias min16float = f16;`
  : `alias min16float = f32;`;

const code = `
  ${header}

  @compute @workgroup_size(1)
  fn main() {
    const c = vec3<min16float>(1.0, 2.0, 3.0);
  }
`;

Supere seus limites

O número máximo de bytes necessários para armazenar uma amostra (pixel ou subpixel) de dados de saída do pipeline de renderização, em todos os anexos de cores, é de 32 bytes por padrão. Agora é possível solicitar até 64 usando o limite maxColorAttachmentBytesPerSample. Confira o exemplo a seguir e issue dawn:2036.

const adapter = await navigator.gpu.requestAdapter();

if (adapter.limits.maxColorAttachmentBytesPerSample < 64) {
  // When the desired limit isn't supported, take action to either fall back to
  // a code path that does not require the higher limit or notify the user that
  // their device does not meet minimum requirements.
}

// Request highest limit of max color attachments bytes per sample.
const device = await adapter.requestDevice({
  requiredLimits: { maxColorAttachmentBytesPerSample: 64 },
});

Os limites de maxInterStageShaderVariables e maxInterStageShaderComponents usados para comunicação entre estágios foram aumentados em todas as plataformas. Consulte o problema dawn:1448 para mais detalhes.

Para cada estágio de shader, o número máximo de entradas de layout de grupo de vinculação em um layout de pipeline que são buffers de armazenamento é 8 por padrão. Agora é possível solicitar até 10 usando o limite maxStorageBuffersPerShaderStage. Consulte o problema dawn:2159.

Um novo limite de maxBindGroupsPlusVertexBuffers foi adicionado. Ele consiste no número máximo de slots de grupo de vinculação e buffer de vértice usados simultaneamente, contando todos os slots vazios abaixo do índice mais alto. O valor padrão é 24. Consulte issue dawn:1849.

Mudanças no estado de estêncil de profundidade

Para melhorar a experiência do desenvolvedor, os atributos de estado de estêncil de profundidade depthWriteEnabled e depthCompare não são mais sempre necessários: depthWriteEnabled é obrigatório apenas para formatos com profundidade, e depthCompare não é obrigatório para formatos com profundidade se não for usado. Consulte o problema dawn:2132.

Atualizações de informações do adaptador

Os atributos de informações do adaptador type e backend não padrão agora estão disponíveis ao chamar requestAdapterInfo() quando o usuário ativa a flag "Recursos para desenvolvedores do WebGPU" em chrome://flags/#enable-webgpu-developer-features. O type pode ser "GPU discreta", "GPU integrada", "CPU" ou "desconhecido". O backend é "WebGPU", "D3D11", "D3D12", "metal", "vulkan", "openGL", "openGLES" ou "null". Consulte problema dawn:2112 e problema dawn:2107.

Captura de tela de https://webgpureport.org mostrando back-end e tipo nas informações do adaptador.
Adaptador de informações de back-end e tipo mostrado em https://webgpureport.org.

O parâmetro de lista unmaskHints opcional em requestAdapterInfo() foi removido. Consulte o problema dawn:1427.

Quantização de consultas de carimbo de data/hora

As consultas de carimbo de data/hora permitem que os aplicativos meçam o tempo de execução dos comandos da GPU com precisão de nanossegundos. No entanto, a especificação da WebGPU torna as consultas de carimbo de data/hora opcionais devido a preocupações com ataques de tempo. A equipe do Chrome acredita que a quantização de consultas de carimbo de data/hora oferece um bom compromisso entre precisão e segurança, reduzindo a resolução para 100 microssegundos. Consulte issue dawn:1800.

No Chrome, os usuários podem desativar a quantização de carimbos de data/hora ativando a flag "Recursos para desenvolvedores do WebGPU" em chrome://flags/#enable-webgpu-developer-features. Essa flag sozinha não ativa o recurso "timestamp-query". A implementação ainda é experimental e, portanto, requer a flag "Unsafe WebGPU Support" em chrome://flags/#enable-unsafe-webgpu.

No Dawn, um novo botão de alternância de dispositivo chamado "timestamp_quantization" foi adicionado e está ativado por padrão. O snippet a seguir mostra como permitir o recurso experimental "timestamp-query" sem quantização de carimbo de data/hora ao solicitar um dispositivo.

wgpu::DawnTogglesDescriptor deviceTogglesDesc = {};

const char* allowUnsafeApisToggle = "allow_unsafe_apis";
deviceTogglesDesc.enabledToggles = &allowUnsafeApisToggle;
deviceTogglesDesc.enabledToggleCount = 1;

const char* timestampQuantizationToggle = "timestamp_quantization";
deviceTogglesDesc.disabledToggles = &timestampQuantizationToggle;
deviceTogglesDesc.disabledToggleCount = 1;

wgpu::DeviceDescriptor desc = {.nextInChain = &deviceTogglesDesc};

// Request a device with no timestamp quantization.
myAdapter.RequestDevice(&desc, myCallback, myUserData);

Recursos de limpeza de primavera

O recurso experimental "timestamp-query-inside-passes" foi renomeado como "chromium-experimental-timestamp-query-inside-passes" para deixar claro aos desenvolvedores que ele é experimental e está disponível apenas em navegadores baseados no Chromium por enquanto. Consulte issue dawn:1193.

O recurso experimental "pipeline-statistics-query", que foi implementado apenas parcialmente, foi removido porque não está mais em desenvolvimento. Consulte o problema chromium:1177506.

Isso abrange apenas alguns dos principais destaques. Confira a lista completa de commits.

Novidades no WebGPU

Uma lista de tudo o que foi abordado na série O que há de novo no WebGPU.

Chrome 140

Chrome 139

Chrome 138

Chrome 137

Chrome 136

Chrome 135

Chrome 134

Chrome 133

Chrome 132

Chrome 131

Chrome 130

Chrome 129

Chrome 128

Chrome 127

Chrome 126

Chrome 125

Chrome 124

Chrome 123

Chrome 122

Chrome 121

Chrome 120

Chrome 119

Chrome 118

Chrome 117

Chrome 116

Chrome 115

Chrome 114

Chrome 113