此页面由 Cloud Translation API 翻译。

识别用户的手写内容

借助手写识别 API，您可以在手写输入中实时识别文字。

Christian Liebel

Thomas Steiner

什么是手写识别 API？

借助手写识别 API，您可以将用户的手写内容（手写）转换为文本。某些操作系统早就包含了此类 API，而借助这项新功能，您的 Web 应用最后才使用这项功能转化直接在用户的设备上进行，甚至离线模式下，所有这些都无需添加任何第三方库或服务。

此 API 实现所谓的“在线”或近乎实时的识别。这意味着通过捕获和分析单个划船。与“离线”相对程序，例如光学字符识别 (OCR)，其中由于只有最终结果是已知的，在线算法可以提供更高的准确度，这是由于例如单个墨水笔画的时间顺序和压力。

手写识别 API 的推荐用例

应用示例包括：

记事应用，用户希望捕捉手写便条并进行翻译转换为文本。
由于时间限制，用户可以使用触控笔或手指输入的表单应用。
要求填入字母或数字的游戏，例如填字游戏、字谜或数独游戏。

当前状态

手写识别 API 从 (Chromium 99) 开始。

如何使用手写识别 API

功能检测

通过检查是否存在 createHandwritingRecognizer() 方法来检测浏览器支持情况针对 navigator 对象：

if ('createHandwritingRecognizer' in navigator) {
  // 🎉 The Handwriting Recognition API is supported!
}

核心概念

无论使用哪种输入法，手写识别 API 都会将手写输入转换为文本（鼠标、触摸、触控笔）。该 API 有四个主要实体：

点表示指针在特定时间的位置。
一个描边，包含一个或多个点。当用户将手指放在某个位置时，（即点击鼠标主按钮，或用触控笔或触摸屏幕）（手指），当它们再次抬起指针时即结束。
一个绘图由一个或多个笔画组成。实际识别发生在此级别。
为识别器配置了预期的输入语言。它用于创建实例应用了识别器配置的绘图。

这些概念以特定的接口和字典的形式实现，我稍后将介绍这些内容。

手写识别 API 的核心实体：一个或多个点组成笔画，一个或多个笔画组成绘图，由识别器创建。实际的识别发生在绘制级别。

创建识别器

要识别手写输入中的文本，您需要获取一个 HandwritingRecognizer：通过调用 navigator.createHandwritingRecognizer() 并传递约束条件。限制条件决定了应使用的手写识别模型。目前，您可以按照优先顺序指定语言列表：

const recognizer = await navigator.createHandwritingRecognizer({
  languages: ['en'],
});

注意：ChromeOS 上的当前实现只能识别一种语言。它仅支持英语 (en) 和用于识别的手势模型 (zxx-x-gesture) 例如划掉字词。

此方法返回一个使用 HandwritingRecognizer 实例解析的 promise，能满足您的请求否则，它将拒绝 promise 并报错，并且手写识别。因此，您可能需要查询识别器对特定识别功能的支持。

查询识别器支持

通过调用 navigator.queryHandwritingRecognizerSupport()，您可以检查目标平台支持您打算使用的手写识别功能。在以下示例中，开发者：

想要检测英语文本
获得其他预测（如果有）的可能性较低
获得对分割结果的访问权限，即识别出的字符，包括点和构成它们的笔触

const { languages, alternatives, segmentationResults } =
  await navigator.queryHandwritingRecognizerSupport({
    languages: ['en'],
    alternatives: true,
    segmentationResult: true,
  });

console.log(languages); // true or false
console.log(alternatives); // true or false
console.log(segmentationResult); // true or false

该方法会返回使用结果对象解析的 promise。如果浏览器支持该功能其值将设为 true。否则，将设置为 false。您可以使用此信息来启用或停用应用中的某些功能，或请调整您的查询，然后发送新的查询。

开始绘图

您应在应用中提供一个输入区域，供用户手写输入条目。出于性能方面的考虑，建议借助 canvas 对象。确切的本部分的实现方法不在本文讨论范围之内，但您可以参阅演示看看实现方式。

如需开始新绘图，请对识别器调用 startDrawing() 方法。此方法采用对象，其中包含用于微调识别算法的不同提示。所有提示都是可选的：

输入的文字类型：文字、电子邮件地址、数字或单个字符 (recognitionType)
输入设备的类型：鼠标、触控或触控笔输入 (inputType)
前面的文本 (textContext)
应返回的概率更低的替代预测数量 (alternatives)
用户最有可能输入的可识别字符（“字形”）列表 (graphemeSet)

手写识别 API 可与指针事件 - 提供抽象接口，以使用来自任何指控设备的输入。指针事件参数包含所使用的指针类型。这意味着您可以使用指针事件来确定输入类型。在以下示例中，系统会自动使用手写识别绘图功能在手写区域首次发生 pointerdown 事件时创建。作为 pointerType 可能为空或设置为专有值，但我引入了一致性检查，以确保确保仅为绘图的输入类型设置受支持的值。

let drawing;
let activeStroke;

canvas.addEventListener('pointerdown', (event) => {
  if (!drawing) {
    drawing = recognizer.startDrawing({
      recognitionType: 'text', // email, number, per-character
      inputType: ['mouse', 'touch', 'pen'].find((type) => type === event.pointerType),
      textContext: 'Hello, ',
      alternatives: 2,
      graphemeSet: ['f', 'i', 'z', 'b', 'u'], // for a fizz buzz entry form
    });
  }
  startStroke(event);
});

添加描边

pointerdown 事件也是开始新描边的正确位置。为此，请创建一个新的 HandwritingStroke 的实例。此外，您还应将当前时间存储为之后添加到其中的点：

function startStroke(event) {
  activeStroke = {
    stroke: new HandwritingStroke(),
    startTime: Date.now(),
  };
  addPoint(event);
}

添加一个点

创建描边后，您应直接向其添加第一个点。随着你不断地添加更多点，那么最好在单独的方法中实现点创建逻辑。在在以下示例中，addPoint() 方法会根据参考时间戳计算所用时间。时间信息是可选的，但可以提高识别质量。然后读取 X 和获取指针事件中的 Y 坐标，并将相应点添加到当前笔触。

function addPoint(event) {
  const timeElapsed = Date.now() - activeStroke.startTime;
  activeStroke.stroke.addPoint({
    x: event.offsetX,
    y: event.offsetY,
    t: timeElapsed,
  });
}

当指针在屏幕上移动时，系统会调用 pointermove 事件处理脚本。这些要点同样需要向描边添加文字如果指针不在 “down”状态，例如，在没有按鼠标的情况下在屏幕上移动光标时按钮。以下示例中的事件处理程序检查是否存在有效笔触，并将指向它的新点

canvas.addEventListener('pointermove', (event) => {
  if (activeStroke) {
    addPoint(event);
  }
});

识别文字

当用户再次抬起指针时，您可以通过调用其 addStroke() 方法结合使用。以下示例还会重置 activeStroke，因此 pointermove 处理程序不会向已完成的笔触添加点。

注意：如有必要，您还可以使用绘图的 getStrokes() 方法列出所有笔画，使用 removeStroke() 方法从绘图中移除特定元素。

接下来，是时候通过对getPrediction() 绘图。识别过程通常需要不到几百毫秒，因此您可以反复运行预测。以下示例会在每个已完成的笔画后运行新的预测。

canvas.addEventListener('pointerup', async (event) => {
  drawing.addStroke(activeStroke.stroke);
  activeStroke = null;

  const [mostLikelyPrediction, ...lessLikelyAlternatives] = await drawing.getPrediction();
  if (mostLikelyPrediction) {
    console.log(mostLikelyPrediction.text);
  }
  lessLikelyAlternatives?.forEach((alternative) => console.log(alternative.text));
});

此方法返回一个 promise，该 promise 可通过一组预测（按其排序）进行解析概率。元素数量取决于您传递给 alternatives 提示的值。您可以使用此数组向用户显示可能的匹配选项，选项。或者，您也可以直接使用最有可能的预测，示例。

预测对象包含识别出的文本和一个可选的分割结果，我们将进一步讨论这些内容

包含细分结果的详细数据分析

如果目标平台支持，则预测对象还可以包含细分结果。这是一个包含所有已识别的手写区段的数组，由已识别的用户可识别字符 (grapheme) 及其在识别出的文本中的位置（beginIndex、endIndex）以及创建该点的笔画和点。

if (mostLikelyPrediction.segmentationResult) {
  mostLikelyPrediction.segmentationResult.forEach(
    ({ grapheme, beginIndex, endIndex, drawingSegments }) => {
      console.log(grapheme, beginIndex, endIndex);
      drawingSegments.forEach(({ strokeIndex, beginPointIndex, endPointIndex }) => {
        console.log(strokeIndex, beginPointIndex, endPointIndex);
      });
    },
  );
}

您可以使用这些信息再次在画布上追踪识别出的字形。

系统会在每个识别出的字形周围绘制方框

全面识别

完成识别后，您可以通过调用 clear() 方法上的 HandwritingDrawing 以及 HandwritingRecognizer 中的 finish() 方法：

drawing.clear();
recognizer.finish();

演示

网页组件 <handwriting-textarea> 会实现渐进式增强，可手写的编辑控件识别。点击编辑控件右下角的按钮，激活绘图模式完成绘制后，网络组件会自动启动并将识别出的文本添加回编辑控件。如果手写识别 API 完全不受支持，或者平台不支持所请求的功能，请点击“修改”按钮将隐藏。不过，基本编辑控件仍可作为 <textarea> 使用。

Web 组件提供了属性，用于定义从外部，包括languages和recognitiontype。您可以通过 value 属性：

<handwriting-textarea languages="en" recognitiontype="text" value="Hello"></handwriting-textarea>

如需了解该值的任何更改，您可以监听 input 事件。

您可以使用 Glitch 上的演示来试用该组件。此外，请务必查看源代码。要使用应用，请从 npm 获取。

安全与权限

Chromium 团队根据核心原则设计和实现了手写识别 API （如控制对强大的 Web 平台功能的访问权限中所述），包括透明度和人体工学设计。

用户控制

用户无法关闭手写识别 API。它仅适用于网站且只能从顶级浏览上下文中调用。

透明度

系统不会显示手写识别功能是否已启用的指示。为防止数字“指纹”收集，浏览器实施对抗措施，例如在检测到以下情况时向用户显示权限提示：滥用行为。

权限保留

手写识别 API 目前不显示任何权限提示。因此，权限不需要以任何方式保留

反馈

Chromium 团队希望了解您使用手写识别 API 的体验。

向我们介绍 API 设计

API 是否有什么无法按预期运行？或者是否缺少方法需要哪些资源或属性来实现您的想法？对安全性有疑问或意见模型？在相应的 GitHub 代码库中提交规范问题，或将您的想法添加到现有问题。

报告实现存在的问题

您是否发现了 Chromium 实现方面的错误？或者，实现是否与规范不同？在 new.crbug.com 上提交 bug。请务必提供尽可能多的细节信息简单的重现说明，并在组件框中输入 Blink>Handwriting。 Glitch 非常适用于分享轻松快速的重现问题。

表示对 API 的支持

您打算使用手写识别 API 吗？您的公开支持对 Chromium 团队有所帮助确定功能的优先级，并向其他浏览器供应商展示支持这些功能的重要性。

请在 WICG Discourse 会话中说明您打算如何使用它。发推文给 @ChromiumDev（使用 # 标签） #HandwritingRecognition 并告诉我们您使用它的地点和方式。

实用链接

致谢

本文由 Joe Medley、Honglin Yu 和 Jiewei Qian 审核。主打图片提供方 Samir Bouaked 不启动。