WebConverter的每项功能现已成为WebMCP工具 — PDF、OCR、Whisper、视频、背景去除

编辑注（2026-05）。Chrome 150 弃用了 navigator.modelContext，改用 document.modelContext（依据 WebMCP 规范 PR #184）。本文示例采用 Chrome 团队推荐的向前兼容的特性检测模式：
const modelContext = document.modelContext || navigator.modelContext;
if (modelContext) {
  // Register tools...
}
WebConverter 自身的集成正是使用了这一回退方案，因此在仍然提供旧标识符的浏览器中也能继续运行。

当我们最初推出WebMCP支持时，只有图像转换被接入。从今天起，站点上的每一项功能都已作为WebMCP工具公开：AI智能体可以调用document.modelContext来转换图像、构建和编辑PDF、对扫描件进行OCR、提取PDF文本、用Pandoc转换文档、转换和剪辑视频、转换和提取音频、用Whisper转录语音、去除图像背景 — 全部在浏览器中本地完成，全部无需上传任何东西。

完整的工具目录

这十三个工具是全局注册的 — 在WebConverter的每个页面上，而不仅是WebMCP页面 — 因此智能体无论用户身在何处都可以使用它们。它们全都返回base64文件加上data:URL（在适用情况下，还会返回结构化的纯文本或JSON输出）。

包含的工具：convert_image（带有浏览器解码回退，可在Safari/iOS上增加HEIC，并支持AVIF）、images_to_pdf、images_to_searchable_pdf（Tesseract OCR）、merge_pdfs、reorder_pdf_pages、delete_pdf_pages、extract_pdf_text（pdf.js）、convert_document（Pandoc）、convert_audio、convert_video和trim_video（ffmpeg-wasm）、remove_image_background（U²-Net + WASM抠图）、transcribe_audio（Whisper），以及用于发现的list_supported_formats。

这对智能体意味着什么

今天，想要对文件做点什么的AI助手通常只有三个糟糕的选项：把它上传到第三方API、运行一个会接触你数据的服务器端工具，或者拒绝。WebMCP改变了这一点，因为工具就是页面自身的JavaScript。智能体得到了能力；你的文件永远不会离开标签页。没有API密钥，没有速率限制，没有成本，而且因为上传—处理—下载的往返从未发生，CO₂几乎为零。

按需延迟设计

webmcp.js引导脚本非常小。昂贵的部分 — Pandoc约56MB的WASM、ffmpeg核心、U²-Net ONNX模型、Whisper模型、Tesseract的语言数据 — 仅在对应工具首次被调用时才会下载，之后浏览器会缓存它们。从不调用convert_video的智能体永远不会为ffmpeg的下载付出代价。

隐私、安全与诚实

每个工具都标注了readOnlyHint：字节进，字节出，不写文件，除了引擎的一次性延迟下载外不发起任何网络调用。我们对格式也很诚实 — HEIC被标记为"仅限Safari/iOS"，因为这是事实：Chrome和Firefox不会原生解码HEIC，而附带一个数兆字节的HEIC解码器会违反项目的资源体积预算。回退方案只解码浏览器自身能解码的内容，仅此而已。

试试看

WebMCP页面列出了每个已注册的工具并包含一个可用的实时演示。如果你正在构建浏览器内的智能体 — 或者只是想看看一个完整的WebMCP服务器是什么样子 — 这就是一个诚实、私密、零成本的文件工具面应有的样子。而它仅仅是一个网页。

准备好转换图像了吗？

免费试用 WebConverter