编辑注(2026-05)。Chrome 150 弃用了
navigator.modelContext,改用document.modelContext(依据 WebMCP 规范 PR #184)。本文示例采用 Chrome 团队推荐的向前兼容的特性检测模式:const modelContext = document.modelContext || navigator.modelContext; if (modelContext) { // Register tools... }WebConverter 自身的集成正是使用了这一回退方案,因此在仍然提供旧标识符的浏览器中也能继续运行。
当我们最初推出WebMCP支持时,只有图像转换被接入。从今天起,站点上的每一项功能都已作为WebMCP工具公开:AI智能体可以调用document.modelContext来转换图像、构建和编辑PDF、对扫描件进行OCR、提取PDF文本、用Pandoc转换文档、转换和剪辑视频、转换和提取音频、用Whisper转录语音、去除图像背景 — 全部在浏览器中本地完成,全部无需上传任何东西。
完整的工具目录
这十三个工具是全局注册的 — 在WebConverter的每个页面上,而不仅是WebMCP页面 — 因此智能体无论用户身在何处都可以使用它们。它们全都返回base64文件加上data:URL(在适用情况下,还会返回结构化的纯文本或JSON输出)。
包含的工具:convert_image(带有浏览器解码回退,可在Safari/iOS上增加HEIC,并支持AVIF)、images_to_pdf、images_to_searchable_pdf(Tesseract OCR)、merge_pdfs、reorder_pdf_pages、delete_pdf_pages、extract_pdf_text(pdf.js)、convert_document(Pandoc)、convert_audio、convert_video和trim_video(ffmpeg-wasm)、remove_image_background(U²-Net + WASM抠图)、transcribe_audio(Whisper),以及用于发现的list_supported_formats。
这对智能体意味着什么
今天,想要对文件做点什么的AI助手通常只有三个糟糕的选项:把它上传到第三方API、运行一个会接触你数据的服务器端工具,或者拒绝。WebMCP改变了这一点,因为工具就是页面自身的JavaScript。智能体得到了能力;你的文件永远不会离开标签页。没有API密钥,没有速率限制,没有成本,而且因为上传—处理—下载的往返从未发生,CO2几乎为零。
按需延迟设计
webmcp.js引导脚本非常小。昂贵的部分 — Pandoc约56MB的WASM、ffmpeg核心、U²-Net ONNX模型、Whisper模型、Tesseract的语言数据 — 仅在对应工具首次被调用时才会下载,之后浏览器会缓存它们。从不调用convert_video的智能体永远不会为ffmpeg的下载付出代价。
隐私、安全与诚实
每个工具都标注了readOnlyHint:字节进,字节出,不写文件,除了引擎的一次性延迟下载外不发起任何网络调用。我们对格式也很诚实 — HEIC被标记为"仅限Safari/iOS",因为这是事实:Chrome和Firefox不会原生解码HEIC,而附带一个数兆字节的HEIC解码器会违反项目的资源体积预算。回退方案只解码浏览器自身能解码的内容,仅此而已。
试试看
WebMCP页面列出了每个已注册的工具并包含一个可用的实时演示。如果你正在构建浏览器内的智能体 — 或者只是想看看一个完整的WebMCP服务器是什么样子 — 这就是一个诚实、私密、零成本的文件工具面应有的样子。而它仅仅是一个网页。
准备好转换图像了吗?
免费试用 WebConverter