Ghi chú của biên tập viên (2026-05). Chrome 150 đã loại bỏ navigator.modelContext để ưu tiên document.modelContext (theo PR #184 của đặc tả WebMCP). Các ví dụ trong bài viết này sử dụng mẫu phát hiện tính năng tương thích về phía trước do nhóm Chrome khuyến nghị:

const modelContext = document.modelContext || navigator.modelContext;
if (modelContext) {
  // Register tools...
}

Tích hợp của chính WebConverter sử dụng đúng phương án dự phòng này, nên vẫn hoạt động trên các trình duyệt còn cung cấp định danh cũ.

Khi chúng tôi lần đầu tiên ra mắt hỗ trợ WebMCP, chỉ có chuyển đổi ảnh được nối dây. Kể từ hôm nay, mọi tính năng trên trang đều được cung cấp dưới dạng một công cụ WebMCP: một tác nhân AI có thể gọi document.modelContext và chuyển đổi ảnh, tạo và chỉnh sửa PDF, OCR tài liệu quét, trích xuất văn bản PDF, chuyển đổi tài liệu với Pandoc, chuyển mã và cắt video, chuyển đổi và trích xuất âm thanh, phiên âm giọng nói với Whisper, và xóa nền ảnh — tất cả đều cục bộ trong trình duyệt, tất cả mà không cần tải lên bất cứ thứ gì.

Toàn bộ danh mục công cụ

Mười ba công cụ được đăng ký toàn cục — trên mọi trang của WebConverter, không chỉ trên trang WebMCP — để một tác nhân có thể sử dụng chúng từ bất cứ nơi nào người dùng đang ở. Tất cả đều trả về một tệp base64 cùng với một URL data: (và nơi thích hợp, đầu ra có cấu trúc dưới dạng văn bản thuần hoặc JSON).

Các công cụ bao gồm: convert_image (với một dự phòng giải mã của trình duyệt bổ sung HEIC trên Safari/iOS và AVIF), images_to_pdf, images_to_searchable_pdf (Tesseract OCR), merge_pdfs, reorder_pdf_pages, delete_pdf_pages, extract_pdf_text (pdf.js), convert_document (Pandoc), convert_audio, convert_videotrim_video (ffmpeg-wasm), remove_image_background (U²-Net + matting WASM), transcribe_audio (Whisper), và list_supported_formats để khám phá.

Tại sao điều này quan trọng đối với tác nhân

Một trợ lý AI muốn làm gì đó với một tệp ngày nay thường có ba lựa chọn tệ: tải nó lên một API bên thứ ba, chạy một công cụ phía máy chủ động đến dữ liệu của bạn, hoặc từ chối. WebMCP thay đổi điều đó vì công cụ chính là JavaScript của trang. Tác nhân nhận được khả năng; tệp của bạn không bao giờ rời khỏi tab. Không có khóa API, không có giới hạn tốc độ, không có chi phí, và gần như không có CO2 vì vòng tải lên-xử lý-tải xuống không bao giờ xảy ra.

Lười biếng theo thiết kế

Đoạn khởi tạo webmcp.js rất nhỏ. Các phần đắt đỏ — Pandoc's ~56 MB WASM, các nhân ffmpeg, mô hình ONNX U²-Net, mô hình Whisper, dữ liệu ngôn ngữ của Tesseract — chỉ được tải khi công cụ tương ứng được gọi lần đầu, sau đó trình duyệt sẽ lưu cache chúng. Các tác nhân không bao giờ gọi convert_video sẽ không bao giờ phải trả phí tải xuống ffmpeg.

Quyền riêng tư, an toàn, trung thực

Mọi công cụ đều được chú thích readOnlyHint: byte vào, byte ra, không ghi, không gọi mạng ngoại trừ lần tải xuống engine lười biếng một lần. Chúng tôi cũng trung thực về định dạng — HEIC được liệt kê là "chỉ Safari/iOS" vì đó là sự thật: Chrome và Firefox không giải mã HEIC một cách tự nhiên, và việc đính kèm một bộ giải mã HEIC vài megabyte sẽ vi phạm ngân sách kích thước tài sản của dự án. Dự phòng giải mã bất cứ thứ gì mà bản thân trình duyệt có thể giải mã, và không hơn thế.

Hãy thử

Trang WebMCP liệt kê mọi công cụ đã đăng ký và bao gồm một demo trực tiếp đang hoạt động. Nếu bạn đang xây dựng một tác nhân trong trình duyệt — hoặc chỉ muốn xem một máy chủ WebMCP hoàn chỉnh trông như thế nào — đây là diện mạo của một bề mặt công cụ tệp trung thực, riêng tư, không tốn chi phí. Và nó chỉ là một trang web.

Sẵn sàng chuyển đổi ảnh của bạn?

Dùng thử WebConverter miễn phí