Chaque fonctionnalité de WebConverter est désormais un outil WebMCP — PDF, OCR, Whisper, vidéo, suppression d’arrière-plan

Note de l'éditeur (2026-05). Chrome 150 a déprécié navigator.modelContext au profit de document.modelContext (selon la PR #184 de la spécification WebMCP). Les exemples de ce billet utilisent le motif de détection de fonctionnalité rétrocompatible recommandé par l'équipe Chrome :
const modelContext = document.modelContext || navigator.modelContext;
if (modelContext) {
  // Register tools...
}
L'intégration de WebConverter utilise exactement ce repli, ce qui lui permet de continuer à fonctionner sur les navigateurs qui exposent encore l'ancien identifiant.

Lorsque nous avons livré pour la première fois la prise en charge de WebMCP, seule la conversion d’images était câblée. À partir d’aujourd’hui, chaque fonctionnalité du site est exposée comme outil WebMCP : un agent IA peut appeler document.modelContext et convertir des images, créer et éditer des PDF, faire de l’OCR sur des scans, extraire le texte des PDF, convertir des documents avec Pandoc, convertir et découper de la vidéo, convertir et extraire de l’audio, transcrire la parole avec Whisper, et supprimer l’arrière-plan d’images — le tout localement dans le navigateur, le tout sans rien téléverser.

Le catalogue complet d’outils

Les treize outils sont enregistrés globalement — sur chaque page de WebConverter, pas uniquement sur la page WebMCP — afin qu’un agent puisse les utiliser là où se trouve l’utilisateur. Ils renvoient tous un fichier base64 plus une URL data: (et, lorsque c’est approprié, la sortie structurée en texte brut ou en JSON).

Les outils incluent : convert_image (avec un repli sur le décodage du navigateur qui ajoute HEIC sur Safari/iOS et AVIF), images_to_pdf, images_to_searchable_pdf (OCR Tesseract), merge_pdfs, reorder_pdf_pages, delete_pdf_pages, extract_pdf_text (pdf.js), convert_document (Pandoc), convert_audio, convert_video et trim_video (ffmpeg-wasm), remove_image_background (U²-Net + matting WASM), transcribe_audio (Whisper), ainsi que list_supported_formats pour la découverte.

Pourquoi cela compte pour les agents

Un assistant IA qui veut faire quelque chose avec un fichier aujourd’hui n’a généralement que trois mauvaises options : le téléverser vers une API tierce, exécuter un outil côté serveur qui touche vos données, ou refuser. WebMCP change la donne car l’outil est le JavaScript de la page elle-même. L’agent obtient la capacité ; votre fichier ne quitte jamais l’onglet. Il n’y a pas de clé API, pas de limite de débit, pas de coût, et presque zéro CO₂ parce que l’aller-retour téléversement-traitement-téléchargement n’a jamais lieu.

Différé par conception

Le bootstrap webmcp.js est minuscule. Les parties coûteuses — les ~56 Mo de WASM de Pandoc, les cores ffmpeg, le modèle ONNX U²-Net, le modèle Whisper, les données linguistiques de Tesseract — ne sont récupérées qu’à la première utilisation de l’outil correspondant, puis le navigateur les met en cache. Les agents qui n’appellent jamais convert_video ne paient jamais le téléchargement de ffmpeg.

Confidentialité, sécurité, honnêteté

Chaque outil est annoté readOnlyHint : octets en entrée, octets en sortie, aucune écriture, aucun appel réseau hormis le téléchargement unique et différé du moteur. Nous sommes honnêtes sur les formats aussi — HEIC est listé comme « Safari/iOS uniquement » parce que c’est la vérité : Chrome et Firefox ne décodent pas HEIC nativement, et livrer un décodeur HEIC de plusieurs mégaoctets violerait le budget de taille d’actifs du projet. Le repli décode ce que le navigateur lui-même peut décoder, et rien de plus.

Essayez-le

La page WebMCP liste chaque outil enregistré et inclut une démo en direct qui fonctionne. Si vous construisez un agent dans le navigateur — ou si vous voulez juste voir à quoi ressemble un serveur WebMCP complet — voici à quoi ressemble une surface d’outils de fichiers honnête, privée et sans coût. Et ce n’est qu’une page web.

Prêt à convertir vos images ?

Essayer WebConverter gratuitement