Jede WebConverter-Funktion ist jetzt ein WebMCP-Werkzeug — PDF, OCR, Whisper, Video, Hintergrundentfernung

Anmerkung der Redaktion (2026-05). Chrome 150 hat navigator.modelContext zugunsten von document.modelContext als veraltet markiert (gemäß WebMCP-Spec PR #184). Beispiele in diesem Beitrag verwenden das vom Chrome-Team empfohlene, vorwärtskompatible Feature-Detection-Muster:
const modelContext = document.modelContext || navigator.modelContext;
if (modelContext) {
  // Register tools...
}
Die WebConverter-Integration verwendet genau diesen Fallback, sodass sie weiterhin in Browsern funktioniert, die den älteren Bezeichner noch ausliefern.

Als wir die WebMCP-Unterstützung zum ersten Mal ausgeliefert haben, war nur die Bildkonvertierung verdrahtet. Seit heute ist jede Funktion der Website als WebMCP-Werkzeug verfügbar: Ein KI-Agent kann document.modelContext aufrufen und Bilder konvertieren, PDFs erstellen und bearbeiten, Scans per OCR verarbeiten, PDF-Text extrahieren, Dokumente mit Pandoc konvertieren, Videos konvertieren und schneiden, Audio konvertieren und extrahieren, Sprache mit Whisper transkribieren und Bildhintergründe entfernen — alles lokal im Browser, alles ohne irgendetwas hochzuladen.

Der vollständige Werkzeugkatalog

Die dreizehn Werkzeuge werden global registriert — auf jeder Seite von WebConverter, nicht nur auf der WebMCP-Seite —, sodass ein Agent sie überall dort nutzen kann, wo sich der Nutzer befindet. Sie geben alle eine base64-Datei plus eine data:-URL zurück (und, sofern angebracht, die strukturierte Ausgabe als reinen Text oder JSON).

Zu den Werkzeugen gehören: convert_image (mit einem Browser-Decode-Fallback, der HEIC unter Safari/iOS und AVIF hinzufügt), images_to_pdf, images_to_searchable_pdf (Tesseract-OCR), merge_pdfs, reorder_pdf_pages, delete_pdf_pages, extract_pdf_text (pdf.js), convert_document (Pandoc), convert_audio, convert_video und trim_video (ffmpeg-wasm), remove_image_background (U²-Net + WASM-Matting), transcribe_audio (Whisper) sowie list_supported_formats zur Entdeckung.

Warum das für Agenten wichtig ist

Ein KI-Assistent, der heute etwas mit einer Datei tun möchte, hat in der Regel drei schlechte Optionen: sie zu einer Drittanbieter-API hochladen, ein serverseitiges Werkzeug ausführen, das Ihre Daten berührt, oder ablehnen. WebMCP ändert das, weil das Werkzeug das eigene JavaScript der Seite ist. Der Agent erhält die Fähigkeit; Ihre Datei verlässt den Tab nie. Es gibt keinen API-Schlüssel, kein Ratenlimit, keine Kosten und nahezu null CO₂, weil die Hochladen-Verarbeiten-Herunterladen-Schleife nie stattfindet.

Verzögert by Design

Das webmcp.js-Bootstrap ist winzig. Die teuren Teile — Pandocs ~56 MB WASM, die ffmpeg-Cores, das U²-Net-ONNX-Modell, das Whisper-Modell, die Sprachdaten von Tesseract — werden erst beim ersten Aufruf des entsprechenden Werkzeugs geladen, danach werden sie vom Browser zwischengespeichert. Agenten, die nie convert_video aufrufen, zahlen nie den ffmpeg-Download.

Datenschutz, Sicherheit, Ehrlichkeit

Jedes Werkzeug ist mit readOnlyHint annotiert: Bytes hinein, Bytes hinaus, keine Schreibvorgänge, keine Netzwerkaufrufe außer dem einmaligen verzögerten Engine-Download. Auch bei den Formaten sind wir ehrlich — HEIC ist als „nur Safari/iOS" gelistet, weil das die Wahrheit ist: Chrome und Firefox dekodieren HEIC nicht nativ, und einen mehrere Megabyte großen HEIC-Decoder auszuliefern würde gegen das Asset-Größenbudget des Projekts verstoßen. Der Fallback dekodiert das, was der Browser selbst dekodieren kann, und nicht mehr.

Probieren Sie es aus

Die WebMCP-Seite listet jedes registrierte Werkzeug auf und enthält eine funktionierende Live-Demo. Wenn Sie einen In-Browser-Agenten bauen — oder einfach sehen wollen, wie ein vollständiger WebMCP-Server aussieht — dann ist dies das Bild einer ehrlichen, privaten, kostenlosen Datei-Werkzeug-Oberfläche. Und es ist nur eine Webseite.

Bereit, Ihre Bilder zu konvertieren?

WebConverter kostenlos testen