WebConverter'ın her özelliği artık bir WebMCP aracı — PDF, OCR, Whisper, video, arka plan kaldırma

Editör notu (2026-05). Chrome 150, WebMCP spec PR #184 uyarınca navigator.modelContext'i kullanımdan kaldırdı ve yerine document.modelContext'i koydu. Bu yazıdaki örnekler, Chrome ekibinin önerdiği ileriye dönük uyumlu özellik algılama desenini kullanıyor:
const modelContext = document.modelContext || navigator.modelContext;
if (modelContext) {
  // Register tools...
}
WebConverter'ın kendi entegrasyonu tam olarak bu yedeği kullanıyor, bu sayede eski tanımlayıcıyı hâlâ sunan tarayıcılarda da çalışmaya devam ediyor.

WebMCP desteğini ilk yayınladığımızda yalnızca görüntü dönüştürme bağlanmıştı. Bugün itibarıyla sitedeki her özellik bir WebMCP aracı olarak sunuluyor: bir yapay zeka ajanı document.modelContext'i çağırabilir ve görüntüleri dönüştürebilir, PDF'leri oluşturup düzenleyebilir, taramalarda OCR yapabilir, PDF metnini çıkarabilir, Pandoc ile belge dönüştürebilir, video dönüştürebilir ve kırpabilir, ses dönüştürebilir ve çıkarabilir, Whisper ile konuşma transkripsiyonu yapabilir ve görüntü arka planını kaldırabilir — hepsi tarayıcıda yerel olarak, hiçbir şey yüklemeden.

Tam araç kataloğu

On üç araç genel olarak — yalnızca WebMCP sayfasında değil, WebConverter'ın her sayfasında — kaydedilir; böylece bir ajan, kullanıcı nerede olursa olsun bunları kullanabilir. Hepsi bir base64 dosyası artı bir data: URL'si (ve uygun olduğunda yapılandırılmış çıktıyı düz metin veya JSON olarak) döndürür.

Araçlar şunları içerir: convert_image (Safari/iOS'ta HEIC ve AVIF ekleyen bir tarayıcı kod çözücü geri dönüşüyle birlikte), images_to_pdf, images_to_searchable_pdf (Tesseract OCR), merge_pdfs, reorder_pdf_pages, delete_pdf_pages, extract_pdf_text (pdf.js), convert_document (Pandoc), convert_audio, convert_video ve trim_video (ffmpeg-wasm), remove_image_background (U²-Net + WASM matting), transcribe_audio (Whisper) ve keşif için list_supported_formats.

Bu, ajanlar için neden önemli

Bugün bir dosyayla bir şey yapmak isteyen bir yapay zeka asistanının genellikle üç kötü seçeneği vardır: dosyayı üçüncü taraf bir API'ye yüklemek, verilerinize dokunan sunucu tarafı bir araç çalıştırmak ya da reddetmek. WebMCP bunu değiştirir çünkü araç sayfanın kendi JavaScript'idir. Ajan yetkiyi alır; dosyanız sekmeden asla çıkmaz. API anahtarı yok, hız sınırı yok, maliyet yok ve yükle-işle-indir gidiş dönüşü hiç gerçekleşmediği için neredeyse sıfır CO₂.

Tasarımı gereği tembel

webmcp.js bootstrap'i çok küçük. Pahalı kısımlar — Pandoc'un ~56 MB WASM'ı, ffmpeg çekirdekleri, U²-Net ONNX modeli, Whisper modeli, Tesseract'ın dil verileri — yalnızca ilgili araç ilk kez çağrıldığında getirilir, ardından tarayıcı bunları önbelleğe alır. convert_video'yu hiç çağırmayan ajanlar ffmpeg indirmesi için asla ödeme yapmaz.

Gizlilik, güvenlik, dürüstlük

Her araç readOnlyHint ile işaretlenir: bayt girer, bayt çıkar, yazma yok, motorun bir defalık tembel indirilmesi dışında ağ çağrısı yok. Formatlar konusunda da dürüstüz — HEIC "yalnızca Safari/iOS" olarak listelenmiştir çünkü gerçek bu: Chrome ve Firefox HEIC'i yerel olarak çözmez ve birkaç megabaytlık bir HEIC kod çözücüsünü göndermek projenin asset boyutu bütçesini ihlal eder. Geri dönüş, yalnızca tarayıcının kendisinin çözebildiği şeyleri çözer, daha fazlasını değil.

Deneyin

WebMCP sayfası kayıtlı her aracı listeler ve çalışan canlı bir demo içerir. Tarayıcıda bir ajan oluşturuyorsanız — ya da yalnızca eksiksiz bir WebMCP sunucusunun nasıl göründüğünü görmek istiyorsanız — dürüst, gizli, sıfır maliyetli bir dosya araçları yüzeyi işte böyle görünür. Ve sadece bir web sayfasıdır.

Görsellerinizi dönüştürmeye hazır mısınız?

WebConverter'ı ücretsiz deneyin