微软近 5 万 star 的开源项目 —— MarkItDown 已支持 MCP

来源: OSCHINA
编辑:
2025-04-21 15:37:46

MarkItDown 是微软开源的 Python 实用工具库,支持将各种文件转换为 Markdown 格式,适用于索引、文本分析等用途。

MarkItDown 目前支持以下文件:

  • PDF
  • PowerPoint
  • Word
  • Excel
  • 图片(EXIF 元数据和 OCR)
  • 音频(EXIF 元数据和语音转录)
  • HTML
  • 基于文本的格式(CSV、JSON、XML)
  • ZIP 文件(遍历内容)

该项目最近发布了一项“史诗级”更新 —— 支持 MCP。MarkItDown 现已提供 MCP(模型上下文协议)服务器 (MarkItDown-MCP),以便与 LLM 应用程序如 Claude Desktop 集成。

MarkItDown-MCP 提供两种主要的服务器模式:

  1. STDIO模式(默认):通过标准输入/输出进行通信,非常适合与命令行工具和脚本集成。

  2. SSE模式:作为服务器发送事件(Server-Sent Events)服务器在指定主机和端口上运行,支持基于 Web 和网络的集成。

Docker 支持

为了增强可移植性和隔离性,MarkItDown-MCP 提供了 Docker 支持。这在以下情况特别有用:

  • 确保在不同系统上的环境一致性

  • 将转换过程与主机系统隔离

  • 与 Claude Desktop 等远程服务协作

Docker 集成包括挂载本地目录的功能,允许容器访问和转换本地文件,同时维持安全边界。

更多信息查看 markitdown-mcp

展开阅读全文
点击加入讨论🔥(1) 发布并加入讨论🔥
1 评论
3 收藏
分享
返回顶部
顶部