#微软开源文档转Markdown工具##一键转Markdown工具爆火# 微软开

量子位 2025-07-15 18:00:28

#微软开源文档转Markdown工具##一键转Markdown工具爆火# 微软开源工具MarkItDown:文档一键转Markdown,专门为大模型(LLM)设计。GitHub Star数已达惊人的61.3K! 这个工具用Python实现,主要特点为: 1. 格式丰富且保留结构 支持的文件类型很广:PDF、PPT、Word、Excel、图片、音频、HTML、CSV、JSON、XML、EPUB,甚至油管链接和压缩包都能转。除了提取纯文本,它还能保留文档中的标题、表格、列表、超链接等结构——这对LLM来说非常重要。 2. 专为模型输入优化 Markdown格式本身接近纯文本,又能表达结构信息,是LLM最熟悉的输入格式。MarkItDown的输出并不是给人看的“完美排版”,而是让大模型读得懂、处理得好。 此外,它还支持: - 插件机制:可以自定义格式支持,GitHub上已有部分第三方插件; - LLM辅助OCR/图像描述:支持通过OpenAI API让模型参与图片转写; - 音频转写、视频字幕提取等高级功能,按需安装依赖即可启用。 安装方式也很简单,仅需一句: `pip install 'markitdown[all]'` 或者按需安装单独模块,比如只处理PDF: `pip install 'markitdown[pdf]'` 感兴趣的可以看看它的GitHub项目页:github.com/microsoft/markitdown

0 阅读:0
量子位

量子位

关注前沿科技资讯,追踪人工智能动态