Docling 简化了文档处理,解析各种格式(包括高级 PDF 理解),并提供与 gen AI 生态系统的无缝集成。
- 解析多种文档格式,包括 PDF、DOCX、XLSX、HTML、图像等
- 高级 PDF 理解,包括页面布局、阅读顺序、表格结构、代码、公式、图像分类等
- 统一、富有表现力的DoclingDocument表现格式
- 各种导出格式和选项,包括 Markdown、HTML 和无损 JSON
- 针对敏感数据和隔离环境的本地执行能力
- 即插即用集成,包括 LangChain、LlamaIndex、Crew AI 和用于代理 AI 的 Haystack
- 广泛支持扫描的 PDF 和图像的 OCR
- 简单方便的 CLI
评论