总计 5 次浏览

PDF免费全能的文档解析神器插图

 

MinerU 是一款由上海人工智能实验室大模型数据基座 OpenDataLab 团队开发的一站式开源高质量数据提取工具。
  • 主要功能
    • 格式转换与数据提取:能将 PDF、网页、多格式电子书等转换为机器可读格式,如 Markdown、JSON、Word 等,可提取文字、图片、图片描述、表格等内容。
    • 格式自动识别与转换:自动识别并转换文档中的 LaTeX 格式、HTML 格式,例如将公式转换为 LaTeX 格式,表格转换为 HTML 格式。
    • OCR 功能:自动检测扫描版 PDF 和乱码 PDF,并启用 OCR 功能,支持 84 种语言的检测与识别。
    • 文档结构处理:删除页眉、页脚、脚注、页码等元素,确保语义连贯,同时保留原文档的结构,包括标题、段落、列表等。
    • 可视化结果:支持多种可视化结果,包括 layout 可视化、span 可视化等,便于高效确认输出效果与质检。
  • 软件特点
    • 多平台兼容:支持 CPU 和 GPU 环境,兼容 Windows、Linux 和 Mac 平台。
    • 开源免费:开源且免费提供 API 和客户端下载,无需登录,代码透明可审计。

 

GitHub:https://github.com/opendatalab/MinerU

中文文档:https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md

官网:https://mineru.net

在线使用:https://mineru.net/OpenSourceTools/Extractor

下载:https://webpub.shlab.tech/MinerU/latest/win/MinerU-0.9.0-setup.exe?t=1

By 站长

发表回复

普人特福的博客cnzz&51la for wordpress,cnzz for wordpress,51la for wordpress