字节跳动Dolphin多模态文档解析神器开源,16G显存就能流畅运行

最近字节跳动开源了一款创新多模态文档图像解析模型——Dolphin,基于先解析结构后解析内容的两阶段方法,参数只有322M,16G显存就能流畅运行,而且效果比不输GPT-4.1!

目前支持Pdf和图片直接解析成Markdown和Json格式。官网直接给出了Demo在线地址,真的太良心了!直接上手体验!

(1)15秒识别表格图片

(2)30秒识别公式

是不是很酷的感觉,我看了一下github项目文档,安装也非常简便,我们按照教程一步步来。

1.根据Dolphin项目requirements.txt要求,准备安装环境,安装torch2.1.0版本环境。我这里准备了一个干净的docker容器。

2.下载 Dolphin Github 项目仓库

2.下载安装所有依赖(Long time!!),这里浪费了我一个小时时间。

3.接下来我们需要安装Git LFS,方便下一步下载模型大文件。

4.下载预训练模型文件,这个模型文件托管在HuggingFace网站上,国内是无房直接访问的。还好我之前吃过亏,这里直接使用了HuggingFace的国内镜像站

5.激动的时刻来了,运行测试命令

整体比较顺利。下面我们把这个服务做成API,这样就可以用在我们的智能体工作流中了!

在Google Gemini中输入一下提示词,就可以使用FastAPI创建接口了。

资源下载: