字节跳动Dolphin多模态文档解析神器开源，16G显存就能流畅运行

最近字节跳动开源了一款创新多模态文档图像解析模型——Dolphin，基于先解析结构后解析内容的两阶段方法，参数只有322M，16G显存就能流畅运行，而且效果比不输GPT-4.1！

目前支持Pdf和图片直接解析成Markdown和Json格式。官网直接给出了Demo在线地址，真的太良心了！直接上手体验！

（1）15秒识别表格图片

（2）30秒识别公式

是不是很酷的感觉，我看了一下github项目文档，安装也非常简便，我们按照教程一步步来。

1.根据Dolphin项目requirements.txt要求，准备安装环境，安装torch2.1.0版本环境。我这里准备了一个干净的docker容器。

2.下载 Dolphin Github 项目仓库

2.下载安装所有依赖（Long time！！），这里浪费了我一个小时时间。

3.接下来我们需要安装Git LFS，方便下一步下载模型大文件。

4.下载预训练模型文件，这个模型文件托管在HuggingFace网站上，国内是无房直接访问的。还好我之前吃过亏，这里直接使用了HuggingFace的国内镜像站

5.激动的时刻来了，运行测试命令

整体比较顺利。下面我们把这个服务做成API，这样就可以用在我们的智能体工作流中了！

在Google Gemini中输入一下提示词，就可以使用FastAPI创建接口了。

资源下载：