你的位置:色播五月 > 米菲兔 丝袜 > 北条麻妃 DeepMind偷偷发布PaliGemma二代,最易微调「视觉言语万能王」来了,多项任务登顶SOTA
北条麻妃 DeepMind偷偷发布PaliGemma二代,最易微调「视觉言语万能王」来了,多项任务登顶SOTA
发布日期:2024-12-16 13:05    点击次数:103

北条麻妃 DeepMind偷偷发布PaliGemma二代,最易微调「视觉言语万能王」来了,多项任务登顶SOTA

PaliGemma 2在多个任务上取得了业界最初的获利,包括图像形容、曲谱识别和医学图像报酬生成;而况提供了不同尺寸和鉴别率的版块北条麻妃,用户不错凭证不同的任务需求进行微调,以赢得更好的性能。

OpenAI的发布会仿佛连气儿剧,让东谈主头昏脑闷,谷歌也偷偷发布了PaliGemma 2模子,迈向可调视觉言语模子的下一代。

本年5月,谷歌发布PaliGemma,亦然Gemma眷属中的第一个视觉言语模子,尽力于模黎民主化,裁汰视觉模子的使用难度。

PaliGemma 2模子以更高性能的Gemma 2为基座,加多了视觉材干,微调起来更容易,性能也更好。

时刻报酬均分析了任务类型、模子尺寸和鉴别率之间的相互作用,比拟PaliGemma进一步扩大了迁徙任务的数目和范围,包括与OCR有关的任务,如表格结构识别、分子结构识别、曲谱识别,以及更长、更细粒度的图像形容和辐照学报酬生成,而况在这些任务上齐取得了起头进的戒指。

报酬连气儿:https://arxiv.org/pdf/2412.03555

PaliGemma 2的主要特色为:

1. 模子尺寸包括3B、10B、28B 参数,可允洽任务鉴别率为224px、448px、896px的视觉输入。

2. PaliGemma 2不错为图像生成详备的、高低文有关的形容,而不仅仅浅薄的对象识别来形容动作、脸色和场景的全体论说。

3. PaliGemma 2在化学式识别、曲谱识别、空间推理和胸部X光报酬生成方面的性能更强。

PaliGemma一代的用户不错径直升级到PaliGemma 2,无需进行要紧代码修改即可赢得性能进步。

模子架构

筹谋东谈主员驯服与PaliGemma疏通的建模、考验和数据竖立:使用预考验SigLIP-So400m视觉编码器,通过线性投影将「镶嵌序列」映射到Gemma 2的输入空间;视觉镶嵌与文本辅导联接后,输入到Gemma 2言语模子;终末通过自回首采样从言语模子中赢得瞻望。

筹谋东谈主员将PaliGemma 2的预考验分为三个阶段(不包括对单模态组件进行预考验)。

第一阶段,联接预考验的SigLIPSo400m和Gemma 2的原始模子权重,并在罕见10亿个多模态任务样本上进行考验;图像鉴别率为224*224像素;在此阶段莫得冻结任何参数。

第二阶段,先在448*448像素鉴别率下对5000万个样本进行考验,然后在896*896像素鉴别率下考验1000万个样本。在职务经受上,加多那些「能从高鉴别率图像中受益的任务」比例,加多输出序列的长度,以促进长视觉文本序列的OCR等任务的学习。

第三阶段,将第一或第二阶段的检查点微调到标的任务。PaliGemma包括一系列学术基准,包括一些波及多张图像和短视频的基准。

此外北条麻妃,筹谋东谈主员还探索了文档的有关任务、长图像形容生成和医学图像清爽的新哄骗。

实验戒指

筹谋东谈主员测试了PaliGemma 2在文本检测和识别、表格结构识别、分子结构识别、光学曲谱识别(optical music score recognition)、长图像形容生成、空间推理以及辐照图像报酬生成(radiography report generation)任务上的性能。

模子尺寸和鉴别率

筹谋东谈主员探索了不同尺寸和鉴别率的模子在完成各式任务时的推崇如何,主要经受了三种尺寸(3B、10B和28B),并在两种不同的图像闪现度(224像素和448像素)下对模子进行考验,任务包括了对当然相片、文献、图表和视频的图像形容、视觉问答和指代分割等。

从戒指中不错发现,让模子科罚更高闪现度的图像梗概使用更大尺寸的言语模子,齐会加多瞻望时的狡计量,但大巨额任务齐能从这两项革命中赢得性能进步。

波及文本、文档、屏幕和图表清爽的任务,提高图像闪现度带来的收益更大,可能是因为这些任务中使用的图像原陌生辨率就比224像素大,是以提高鉴别率后恶果更暴露。

波及多言语数据或需要复杂视觉推理的任务,主要从增大模子尺寸中获益。

文本检测和识别

在高等光学字符识别(OCR)任务时,模子需要从图像中定位和识别出单词,输出戒指为一个数据对「转录文本,范围框」,筹谋东谈主员驯服HierText竞赛的法例,使用单词级别的精准度、调回率和F1分数当作评估标的。

如若单词戒指与确凿范围框的交并比(IoU)大于或即是0.5,而况转录文本与确凿文本匹配,则觉得该单词戒指是true positive,但HierText公约不会归一化字母大小写、标点标记,也不会凭证文本长度进行过滤,而是径直将瞻望戒指与确凿戒指进行比较。

筹谋东谈主员使用常见的OCR基准测试,包括ICDAR’15、Total-Text、MLT17和MLT19、HierText、TextOCR、IntelOCR等多个数据集的考验分割搀杂上对PaliGemma 2进行了微调,并在ICDAR’15和Total-Text测试集上进行评估。

戒指炫夸,在896像素鉴别率下,PaliGemma 2 3B的性能罕见了起头进的HTS模子。

需要谛视的是,PaliGemma 2并莫得依赖于OCR专用的架构组件,只通过微调一个通用的视觉-言语模子(VLM)即终暴露sota,展现了PaliGemma 2的多功能性,以及在第2和第3阶段进行OCR有关预考验的上风。

裁汰鉴别率后,瞻望质地大幅下跌,而况增大模子尺寸并莫得带来革命。

表格结构识别

表格结构识别任务的标的是从文档图像中索要表格文本实践、相应的范围框坐标以及HTML法度的表格结构。

筹谋东谈主员经受PubTabNet的516k张表格数据图像,和FinTabNet数据围聚来自标普500公司年报的113k个财务报酬表格,去除范围框超出图像框架的数据后,把图像填充为正方形以匹配标的输入鉴别率。

筹谋东谈主员使用树裁剪距离雷同度(TEDS)和网格表格雷同度(GriTS)两个标的来评估模子质地,主要测量单位格文本实践、单位格拓扑/结构和范围框质地。

戒指炫夸,PaliGemma 2在大巨额标的下齐展现出了最高的性能,而况加多模子尺寸也莫得对模子的性能带来进步,而使用更低的图像鉴别率则会导致质地出现小幅下跌。

曲谱识别

筹谋东谈主员使用了GrandStaff数据集进行微调,包含53.7k张图像,基于法度化的平均裁剪距离、字符舛错率(CER)、标记舛错率(SER)、行舛错率(LER)进行评估。

戒指炫夸,跟着鉴别率的提高,舛错率也在自如裁汰,但将模子大小从3B加多到10B并莫得影响性能。

辐照报酬生成

为了探索PaliGemma 2在医学限制的材干,筹谋东谈主员将其用于自动胸部X光报酬生成任务上,尽头于对X光图像进行长形容。

MIMICCXR数据集包含37.7万张图像,及相应的辐照报酬;使用Gemini 1.5 pro来移除之前数据中涵盖的X光。

在使用该数据进行微调后,用RadGraph F1分数评估戒指,估计参考报酬中索要的实体与生成报酬之间的F1分数,不错响应报酬中实体的缺失或调回情况,以及与图像特征的筹议。

丁香五月天

不错看到,PaliGemma 2模子的终暴露最佳的性能,提高鉴别率和模子大小齐能带来性能进步。

CPU推理和量化

为了评估只用CPU进行推理的速率,筹谋东谈主员在四种不同的架构上使用gemma.cpp启动PaliGemma 2模子,检查点使用在COCOcap上微调过的PaliGemma 2 3B(224像素)模子。

辅导词「形容这幅图像」的预填充长度为256+4=260个token(图像+文本),输出回话「A large building with two towers on the water」为11个token

筹谋东谈主员还对模子进行了量化实验,从32位浮点(f32)弯曲到16位(bf16)权重,戒指炫夸性能各别并不大。

参考贵寓:

https://x.com/kimmonismus/status/1864832125851312495北条麻妃