视频大模型删余提速:减时训练,高帧加速
随着计算机视觉技术的不断发展,视频大模型在图像识别、动作识别等领域取得了显著的成就。然而,视频大模型的训练和推理通常需要消耗大量的计算资源和时间,这限制了它们在实际应用中的广泛部署。
近日,卡内基梅隆大学的一项研究提出了视频大模型加速方法 Run-Length Tokenization(RLT),通过消除视频中的冗余信息,大幅提升了模型的训练和推理速度。
RLT 原理
RLT 的核心原理是利用视频中存在大量时间上重复的图像块这一特点,将重复的图像块合并为一个 token 表示。具体来说,RLT 首先将视频划分为固定大小的图像块,然后比较时间上相邻的图像块,判断它们是否相似(相似性通过 L1 距离计算)。如果两个图像块相似,则将它们合并为一个 token,并移除重复的图像块。
为了让合并后的 token 仍然能够反映完整的视频信息,RLT 为每个 token 添加了一个长度编码,表示该 token 所代表的原始 token 数量。长度信息与 token 的空间-时间位置一起,通过一个可学习的长度编码矩阵映射成一个嵌入向量,与 patch embedding 相加,作为输入 token 的最终表示。
加速效果
RLT 在训练阶段对 ViT-B 和 ViT-L 两种规模的模型都有很好的加速效果。在 Kinetics-400 数据集上,ViT-B 和 ViT-L 的训练时间分别从 14.4 小时和 21.6 小时,降低到 10.2 小时和 15.4 小时,降幅均接近 30% 左右,精度损失不超过 0.1 个百分点。
在推理阶段,RLT 也可以作为现成的 tokenizer,达到很好的加速效果。具体来说,RLT 能在几乎不牺牲精度(不超过 0.5 个百分点)的情况下,将推理阶段的计算量和延迟降低 30-60%。在 Kinetics-400 和 SSv2 数据集上,对于 ViT-B 和 ViT-L,RLT 都能带来 60% 以上的推理加速。
高帧率和长时长视频加速
RLT 对高帧率和长时长视频数据集表现出了更好的加速效果。在高帧率数据集上,RLT 能够在精度损失同样低的情况下,实现更好的加速效果。而且帧率越高效果也越明显,对于 30fps 的视频,加速可达 100%。
与传统剪枝方法的比较
传统的剪枝方法,如 Token Merging,虽然也能加速视频大模型,但往往会带来更严重的精度损失。RLT 在精度损失同样低的情况下,能够实现更好的加速效果。
应用前景
RLT 的提出为视频大模型的加速提供了新的思路,使其在实际应用中更加可行。随着计算机视觉技术的不断发展,RLT 在视频识别、行为分析等领域有望得到广泛的应用。
此外,RLT 的原理也可以应用于其他基于 Transformer 的序列学习任务,如自然语言处理和语音识别。通过消除冗余信息,RLT 可以提高模型的效率,降低训练和推理成本,推动这些领域的研究和应用取得进一步的进展。
原创文章,作者:讯知在线,如若转载,请注明出处:http://web.xzxci.cn/2024/11/19/18747.shtml