大规模视频语言模型

共 1 篇网址

排序

发布更新浏览点赞

Tarsier

Tarsier是由字节跳动研发的大规模视频语言模型家族，旨在生成高质量的视频描述，并具备良好的视频理解能力。Tarsier 采用了简单的模型结构，结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略，Tarsier 展现出了强大的视频描述能力和视频理解能力，在多个公共基准测试中取得了最先进的成果。

02.4K0

AI大模型 # Tarsier # 大规模视频语言模型 # 视频问答模型