Tarsier

9个月前发布 1.6K 00

工具介绍:Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。

收录时间:
2025-02-10

Tarsier简介

Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。

Tarsier 模型适用于各种视频理解任务,如视频字幕生成、视频问答和视频定位等,能够处理复杂的视频内容并生成详细准确的描述。

Tarsier

Tarsier:字节跳动推出的大规模视频语言模型家族

Tarsier的主要功能特色

  • 高质量视频描述:Tarsier 能够生成详细、准确的视频描述,通过多任务预训练和多粒度指令微调,显著提升了视频描述的能力。
  • 视频理解能力:Tarsier 在多个公开基准测试中取得了新的最佳结果,包括视频问答、视频地面、幻觉测试等任务。
  • 简单的模型结构:Tarsier 使用 CLIP-ViT 作为视觉编码器,LLM 作为文本解码器,通过 MLP 层连接两者,实现了独立编码帧并输入 LLM 的方法。
  • 两阶段训练策略:Tarsier 采用多任务预训练和多粒度指令微调的策略,提高了模型的泛化能力和视频描述的质量。
  • 新的视频描述基准:Tarsier 提出了 DREAM-1K 基准,包含 1000 个具有多样复杂性的视频片段,用于评估视频描述模型的质量。

Tarsier模型的最新版本Tarsier2在多个方面进行了显著的改进,特别是在数据量和多样性方面。预训练数据从1100万扩展到4000万视频文本对,增强了模型的学习能力。此外,Tarsier2在监督微调阶段引入了细粒度时间对齐,进一步提高了视频描述的准确性和细节捕捉能力。通过直接偏好优化(DPO)训练,Tarsier2能够生成更符合人类偏好的视频描述,减少生成幻觉的可能性。

在性能评估方面,Tarsier2在DREAM-1K基准测试中表现出色,其F1分数比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中,Tarsier2取得了新的最佳结果,涵盖视频问答、视频定位、幻觉测试和问答等功能,展示了其作为强大通用视觉语言模型的多功能性。

论文:https://arxiv.org/abs/2501.07888

Code: https://github.com/bytedance/tarsier

Dataset: https://huggingface.co/datasets/omni-research/DREAM-1K

Demo: https://huggingface.co/spaces/omni-research/Tarsier2-7b

数据评估

Tarsier浏览人数已经达到1.6K,如你需要查询该站的相关权重信息,可以通过第三方来进行查询,比如爱站、5118数据、chinaz等;更多网站价值评估因素如:该网站的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找该网站的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Tarsier特别声明

本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年2月10日 下午1:22收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。

与Tarsier相关工具

HunyuanVideo-Foley

HunyuanVideo-Foley

HunyuanVideo‑Foley是腾讯混元团队开源的多模态视频拟音生成模型,可根据视频画面与文字描述自动生成高保真、精准同步的音效。采用多模态扩散变换器与表征对齐(REPA)技术,结合 Synchformer 时间对齐模块,实现音画逐帧匹配。支持短视频、影视后期、广告创意、游戏开发等多场景应用,生成媲美录音室质量的 48kHz 专业音效,让创作者高效完成沉浸式视听内容制作。
知海图AI

知海图AI

知海图AI是知乎与面壁智能合作开发的中文大模型,于2023年4月13日开始内测。它的主要功能是对知乎热榜上的问题回答进行要素抽取、观点梳理和内容聚合,以便用户能够更快、更全面地了解知友们讨论的热点与焦点。知海图AI在特定场景中的表现与GPT-4相当,显示出强大的语言理解和内容总结能力。此外,知海图AI的发布也标志着知乎在大语言模型领域的进一步布局,旨在赋能创作者、讨论场、信息获取等多个业务场景。
Aidge

Aidge

Aidge基于阿里巴巴国际数字商业集团的大语言模型和多模态大模型,结合对全球商业的深度洞察,为客户提供全面的国际电商AI云服务。Aidge 聚焦商业场景,让客户的全球经营效果更好,成本更低。Aidge 作为国际电商领域专业前沿且经验丰富的AI服务提供方,拥有极强的多语言能力、本地化能力和营销设计能力,帮助企业客户降低语言和文化门槛,解决中小企业难以获得设计、营销、服务和人才等问题。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...