AI工具AI大模型

Tarsier

Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来...

标签:

Tarsier简介:

Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。

Tarsier 模型适用于各种视频理解任务,如视频字幕生成、视频问答和视频定位等,能够处理复杂的视频内容并生成详细准确的描述。

Tarsier

Tarsier:字节跳动推出的大规模视频语言模型家族

Tarsier的主要功能特色

  • 高质量视频描述:Tarsier 能够生成详细、准确的视频描述,通过多任务预训练和多粒度指令微调,显著提升了视频描述的能力。
  • 视频理解能力:Tarsier 在多个公开基准测试中取得了新的最佳结果,包括视频问答、视频地面、幻觉测试等任务。
  • 简单的模型结构:Tarsier 使用 CLIP-ViT 作为视觉编码器,LLM 作为文本解码器,通过 MLP 层连接两者,实现了独立编码帧并输入 LLM 的方法。
  • 两阶段训练策略:Tarsier 采用多任务预训练和多粒度指令微调的策略,提高了模型的泛化能力和视频描述的质量。
  • 新的视频描述基准:Tarsier 提出了 DREAM-1K 基准,包含 1000 个具有多样复杂性的视频片段,用于评估视频描述模型的质量。

Tarsier模型的最新版本Tarsier2在多个方面进行了显著的改进,特别是在数据量和多样性方面。预训练数据从1100万扩展到4000万视频文本对,增强了模型的学习能力。此外,Tarsier2在监督微调阶段引入了细粒度时间对齐,进一步提高了视频描述的准确性和细节捕捉能力。通过直接偏好优化(DPO)训练,Tarsier2能够生成更符合人类偏好的视频描述,减少生成幻觉的可能性。

在性能评估方面,Tarsier2在DREAM-1K基准测试中表现出色,其F1分数比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中,Tarsier2取得了新的最佳结果,涵盖视频问答、视频定位、幻觉测试和问答等功能,展示了其作为强大通用视觉语言模型的多功能性。

论文:https://arxiv.org/abs/2501.07888

Code: https://github.com/bytedance/tarsier

Dataset: https://huggingface.co/datasets/omni-research/DREAM-1K

Demo: https://huggingface.co/spaces/omni-research/Tarsier2-7b

Tarsier官网打不开的几种可能原因及解决方案

如果你经常无法打开"Tarsier官方网站",可能有以下三种原因。这里有一些解决方案:

一、软件屏蔽:一些软件如微信或QQ可能默认屏蔽一些站点。请使用手机浏览器打开该网址,而不是微信/QQ的内置浏览器。

二、浏览器问题:如果你的浏览器提示该网站违规,这并不代表网站真的违规。可能是由于某些浏览器厂商的屏蔽策略。建议使用原生浏览器,比如苹果设备的Safari浏览器,或者微软的Edge,并尝试一些独立开发的浏览器,如Alook浏览器、X浏览器、VIA浏览器等。

三、网络问题:如果你的网络连接不稳定,或者你使用的网络运营商并未被网站优化支持,可能会遇到访问困难。此时,可以尝试使用网络加速器,将网络切换至更稳定的运营商。另外,部分网站可能需要科学上网才能访问,如Google等(仅在你需要搜集学习资料时推荐此方式)。

以上三点基本上能解决99.99%网站打不开的问题了。

如还有疑问,可在线留言,着急的话也可以通过微信联系我们。

Tarsier官网站点数据评估

Tarsier官网浏览人数已经达到481,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:Tarsier的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Tarsier官网进行洽谈提供。如该站的IP、PV、跳出率等!

关于Tarsier特别声明

本站新媒派提供的Tarsier信息都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年2月10日 下午1:22收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...