Tarsier

10个月前发布 2.1K 00

工具介绍：Tarsier是由字节跳动研发的大规模视频语言模型家族，旨在生成高质量的视频描述，并具备良好的视频理解能力。Tarsier 采用了简单的模型结构，结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略，Tarsier 展现出了强大的视频描述能力和视频理解能力，在多个公共基准测试中取得了最先进的成果。

收录时间：

2025-02-10

访问官网手机查看

访问官网

Tarsier简介

Tarsier是由字节跳动研发的大规模视频语言模型家族，旨在生成高质量的视频描述，并具备良好的视频理解能力。Tarsier 采用了简单的模型结构，结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略，Tarsier 展现出了强大的视频描述能力和视频理解能力，在多个公共基准测试中取得了最先进的成果。

Tarsier 模型适用于各种视频理解任务，如视频字幕生成、视频问答和视频定位等，能够处理复杂的视频内容并生成详细准确的描述。

Tarsier：字节跳动推出的大规模视频语言模型家族

Tarsier的主要功能特色

高质量视频描述：Tarsier 能够生成详细、准确的视频描述，通过多任务预训练和多粒度指令微调，显著提升了视频描述的能力。
视频理解能力：Tarsier 在多个公开基准测试中取得了新的最佳结果，包括视频问答、视频地面、幻觉测试等任务。
简单的模型结构：Tarsier 使用 CLIP-ViT 作为视觉编码器，LLM 作为文本解码器，通过 MLP 层连接两者，实现了独立编码帧并输入 LLM 的方法。
两阶段训练策略：Tarsier 采用多任务预训练和多粒度指令微调的策略，提高了模型的泛化能力和视频描述的质量。
新的视频描述基准：Tarsier 提出了 DREAM-1K 基准，包含 1000 个具有多样复杂性的视频片段，用于评估视频描述模型的质量。

Tarsier模型的最新版本Tarsier2在多个方面进行了显著的改进，特别是在数据量和多样性方面。预训练数据从1100万扩展到4000万视频文本对，增强了模型的学习能力。此外，Tarsier2在监督微调阶段引入了细粒度时间对齐，进一步提高了视频描述的准确性和细节捕捉能力。通过直接偏好优化（DPO）训练，Tarsier2能够生成更符合人类偏好的视频描述，减少生成幻觉的可能性。

在性能评估方面，Tarsier2在DREAM-1K基准测试中表现出色，其F1分数比GPT-4o高出2.8%，比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中，Tarsier2取得了新的最佳结果，涵盖视频问答、视频定位、幻觉测试和问答等功能，展示了其作为强大通用视觉语言模型的多功能性。

论文：https://arxiv.org/abs/2501.07888

Code: https://github.com/bytedance/tarsier

Dataset: https://huggingface.co/datasets/omni-research/DREAM-1K

Demo: https://huggingface.co/spaces/omni-research/Tarsier2-7b

数据评估

Tarsier浏览人数已经达到2.1K，如你需要查询该站的相关权重信息，可以通过第三方来进行查询，比如爱站、5118数据、chinaz等；更多网站价值评估因素如：该网站的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找该网站的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站新媒派提供的该工具内容都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由新媒派实际控制，在2025年2月10日下午1:22收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，新媒派不承担任何责任。

新媒派致力于优质、实用的网络站点资源收集与分享！本文地址https://pidoutv.com/sites/31340.html转载请注明

与Tarsier相关工具

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Tarsier

Tarsier简介

Tarsier的主要功能特色

数据评估

与Tarsier相关工具

神力霓裳

阿里云百炼

ThinkSound

Sora

Darwin

Loopy AI

浦语·灵笔2.5

InstructAvatar

商量拟人大模型

SEED-Story

Llama 2

Idea-2-3D

Mistral AI

Boximator

怪兽AI知识库大模型

HelloMeme

暂无评论

网址

中国家谱知识服务平台

吴签磁力

老王磁力

磁力柠檬

Drive & Listen

琉璃神社

热门网址

Getillustrations

CityWalks.live

Talkpal AI

GreenVideo

NeoDomain