
FunAudioLLM
FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型(LLMs)之间的自然语音交互的框架。其核心包括两个创新模型:SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测,支持超过 50 种语言,并具有极低的延迟。CosyVoice 则专注于自然语音生成,支持多语言、音色和情绪控制,能够进行零样本语音生成、跨语言语音克隆和指令遵循。
工具介绍:Phantom是一款由字节跳动开源的 AI 视频生成框架,支持通过文本和图像输入生成主题一致、高保真的视频内容。采用跨模态对齐技术,确保人物身份、外观、动作在整个视频中保持统一,适用于虚拟人、电商广告、动画创作等多种场景
Phantom是一款由字节跳动研究团队开发的开源 AI 视频生成框架,专注于实现 主题一致性的视频生成(Subject-Consistent Video Generation)。它通过跨模态对齐(Cross-Modal Alignment)技术,将文本、图像和视频三种模态深度融合,生成在人物外观、身份、动作等方面高度一致的视频内容。
该项目已被 ICCV 2025 国际计算机视觉大会接收,代表其在学术和技术领域的前沿地位。
一句话总结:Phantom 是一个专注于“人物一致性”的 AI 视频生成框架,融合文本、图像与视频三模态,适合研究者与创作者探索高质量、可控的视频生成技术。
本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年2月28日 上午9:43收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。