StoryMem

6小时前发布 365 00

工具介绍:StoryMem是字节跳动与南洋理工大学联合开源的AI多镜头长视频生成框架,主要解决长视频的“叙事一致性”和“镜头多样性”,可以根据文本指令生成多个镜头切换、具有完整故事逻辑的长视频,提供完整的模型、训练过程和推理脚本,对开发者友好,易于二次开发和拓展。

收录时间:
2026-01-23

StoryMem简介

StoryMem是什么?

StoryMem是字节跳动与南洋理工大学联合开源的AI多镜头长视频生成框架,托管于GitHub平台,主要解决长视频的“叙事一致性”和“镜头多样性”,可以根据文本指令生成多个镜头切换、具有完整故事逻辑的长视频,提供完整的模型、训练过程和推理脚本,对开发者友好,易于二次开发和拓展,为AI长视频生成领域的研究与落地提供技术支撑。

StoryMem

StoryMem的主要功能

  • 多镜头长视频连贯生成:基于文本的输入指令自动生成由多个镜头切割而成的长视频,并注重镜头内剧情联通、镜头间画面风格统一及连贯性,解决文本生成的 AI 视频生的“零碎化”、“长镜头不连贯”问题。
  • 文本驱动的镜头定制化:可自定义地通过文本提供镜头类别(例如:远景镜头、近景镜头、跟镜头等)、镜头切换速度、画面风格(古风、科幻、纪实等等),不需要视频制作的相关知识,精准地定制视频的丰富性与稳定性。
  • 完整开源可拓展架构:项目完全开源,在项目中介绍完整的代码框架、模型框架、数据预处理框架以及模型训练脚本框架,用户也可以自己自定义镜头调度策略、补充垂直领域数据集,进行二次开发与模型优化。
  • 兼顾画面质量与生成效率:兼顾多镜头长视频的叙事连贯性,单镜头画面清晰度和风格一致性,提供轻量推理脚本、降低快速测试和检验门槛等。
  • 长时记忆机制支撑叙事:带有专属记忆功能,能存留长视频生成的主线剧情、主要人物、场景信息,避免后续镜头产生错误的逻辑,保障长视频叙事的整体性。

适用场景

  • 影视创作:快速生成短片或故事片的分镜视频。
  • 动漫与游戏:保持角色一致性,生成多场景的动画片段。
  • 学术研究:作为视频生成与记忆机制的研究框架。
  • 内容创作:适合自媒体、短视频创作者进行故事化内容生产。 

StoryMem的使用教程

一、前期准备(3 个核心要求)

硬件前提:必须有NVIDIA显卡(显存≥24G,支持 CUDA),内存≥16G,硬盘预留≥50G 空间。

1. 克隆代码与配置环境

终端执行命令克隆仓库并进入目录:

运行:

git clone https://github.com/Kevin-thu/StoryMem.git
cd StoryMem

安装 Python 3.9/3.10,再安装依赖(含支持 CUDA 的 PyTorch):

运行:pip install -r requirements.txt

# 额外安装适配自身 CUDA 版本的 PyTorch(参考官网命令,推荐 CUDA 11.7/11.8)

2. 获取预训练模型:从项目 README 提供的链接下载预训练模型,放入项目新建的 ./checkpoints/ 目录中。

3. 写文本指令:新建 my_prompt.txt 文件,用清晰语言描述剧情、镜头、风格(示例):15秒古风视频:镜头1(远景)女子庭院赏花;镜头2(特写)指尖碰花瓣;镜头3(中景)女子抚琴;风格:水墨国风,镜头切换自然。

3. 运行推理命令:终端在项目根目录执行核心命令,直接调用预训练模型生成视频:

4. 运行:python run_inference.py –prompt_path ./my_prompt.txt –checkpoint_path ./checkpoints/预训练模型文件名.pth –output_path ./outputs/

5. 查看结果:等待 5-30 分钟(看硬件性能),在 ./outputs/ 目录中找到生成的 MP4 视频文件即可。

StoryMem资源链接

  • GitHub地址: https://github.com/Kevin-thu/StoryMem
  • 论文: https://arxiv.org/abs/2512.19539
  • 模型:Wan2.2-T2V(https://huggingface.co/Wan-AI/Wan2.2-T2V-A14B)和StoryMem LoRA(https://huggingface.co/Kevin-thu/StoryMem)
  • 项目主页:https://kevin-thu.github.io/StoryMem/
关于StoryMem特别声明

本站新媒派提供的StoryMem内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2026年1月23日 上午11:43收录时,该网页上的内容,都属于合规合法,后期网页的内容如有出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。

相关导航

Waver 1.0

Waver 1.0

Waver 1.0是 FoundationVision 推出的下一代通用视频生成基础模型,基于 Rectified Flow Transformer 架构,统一支持文本生成视频(T2V)、图像生成视频(I2V)与文本生成图像(T2I)。最高可生成 1080p 高分辨率视频,分辨率、宽高比与时长(2–10 秒)灵活可调;在 T2V 与 I2V 榜单均跻身前三,画质、运动幅度与时间一致性媲美商用方案。支持可控风格与质量、APG 伪影优化及 Cascade Refiner 高效升采样,适用于影视创意、游戏动画、教育科研等多场景。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...