免费开源,人人都能克隆数字人的时代来了!
国产数字人头部企业,硅基智能突然宣布:
开源全球TOP级数字人模型:heygem.ai,并且免费提供下载安装包。
也就是说,每个人都可以在本地电脑部署数字人系统,无限量克隆数字人形象、声音,无限量合成数字人口播视频了。
直接把数字人技术的门槛拉到地板,再也不用花钱买数字人了。
HeyGem.ai是什么?
HeyGem.ai是一款硅基智能推出的一款免费开源的AI数字人视频合成工具,它是HeyGen.ai的平替版。它能够精确克隆您的外貌和声音,让您的形象数字化。您可以通过文字和语音驱动虚拟形象,进行视频制作。无需联网,保护隐私的同时,也能享受到便捷和高效的数字体验。

核心功能
- 精确外貌与声音克隆:运用先进的 AI 算法,高精度捕捉真人外貌特征,包括五官形状、面部轮廓等,构建逼真虚拟模型。同时,能精准克隆声音,捕捉并还原人声的细微特征,支持多种声音参数设置,可创造与原声高度相似的克隆效果。
- 文字和语音驱动虚拟形象:通过自然语言处理技术理解文本内容,将文字转换为自然流畅的语音,实现文字驱动虚拟形象。也可直接使用语音输入,让虚拟形象根据语音的节奏、语调等进行相应的动作和表情变化,使虚拟形象的表现更加自然、生动。
- 高效视频合成:将数字人的视频画面与声音高度同步,实现自然流畅的口型匹配,智能优化音视频同步效果。
- 多语言:脚本支持八种语言,英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
显著优势
- 全离线操作:无需联网即可使用,有效保护用户隐私,让用户在安全、独立的环境中进行创作,避免数据在网络传输过程中可能存在的泄露风险。
- 简单易用:操作界面简洁直观,即使是没有任何技术背景的小白也能轻松上手,快速掌握软件的使用方法,轻松开启数字人创作之旅。
- 多模型支持:支持导入多个模型,并通过一键启动包进行管理,方便用户根据不同的创作需求和应用场景选择合适的模型。
技术支持
- 声音克隆技术:利用人工智能等先进技术,根据给定的声音样本生成与之相似或相同声音的技术,涵盖语音中的语境、语调、语速等。
- 自动语音识别:一种能将人类语音中的词汇内容转换为计算机可读输入,也就是转换为文本格式的技术,让计算机能够 “听懂” 人们说的话。
- 计算机视觉技术:用于视频合成中的视觉处理,包括面部识别、口型分析等,确保虚拟形象的口型与声音和文字内容相匹配。
开源项目地址:
https://github.com/GuijiAI/HeyGem.ai
整套数字人方案代码已上传github,访问上面网址即可查看。

本地部署对电脑性能有一定要求。
以下是官方推荐配置:
显卡最低配置不能低于英伟达1080Ti、并且本地硬盘空间不低于100G。

具体部署流程可以参考项目教程,这里就不具体说了。
感兴趣的同学也可以直接访问官网,下载安装包。
网址:https://heygem.ai/
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...