Hibiki

12个月前发布 2.1K 00

工具介绍：Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译（也称为同步翻译）的模型。与离线翻译不同，离线翻译需要等待源语句结束后才开始翻译，而 Hibiki 能够实时积累足够的上下文，以逐块生成正确的翻译。用户在讲话时，Hibiki 会在目标语言中生成自然的语音，并提供文本翻译。

收录时间：

2025-02-16

Hibiki简介

Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译（也称为同步翻译）的模型。与离线翻译不同，离线翻译需要等待源语句结束后才开始翻译，而 Hibiki 能够实时积累足够的上下文，以逐块生成正确的翻译。用户在讲话时，Hibiki 会在目标语言中生成自然的语音，并提供文本翻译。

Hibiki – Kyutai Labs开发的高保真同步语音翻译模型

主要功能特点：

实时翻译： Hibiki 通过多流架构同时处理源语音和目标语音，能够连续处理输入流并生成目标语音。生成的文本和音频以恒定的帧率（12.5Hz）输出，确保连续的音频流和带时间戳的文本翻译。
训练方法： Hibiki 依赖于对齐的源语音和目标语音及文本的监督训练。由于此类数据量有限，Hibiki 使用合成数据生成进行训练。使用上下文对齐的弱监督方法进行词级匹配，确保目标语音在源语音可预测时才出现。
推理过程：在推理过程中，Hibiki 连续编码源语音并生成目标语音。通过简单的温度采样，Hibiki 兼容批处理，并且可以通过调整 Classifier-Free Guidance 系数来控制语音传输的保真度。
多平台支持： Hibiki 提供了适用于 PyTorch、Rust、MLX（macOS）和 MLX-swift（iOS）的推理代码。目前支持法语到英语的翻译，较小的 Hibiki-M 模型可以在智能手机硬件上本地运行。

Hibiki的技术：

Hibiki是一种通过精确的同步算法，能迅速地将一种语言的语音翻译成另一种语言的语音或文本的解码模型。这一技术的核心在于它多流语言模型，能够在语音识别和翻译过程中，实时生成音频和文本输出。还有，Hibiki还支持声音特征迁移，可以在翻译过程中保留说话者的语调和情感，使翻译的效果更自然和真实。

不过，由于需要进行语音数据的传输和云计算处理，它对网络的要求较高。如果网络信号不好，可能会出现识别错误或者翻译延迟的现象。

Hibiki应用场景：

GitHub: https://github.com/kyutai-labs/hibiki

关于Hibiki特别声明

本站新媒派提供的Hibiki内容都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由新媒派实际控制，在2025年2月16日下午7:58收录时，该网页上的内容，都属于合规合法，后期网页的内容如有出现违规，可以直接联系网站管理员进行删除，新媒派不承担任何责任。

新媒派致力于优质、实用的运营工具和AI工具资源分享！本文地址https://pidoutv.com/sites/31461.html转载请注明

您必须登录才能参与评论！

暂无评论...