echo-the-coder/kokoro-82m-zh 📝🔢 → 🖼️

▶️ 14 runs 📅 Mar 2026 ⚙️ Cog 0.16.12 🔗 GitHub ⚖️ License

text-to-speech

Performance

10.1sTypical run time

~404sCold start (first call)

14Total runs

About

一个体积虽小但功能强大的 TTS 模型。

Example Output

Output

Performance Metrics

10.06s Prediction Time

403.68s Total Time

All Input Parameters

{
  "text": "Kokoro 是一系列体积虽小但功能强大的 TTS 模型。\n\n该模型是经过短期训练的结果，从专业数据集中添加了100名中文使用者。中文数据由专业数据集公司「龙猫数据」免费且无偿地提供给我们。感谢你们让这个模型成为可能。\n\n另外，一些众包合成英语数据也进入了训练组合：\n\n1小时的 Maple，美国女性。 1小时的 Sol，另一位美国女性。 和1小时的 Vale，一位年长的英国女性。 由于该模型删除了许多声音，因此它并不是对其前身的严格升级，但它提前发布以收集有关新声音和标记化的反馈。除了中文数据集和3小时的英语之外，其余数据都留在本次训练中。目标是推动模型系列的发展，并最终恢复一些被遗留的声音。\n\n美国版权局目前的指导表明，合成数据通常不符合版权保护的资格。由于这些合成数据是众包的，因此模型训练师不受任何服务条款的约束。该 Apache 许可模式也符合 OpenAI 所宣称的广泛传播 AI 优势的使命。如果您愿意帮助进一步完成这一使命，请考虑为此贡献许可的音频数据。",
  "speed": 1,
  "en_voice": "af_maple",
  "zh_voice": "zf_001",
  "segment_pause_ms": 120
}

Input Parameters

text (required) Type: string: Text to synthesize. Supports Chinese/English mixed content.
speed Type: numberDefault: 1Range: 0.5 - 1.5: Speech speed.
en_voice Type: stringDefault: af_maple: Voice for English segments. Recommended prefix: af_* or bf_*.
zh_voice Type: stringDefault: zf_001: Voice for Chinese segments. Recommended prefix: zf_* or zm_*.
segment_pause_ms Type: integerDefault: 120Range: 0 - 1000: Silence duration between Chinese/English segments (milliseconds).

Output Schema

Output

Type: string • Format: uri

Example Execution Logs

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.813 seconds.
Prefix dict has been built successfully.

Version Details

Version ID: e043d5a69f902bcf58927c1b63f6c1866d02494d21da584264d061204b3f2da0
Version Created: March 2, 2026

Run on Replicate →