仅需一张照片,CyberVerse 就能快速生成一个会看、会听、能实时视频通话的 AI 数字人,体验接近真实视频通话。
➡️ 一张照片即刻复活:上传照片就能生成具备实时面部动画、自然口型同步和呼吸感的数字人。➡️ 低延迟实时视频通话:基于 WebRTC + P2P 传输 + TURN 穿透,实现首帧约 1.5 秒的超低延迟,支持无限时长视频交互。➡️ 模块化 Agent 架构:大脑(LLM)、面孔(Avatar)、声音(TTS)、听觉(ASR)全部可插拔,通过 YAML 配置自由组合,支持不同模型混搭。➡️ AI 能力:实时语音交互、声音克隆、视觉理解(动作/手势)、RAG 知识问答、语音打断等,支持豆包语音等模型。➡️ 本地部署友好:支持 PyTorch CUDA 加速,多档位模型适配不同 GPU。
📮投稿 📢频道 💬吹水 🌐网站