INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听via XiaoHu.AI学院 (author: 小互) | ChatGPT / AI新闻聚合

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

via XiaoHu.AI学院 (author: 小互)

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

INFP 由字节跳动开发的一种音频驱动的交互式头部生成框架，主要应用于双人对话场景。意为“在双人对话中基于音频驱动的互动式头像生成”。它能通过语音输入生成动态头像动画，包括嘴唇同步、面部表情和头部动作。这些生成的头像能自然地模拟对话双方的互动状态，而且能自动切换“说话者”和“倾听者”的角色，也就是两个人对话时，它能自动区分谁在说话，谁在听。 INFP 旨在实现：真实感：生成的头部动画逼真且具有丰富的情感。交互性：头像动画可以随对话动态调整。实时性：适合实时场景，例如视频会议、虚拟助手等。

Powered by BroadcastChannel & Sepia