EMO(Emote Portrait Alive)是一個由阿里巴巴集團智能計算研究院開發(fā)的框架,一個音頻驅(qū)動的 AI 肖像視頻生成系統(tǒng),能夠通過輸入單一的參考圖像和語音音頻,生成具有表現(xiàn)力的面部表情和各種頭部姿勢的視頻。
阿里云宣布,通義實驗室研發(fā)的 AI 模型 ——EMO 正式上線通義 App,并開放給所有用戶免費使用。借助這一功能,用戶可以在歌曲、熱梗、表情包中任選一款模板,然后通過上傳一張肖像照片就能讓 EMO 合成演戲唱歌視頻。
據(jù)介紹,通義 App 首批上線了 80 多個 EMO 模板,包括熱門歌曲《上春山》《野狼 Disco》等,還有網(wǎng)絡(luò)熱梗“缽缽雞”“回手掏”等,但目前暫未不開放自定義音頻。
EMO 的主要特點
音頻驅(qū)動的視頻生成:EMO 能夠根據(jù)輸入的音頻(如說話或唱歌)直接生成視頻,無需依賴于預(yù)先錄制的視頻片段或 3D 面部模型。
高表現(xiàn)力和逼真度:EMO 生成的視頻具有高度的表現(xiàn)力,能夠捕捉并再現(xiàn)人類面部表情的細微差別,包括微妙的微表情,以及與音頻節(jié)奏相匹配的頭部運動。
無縫幀過渡:EMO 確保視頻幀之間的過渡自然流暢,避免了面部扭曲或幀間抖動的問題,從而提高了視頻的整體質(zhì)量。
身份保持:通過 FrameEncoding 模塊,EMO 能夠在視頻生成過程中保持角色身份的一致性,確保角色的外觀與輸入的參考圖像保持一致。
穩(wěn)定的控制機制:EMO 采用了速度控制器和面部區(qū)域控制器等穩(wěn)定控制機制,以增強視頻生成過程中的穩(wěn)定性,避免視頻崩潰等問題。
靈活的視頻時長:EMO 可以根據(jù)輸入音頻的長度生成任意時長的視頻,為用戶提供了靈活的創(chuàng)作空間。
跨語言和跨風格:EMO 的訓練數(shù)據(jù)集涵蓋了多種語言和風格,包括中文和英文,以及現(xiàn)實主義、動漫和 3D 風格,這使得 EMO 能夠適應(yīng)不同的文化和藝術(shù)風格。
(邯鄲微信開發(fā))