Character.AI公司今天(4 月 23 日)在 X 平臺(tái)發(fā)布推文,宣布推出 AvatarFX 模型,能夠讓靜態(tài)圖片中的人物“開口說話”。
用戶只需上傳一張圖片并挑選一個(gè)聲音,平臺(tái)即可生成會(huì)說話、會(huì)移動(dòng)的形象。這些形象還能展現(xiàn)情感,呈現(xiàn)出令人驚嘆的真實(shí)感和流暢度。
公司表示,這得益于一種名為“SOTA DiT-based diffusion video generation model”的先進(jìn) AI 模型。該模型經(jīng)過精心訓(xùn)練,結(jié)合音頻條件優(yōu)化技術(shù),能高效生成高質(zhì)量視頻。
AvatarFX 的技術(shù)亮點(diǎn)在于其“高保真、時(shí)間一致性”的視頻生成能力。即便面對(duì)多角色、長(zhǎng)序列或多輪對(duì)話的復(fù)雜場(chǎng)景,它也能保持驚人的速度和穩(wěn)定性。與 OpenAI 的 Sora 和 Google 的 Veo 等競(jìng)爭(zhēng)對(duì)手相比,AvatarFX 并非從零開始或基于文本生成視頻,而是專注于將特定圖片動(dòng)畫化。
這種獨(dú)特的工作流程為用戶提供了新穎體驗(yàn),但也帶來了潛在風(fēng)險(xiǎn)。用戶可能上傳名人或熟人照片,制作看似真實(shí)的虛假視頻,引發(fā)隱私爭(zhēng)議。