秒收录导航

让蒙娜丽莎唱饶舌,微软发布 VASA


文章编号:553 / 分类:本站公告 / 更新时间:2024-04-25 07:06:18 / 浏览:
VASA

秒收录4 月 19 日消息,微软亚洲研究院(Microsoft ReseArch Asia)近日发表论文,介绍了全新的 VASA-1 模型, 用户只需要提供一张静态肖像图片和一段语音音频片段,该模型就能自动让图片中的人物自动说话。

VASA-1 特别有趣的地方在于,它能够模拟自然的面部表情、各种情绪和唇部同步,最重要的是几乎没有人工痕迹,如果不细看很难发现。

研究人员承认,与所有其他模型一样,该模型目前还无法妥善处理头发等非刚性元素,但整体效果要比其它同类模型要更为优秀。

研究人员还表示 VASA-1 支持离线 batch 处理模式下,以 45fps 生成分辨率为 512*512 的动态短视频,在线直播模式下可以达到 40 fps,且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。


相关标签: 微软AI

本文地址:https://www.zdmsl.com/demo/001/article/553.html

上一篇:刘强东AI数字人采销东哥明日开启京东直播首...
下一篇:弃用三星QD...

温馨提示

做上本站友情链接,在您站上点击一次,即可自动收录并自动排在本站第一位!
<a href="https://www.zdmsl.com/demo/001/" target="_blank">秒收录导航</a>