让蒙娜丽莎唱饶舌,微软发布 VASA-1 模型:图 + 音频可生成短视频
时间:2024-04-19 14:59:01来源:IT之家
微软亚洲研究院(Microsoft Research Asia)近日发表论文,介绍了全新的 VASA-1 模型,用户只需要提供一张静态肖像图片和一段语音音频片段,该模型就能自动让图片中的人物自动说话。

VASA-1 特别有趣的地方在于,它能够模拟自然的面部表情、各种情绪和唇部同步,最重要的是几乎没有人工痕迹,如果不细看很难发现。

研究人员承认,与所有其他模型一样,该模型目前还无法妥善处理头发等非刚性元素,但整体效果要比其它同类模型要更为优秀。

研究人员还表示 VASA-1 支持离线 batch 处理模式下,以 45fps 生成分辨率为 512*512 的动态短视频,在线直播模式下可以达到 40 fps,且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。

标签:

最新
  • 让蒙娜丽莎唱饶舌,微软发布 VASA-1 模型:图 + 音频可生成短视频

    微软亚洲研究院(Microsoft Research Asia)近日发表论文,介绍了

  • 邓州市水务集团自来水有限公司:小网格服务大民生

    近年来,邓州市水务集团自来水有限公司为全面提升供水服务水平,优化营

  • 南阳市第六人民医院组织开展“送温暖 献爱心”社会捐助活动

    为扎实开展我为群众办实事活动,切实帮助困难群众,1月10日,南阳市第

  • 心理健康服务为罗山青少年的心灵插上飞翔的翅膀

    近年来,罗山团县委积极落实省重点民生实事项目——河南省青少年心理健

  • ​西平县应急管理局召开2023年“宪法宣传周”工作部署会

    为认真深入学习宣传党的二十大精神,大力弘扬宪法精神,维护宪法权威,

  • ​西平县人民法院:奔赴异地尽心调解 终促双方达成和解

    近日,西平县人民法院成功调解一起民间借贷纠纷案件,法院驱车三百多公

  • 为什么微博打不开淘宝链接(为什么微博打不开)

    大家好,最近小红发现有诸多的小伙伴们对于为什么微博打不开淘宝链接,

  • 自然要素为何也要休养生息?

    自然要素为何也要休养生息?

  • 骑手回应称孩子跳楼是误会详情曝光原来是虚惊一场大女儿表述不清 具体是啥状况呢

    今天“【骑手回应称孩子跳楼是误会,详情曝光原来是虚惊一场大女儿表述

  • 能修复手机电池?网友拆解9.9元“电池修复器” 纯纯智商税

    “电池修复器”里面的电路板上只有简单的三颗LED灯珠。

  • 亚马逊欧洲物流正式上线泛欧库存加速器

    电商报快讯:8月21日消息,亚马逊全球开店宣布,亚马逊物流欧洲整合服

  • 小孩子编发教程

    小孩子编发教程准备好梳子、发夹、橡皮筋和发胶。第一步:将头发梳顺,

  • 总台海峡时评:赖清德恬不知耻“倚美谋独”必遭坚决惩戒!

    18日,赖清德在一片“反对‘台独’”的抗议声中,结束其“过境”窜美表

  • “蓝领”服务“蓝领”,护航企业发展

    8月17日中午,位于祖国西北边陲的新疆伊犁州霍尔果斯市烈日炎炎,霍尔

  • Home Kong:来自香港老街“家”的魅力

    Hana Hana是一位来自日本长野的摄影师,心怀梦想,渴望成为世界知

  • 全球今头条!​西平县应急管理局开展反邪教警示教育宣传活动

    为进一步提高辖区内居民反诈骗和反邪教意识,减少诈骗案件的发生,切实

  • 旅游
    • 香港旅游消费亮“黄灯”

    • 杰富瑞投资银行:维持Home Depot(HD.US)评级

    • 敦煌鸣沙山月牙泉景区:由于特殊天气暂停开放

    • 江西赣州:高技术制造业推进高质量发展