《科创板日报》1月4日讯(记者张洋洋)AI视频领域又有了新玩法。只需上传一张照片,就能让一个毫无舞蹈经验的人立刻跳起“科目三”(抖音一首热门舞蹈伴奏歌曲)。目前,随着“科目三”起舞的,不仅是普通网友,还不乏特斯拉掌门人马斯克、苹果CEO库克等科技大佬之流。

image

  上述随着“科目三”刷屏网络的视频,是由阿里的通义千问App生成,这是一个最新上线的功能。据了解,该功能主要基于阿里巴巴自研的视频生成AI模型Animate Anyone。

  《科创板日报》记者今日试验该功能发现,用户在通义千问App内输入“通义舞王”、“全民舞王”等关键词后,即可进入体验页面,用户根据提示上传照片后,10-15分钟即可让照片中的人“舞动”起来。

image

  通义千问App内,目前提供了一共包括“科目三”、“秧歌舞”、“DJ慢摇”等在内的工12首歌曲伴奏模版,用户可以自行选择。

image

  “科幻得夸张”、“有点强”是多数用户体验“通义舞王”过后的普遍观感。上一次,刷屏全网的AI图文应用还是妙鸭——也是出自阿里之手。只不过,这一次是从图片升级到了视频。

  以图片生成视频是AIGC目前应用的主要方向之一。2023年11月之后,越来越多的AI视频初创公司开始崭露头角,如大火的Runway、Pika;之前以AI绘画走红的Stable Diffusion背后母公司也转向视频领域,发布了第一个开源AI视频生成模型。

  不过,不管是文生图还是文生视频,技术不成熟是这些AI工具面临的共性问题。对于视频而言,当下AI生成视频的发展处于非常初级的阶段,这就会导致并不能完全生成出较完善的视频。比如视频动作过渡不自然、理解角度诡异、视频分辨率不高等。

  美图高级副总裁、影像产业事业群总裁陈剑毅此前在接受《科创板日报》记者采访时表示,这些情况的出现原因在于AI工具模型的能力不高,对模型投喂的素材数据质量有一定的要求。AI生成图片或者视频这些设计工具背后的技术,现在还面临着模型训练不及预期控制不精准、生成有瑕疵、版权争议三大痛点。就工作流而言,AI目前主要充当创意辅助,仍需结合传统工具才能完成设计交付。

  “通义舞王”现在对于输入的照片要求还比较高,并且只能用官方的姿态模版,不能自定义姿势。整体看,“全民舞王”还处于满足用户猎奇心理,吸引用户下载通义千问App的阶段。未来如何打造更具实用性的功能,跑通商业模式,将会是在一众AI视频应用里制胜的关键。