本文作者:梁实秋

2022澳门开奖结果今晚APP,2024 年大模型最火赛道:视频生成掀起 2.0 大战,AI 影视新时代来临

2022澳门开奖结果今晚APP,2024 年大模型最火赛道:视频生成掀起 2.0 大战,AI 影视新时代来临摘要: 2022澳门开奖结果今晚APP,2024 年大模型最火赛道:视频生成掀起 2.0 大战,AI 影视新时代来临这期间,国内外的大厂、创企争相发布新产品或模型升级,且大多数都已向全体用...

责任编辑:李水清

如果说2024年大模型中最火的赛道,视频生成一定榜上有名。

继今年2月Sora开启AI视频生成新时代后2022澳门开奖结果今晚APP,2024 年大模型最火赛道:视频生成掀起 2.0 大战,AI 影视新时代来临,今年6月的密集模型发布将视频生成大战推向了新的高潮。

“下一代AI影视来了”、“太让人激动了,就像是一家公司接手,另一家公司登上舞台”、“终于有希望摆脱PPT时代了”、“看来很快就能用AI来做MV了”……在AI视频创作者或从业者中,我们看到的最常见的情绪就是“激动”。

自 Sora 发布以来,国内外已有超过 8 家 AI 公司推出新产品或模型,可以轻松生成 10 秒以上的视频并公开发布。有的甚至据称实现了长达 2 分钟的超长视频生成。AI 视频生成赛道掀起了激烈的 2.0 大战。

这边,字节跳动抢先推出AI视频生成产品极梦,将视频生成时间从常见的3-4秒延长到12秒;沉寂许久的快手突然发布可灵大模型,其惊人的效果引发全网热议,排队人数一度逼近百万。

▲排队申请快手课灵的人数

那边,新创公司Luma AI“弃3D投视频”,推出Dream,高调进入市场;老玩家也不甘示弱,推出新一代Gen-3机型,将物理模拟能力推向新高度。

▲Gen-3视频生成效果

融资战场上的争夺同样激烈。在国内,爱诗科技、圣数科技自3月起相继获得数亿美元融资;在海外,Pika在6月获8000万美元融资,估值翻倍至5亿美元,而据透露,其正准备筹划一笔高达4.5亿美元的融资。

Sora犹如一颗重磅炸弹,震动了AI视频生成行业。如今,经过5个月的激烈竞争,国内外的AI视频生成产品进展如何?能与Sora一较高下吗?又将面临哪些挑战?通过对现有产品的横向体验,以及与从业者、创作者的探讨,智东西对这些问题进行了深入剖析。

在实际测试中,可以明显感觉到视频生成速度变快了,“翻车”现象大大减少,从单纯的“PPT式”平移,进化为有角度、有动作变化的移动。整体来看,在免费产品中,效果最好的是极梦和可灵,在时长、稳定性、物理模拟度等方面均领先。

融资方面,相较于Sora发布前,AI视频生成相关融资密度和金额大幅提升,5个月内吸金超44亿,同时也带动AI剪辑、AI灯光等视频制作流程“上下游”的其他产品获得资本青睐。此外,还有不少新玩家入局,部分公司在发布任何产品或技术前,已融资数亿美元。

1. 技术战争:长度、高清和物理模拟

2 月 16 日,Sora 发布,一夜之间改变了 AI 视频生成赛道。不过,5 个月过去了,Sora 依然是一款期货产品,看来距离大众使用还要很长一段时间。

在这期间,国内外大公司和创业公司纷纷抢着发布新产品或者模型升级,其中大部分都向所有用户开放,其中不乏一些效果惊人的,这再一次改变了 AI 视频生成的格局。毕竟,不管 Sora 有多好,如果不能用,那还有什么价值呢?

据智东西不完全统计,自Sora发布以来述说香港二四六免费资料网站,国内外至少已有8家公司发布了新产品或新机型,除圣书科技的Vidu外,其余均为公开上市。

▲AI视频生成产品发布/模型升级(智东西制表)

2月21日,AI正式上线AI视频生成产品Video网页版,向所有用户开放。虽然其底层模型Video在去年11月就已开源,但作为模型,还有一定的部署和使用门槛。将其封装成网页版发布后,可以让更多用户轻松便捷地使用。

4月27日,圣数科技与清华大学联合发布长时长、高一致性、高动态视频模型Vidu,据称可生成长达16秒、分辨率达到1080P的视频,能够模拟真实的物理世界。

从发布的demo来看,Vidu在清晰度、运动范围、物理模拟等方面确实取得了不错的效果,但遗憾的是,Vidu与Sora一样,尚未正式发布。智东西向盛数科技询问后获悉,该产品将于近期开启内测。

▲圣数科技Vidu视频演示

5月9日,字节跳动AI创作平台更名为“极梦”,上线AI绘图、AI视频生成功能,支持生成最长12秒的视频。

6月6日,快手发布AI视频模型科灵,并在快手App上线,用户只需填写一份问卷,即可申请使用。科灵大模型专注于高强度模拟物理世界的特征,诸如“吃面”等难倒不少AI的问题,都在其提供的视频案例中有所体现。

目前,科灵支持生成5秒或10秒固定长度的视频,官网介绍,该模型可生成最长2分钟、帧率30fps、分辨率1080P的视频,后续将上线视频续播等功能。

6月13日,此前专注于AI生成3D的创业公司Luma AI宣布推出视频生成工具Dream,支持将文字和图片生成5秒视频,同时提供视频延长功能,每次可将生成的视频延长5秒。

6月17日,下一代模型Gen-3的Alpha版本发布,7月2日面向所有用户开放付费订阅,最低订阅费为每月15美元。Gen-3目前支持基于文本生成5秒和10秒视频,而图像生成视频等可控工具尚不可用。

▲Gen-3 Alpha 生成视频效果

7月6日,智象未来()在世界人工智能大会上发布智象大模型2.0,提供5秒、10秒、15秒三种视频生成时长,并加入文本嵌入生成、脚本多镜头视频生成、IP一致性等能力。

7月17日,此前专注于AI三维重建的英国AI创业公司宣布,其AI视频生成产品升级至v1.5,时长延长至8秒,并提供视频延长、画质增强等功能。

下表列出了这些模型的生成时间、分辨率、帧率和其他参数,以及超出基本生成范围的附加功能。

▲升级版AI视频生成产品参数(智东西供图)

从参数来看,这些AI视频生成产品在生成时长上取得了明显进步,基础生成时长由2-4秒延长至5秒,超过半数支持10秒以上时长,部分产品还提供延长功能。目前免费提供的产品中,最长的生成视频由极萌生成,时长12秒。

在视觉效果方面,分辨率和帧率都有了很大的提升,更多产品支持720P以上,帧率接近24/30fps,而之前的产品生成的视频分辨率在1024*576左右,帧率在8-12fps左右。

2. 产品大战:6 款免费“现成”产品实测,抖音、快手领跑

Sora 刚发布时,智东西曾对国内 8 款 AI 视频生成工具进行了深入体验。当时差距还是比较明显的,出现了很多“失误”。(互联网上首个“中国版 Sora”!15 家公司竞相角逐,字节跳动独占鳌头)

那么这些经过数月迭代升级后交出新答案的选手们,表现如何呢?智东西试用了新上线或升级后的AI视频生成产品,为了公平起见,我们只试用了免费功能,并选取了首次生成的视频。

需要注意的是,视频生成本身涉及类似“抽牌”的运气成分,也和提示词的撰写息息相关实践研究新澳管家婆资料2023大全,因此少数案例并不能完全体现模型的能力。

对于第一个级别,我选择了一个静物场景,线索是:沐浴在夕阳暖光中的郁金香的特写。

该视频表现出较高的稳定性,画面清晰度和色彩丰富度都比较高,动作主要靠镜头的移动。

▲ 视频生成

Dream的画面清晰度明显下降了一个档次,不过在提示词的呈现上还是比较准确的,动作也是以镜头的摇动为主。

▲梦境生成的视频

最终的视频看起来不错,但是动作有点受限。

▲生成视频

志翔大模型的表现也不错,画面景深效果较强,但仔细看花瓣就会发现细节上有些瑕疵,而且不稳定。

▲志翔大模型生成视频

也就是梦用固定的镜头生成图像,运动主要是郁金香的晃动,整体效果比较稳定。

科灵生成的视频把“特写”这个词发挥到了极致,画面清晰度高,花瓣的质感也很好。不过,如何理解“郁金香特写”,并不是一个有固定答案的问题,很难说谁对谁错。

////2024/07/-.mp4

▲ 科灵生成视频

总体来看,各播放器在静物场景中的表现都非常稳定,生成的视频可用性较高。

对于第二个关卡,我选择了一个动物场景,并添加了风格化和动态的动作元素。提示是:一只卡通袋鼠跳迪斯科。这实际上是 Sora 提供的案例之一。首先,我们来看看 Sora 的校样。

////2024/07/-.mp4

▲Sora生成的视频示例

Video 在这一层面上失败了。第一帧是完美的——可能是因为 Video 生成视频的路径,它先生成四张图片让用户选择,然后根据用户选择的图片生成视频——然后袋鼠的整个身体开始扭曲。

比较有意思的是,画面背景中的人物和拟人化动物并没有出现太多问题,不知道是不是“迪斯科舞”的动作难倒了Video。

▲ 视频生成视频效果

Dream 生成的视频整体稳定性不错,但在袋鼠的脚、手等细节上稳定性有所欠缺。在动作幅度上,除了袋鼠本身的动作,还进行了从特写到全景的镜头推移。

我也尝试了 Dream 的视频延时功能,视频最后 5 秒为延时内容。可以看到并不局限于单镜头,而是从全身切换到上半身特写。不过虽然延时视频中背景中的那群人更加稳定,但袋鼠却更加不稳定。

////2024/07/d_A---disco-.-.mp4

▲Dream生成视频效果

生成的袋鼠有些扭曲,没有体现出关键词“跳迪斯科”。

▲生成视频

志翔模型在这一阶段严重失败,与Video一样,画面主体明显扭曲,并没有呈现出“迪斯科舞曲”的效果。

▲志翔大模型生成的视频效果

Dream生成的视频整体视觉效果比较不错,清晰度较高,色彩丰富。稳定性方面,前几秒比较正常,但最后3秒左右有明显失真,失真程度与Dream差不多。

从语义理解上看,图片表现出了一些“跳舞”的动作,但和“迪斯科”关系不大,另外图片背景中的文字看上去很像“鬼画”。

////2024/07/c_即梦.mp4

▲梦幻般的视频效果

柯灵生成的视频总体比较稳定,主要问题集中在手和眼睛上。不过在语义理解方面,关键字“ disco”并没有体现出来。

////2024/07/-.mp4

▲可生成视频效果

总体来说,梦、吉梦、可灵三者在这一关的表现要好一些,但都无法达到 Sora 的水平。此外,这个提示还展示了模型之间的审美差异,包括色彩倾向、风格选择、镜头切换等。

第三关设置为人物特写,所用的提示词是:空间站外漂浮的宇航员特写,背景是地球和月亮,头盔面罩上倒映着星光。

视频在这个层面上表现不错,准确刻画了“宇航员”、“地球”、“月亮”、“星空倒影”等关键词,稳定性也很高,运动不是简单的镜头摇动,而是画面主体相对于背景的移动。

▲ 视频生成

梦想出了差错,完全忘记了“宇航员”,而画了一幅宇宙场景。

▲梦境生成的视频

这一关的表现还不错,虽然“月亮”没能体现出来,但其他关键词都有体现,头盔的反光也非常自然。

▲生成视频

志象模型一开始拒绝生成提示词,提示有敏感内容,经过多次裁剪,我最终生成了一段“空间站外漂浮男子特写”的视频。

画面整体效果相当逼真,虽然最后的提示词只有体现内容的“太空站”,但还是刻画出了地球、宇航服等元素,不过主角并没有戴太空头盔,呼吸方式甚至说话方式都不得而知(doge)。

▲志翔大模型生成的视频效果

姬猛对人物细节的刻画还是挺不错的,脸部、服饰都比较细腻,稳定性也很高。不过画面背景好像有第二个“地球”,另外镜头更像是“特写”,而不是“特写”。

////2024/07/1_宇航员-梦想.mp4

▲梦境生成的视频

科灵生成的视频一开始没有任何人,然后宇航员慢慢进入镜头,但背景是静止的,看起来有点幽默。不过,视频本身的准确性和稳定性仍然很高,体现出了每一个关键词,并描绘出了一些选手遗漏的“空间站”。

////2024/07/-.mp4

▲ 科灵生成视频

人物级别整体表现虽然不如静物场景那么稳定,但比上一级别好了很多,可能和训练数据丰富,运动范围小有关,这一级别表现较好的有Video、、。

总体来看,智东西本次体验的六款AI视频生成产品中,极萌、可灵在生成效果上优势明显,在时长和稳定性上都取得了不错的成绩。此外,摩菲等国产产品也有不错的效果,但由于在Sora发布之后并未有新品或机型升级,因此并未纳入本次体验。

3、资本战:5个月44亿,新玩家涌现

Sora一经发布,便如当年的GPT-4一样,再次掀起生成式AI热潮,导致文盛视频概念股集体涨停。

一级市场也迎来了新一波狂欢。据智东西不完全统计,自Sora发布以来的五个月内,至少有五家AI视频生成初创公司获得了过亿元的融资,总额约12亿元。此外,还有消息称有公司正在洽谈4.5亿美元(约合32.68亿元)的新融资。

▲AI视频生成相关大型投融资(智东西供图)

在国内,爱势科技于3月、4月分别募集两支数亿元人民币的基金,并获蚂蚁等知名投资方青睐,而此前其仅在去年8月获得过数千万元人民币的天使轮融资。

今年1月,爱诗科技推出AI视频生成产品海外版,成为与Pika、Sora竞争的一匹黑马。Sora发布后,其创始人王长虎曾表示,3-6个月内会迎头赶上。

五个月过去了,爱视科技并未发布底层模型的迭代更新,但推出了角色一致性、运动画笔等新功能。智东西向其询问了产品进展,获悉其新一代模型和新功能“文森特视频专题片”将于本周发布,可一次性生成8秒视频和3-5个连续有声视频。

▲动态画笔功能上线(图片来源:爱视科技)

盛数科技也在短短三个月内获得两轮数亿元融资,百度风投作为老股东继续投资。此前,盛数科技曾获得两轮总额过亿元的融资。

沙地AI是一家刚刚进入公众视野、尚未发布任何产品的创业公司,7月10日,沙地AI被曝出已于5月份获得今日资本领投的数千万美元A轮融资。

Sand AI 成立于 2023 年 10 月,主要开发与 Sora 类似的视频生成技术。值得注意的是,其创始人曹跃是 的联合创始人之一,曾任​​北京智远 AI 研究院视觉模型研究中心负责人、微软亚洲研究院高级研究员。

公开资料显示,曹跃本科、博士毕业于清华大学,曾获计算机视觉顶级会议ICCV马尔最佳论文奖,在 上被引用超过4万次。

▲曹岳(图片来源:其个人主页)

AI 也是视频生成领域的一家新创业公司。该公司于 2022 年在英国伦敦成立,之前专注于基于 AI 的 3D 重建。

据外媒3月份报道,AI获得1380万美元(约合人民币1亿元)的种子轮融资,此前曾在2022年4月融资540万美元。

AI 创始团队由两名中国人组成,分别是曾在全球信任与安全团队工作的苗亦舒和担任研究科学家的王子宇。去年年末,AI 团队决定将重心放在视频生成上,并于去年 12 月发布了同名首款视频生成产品的测试版。

▲发布同名产品测试版本

今年6月,Pika宣布获得新一轮约8000万美元(约合人民币5.81亿元)融资,估值翻倍至近5亿美元。去年11月,Pika宣布完成共计5500万美元融资,估值2-3亿美元。

7月2日,AI视频生成赛道的一家“老玩家”被曝正在洽谈4.5亿美元(约合人民币32.68亿元)新融资,估值40亿美元。

上一轮融资于去年 6 月完成,投资者包括谷歌、,以 1.41 亿美元达成 15 亿美元融资,总融资额达 2.37 亿美元。此轮融资若完成,无论融资额还是估值都将增长一倍以上。

总体来看,在 Sora 发布后的几个月里,新的 AI 视频生成融资不断出现在一级市场,不仅频率更高,金额也高出很多,每一轮都超过上一轮的总额。即便有些初创公司没有发布产品或升级模型,也阻挡不住投资者的热情。

4、AI视频大战持续150天,从“PPT”到真正的“视频”

在Sora“隐身”的150天里,在众多大公司和创业公司的“围剿”下,主流AI视频生成产品与Sora的差距被大大缩小,而且还有至关重要的一点——它非常容易使用,很多功能甚至是免费的。

目前领先的AI视频生成产品已经实现了良好的续航和稳定性,下一步迭代将重点关注物理模拟。从官方公布的demo来看,Gen-3、可灵、极梦、维度等对现实世界的模拟程度较高,选取的案例与Sora公布的案例也几乎一致。

那么从创作者的角度来看,目前的产品体验是什么样的?

近日,导演、AI影视创作者陈坤(仙人易坤)重新制作了其AI短剧《山海镜》预告,并与原作进行对比。

在短剧首映礼上,他向智东西等媒体表示,半年来AI的进步还是非常明显的,特别是在物理模拟领域,在他看来已经实现了“代际”迭代。具体来说,现阶段,像可灵这样的视频生成模型已经做到了原生高清,不再由切片式的画面内容驱动,主体动作合理,动作幅度不仅大而且流畅,对提示词反应积极。但与此同时,AI视频生成技术还面临几大痛点:人物一致性、场景一致性、人物表现、动作交互、动作幅度。

▲《山海奇经》翻拍版与原版预告片对比

从应用层面来看,在影视制作等场景,AI尚处于追赶传统影视的过程中。

在一个完整的制作流程中,AI依然是一种辅助手段而非主要工具,比如在剧本、配音、剪辑、后期制作等环节,目前还没有出现能够达到生产力水平的产品。

但在成本,包括人工效率方面,基于AI的流程实现了大幅压缩,达到了传统生产流程的1/4以下。

▲陈坤在预告片现场接受采访

在WAIC 2024上,爱视科技联合创始人谢旭章表示,现在我们所谓的“视频生成”,其实只是视频素材的生成,只是完整视频制作流程中的一小部分,还没有声音、剪辑、转场、脚本等,无论从技术还是商业角度,还有非常长的路要走。

这是AI视频除了继续迭代底层模型、攻克现有视频生成痛点之外的另一个重要发展方向。

市场上还有不少公司在尝试各种视频制作流程,也受到一级市场的青睐。仅在过去一周,AI驱动的视频编辑工具和AI虚拟环境灯光与合成工具分别获得了6000万美元和475万美元的融资。

结论:AI视频生成,等待GPT-4时刻

Sora 的发布点燃了国内外大型团队和创业者的热情,但总体来说还处于早期阶段,技术路线尚未达成共识,生成效果距离商用标准还有一定距离。至于具体处于哪个阶段,不少业内人士将其与语言、图像模型的早期阶段进行了类比,如“GPT-3 时代”、“2022 年前夕的图像生成”。

但可以肯定的是,AI视频生成技术正在呈指数级发展,新产品、新技术不断涌现。虽然还存在一些技术痛点和挑战2023澳门六开彩结果记录,但随着技术的迭代和市场的推动,该领域有望实现更多的突破和应用。

AI视频生成之战,不仅是技术的比拼,更是资本的较量。在这场圈钱风暴中,谁能笑到最后?让我们拭目以待。

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,35人围观)参与讨论

还没有评论,来说两句吧...