历史回顾澳门今晚必中一肖一码今晚澳门,AI 视频圈热闹非凡，国内外公司纷纷发力，谁能赶超 Sora？

朱自清 07-23 25 抢沙发

默认

摘要： 历史回顾澳门今晚必中一肖一码今晚澳门,AI 视频圈热闹非凡，国内外公司纷纷发力，谁能赶超 Sora？光卷时长还不够，生成的视频内容也得合理。“但这不属于新的技术突破，且图生视频难度...

两家国外AI视频初创公司率先发力，旧金山的人工智能技术公司Luma推出了Dream视频生成模型，并发布了电影级宣传视频，产品还向用户免费试用。另一家在AI视频领域小有名气的初创公司也宣布将向部分用户开放Gen-3 Alpha模型进行测试，声称可以生成光影等细节。

快手也不甘示弱，推出了可灵Web端展现2024澳门管家婆资料大全免费，允许用户生成长达10秒的视频内容，还具备首尾帧控制、摄像机镜头控制等功能。其原创的AI玄幻短剧《山海奇经：劈波斩浪》也在快手播出，画面全部由AI生成。AI科幻短剧《三星堆：未来启示录》也在近日播出，由字节跳动旗下AI视频产品极萌出品。

AI视频更新速度如此之快，让不少网友惊呼“好莱坞可能又要罢工了”。

如今，在AI视频赛道，既有谷歌、微软、元气、阿里巴巴、字节跳动、美图等国内外科技、互联网巨头，也有爱视科技等新兴企业。据「钉钉」不完全统计，仅在中国，就有约20家企业推出了自研的AI视频产品/模型。

据投宝研究院数据显示，2021年中国AI视频生成行业市场规模为0.8亿元，预计2026年市场规模将达到92.79亿元。不少业内人士认为，2024年生成视频赛道将迎来属于自己的时刻。

全世界的 Sora 都发展到什么阶段了？谁才是最强？AI 能打败好莱坞吗？

索拉围攻：产品众多，可用产品却很少

AI视频赛道上线的产品/模型很多，但真正能被大众使用的却寥寥无几。国外最突出的代表是Sora，上线半年后仍处于内测阶段，仅对安全团队和部分视觉艺术家、设计师、电影人开放。国内情况也类似，阿里达摩院的AI视频产品“迅光”、百度的AI视频模型UniVG均处于内测阶段。至于目前火爆的快手科灵，用户需要排队申请使用，已经淘汰了超过一半的产品。

剩余的一些AI视频产品设置了使用门槛，要求用户付费或具备一定的技术知识。比如路晨科技的Open-Sora，如果用户对代码没有一点了解，就无从下手。

「钉钉」整理了国内外发布的AI视频产品发现，各家公司的操作方式和功能大同小异，用户先用文字给出生成指令，然后选择帧大小、图片清晰度、生成样式、生成秒数等功能，最后点击一键即可生成。

这些功能背后的技术难度各有不同，其中最难的莫过于生成视频的清晰度和秒数，这也是各家AI视频公司在宣传上争夺的焦点，而这背后的原因则与训练过程中所用素材的质量、算力的大小息息相关。

AI研究员Cyrus告诉丁椒，目前国内外大部分AI视频都支持480p/720p的生成，也有少部分支持1080p的高清视频。

他表示，优质素材越多，算力越高，训练出来的模型就能生成更高质量的视频，但不代表优质素材和算力就能生成优质素材。如果强行用低分辨率素材训练出来的模型去生成高分辨率视频，就会崩溃或者重复，比如多出手多脚。这类问题虽然可以通过放大、修复、重绘等方式解决，但效果和细节就很一般了。

很多公司也把产生的长秒数作为卖点。

国内大部分AI视频支持2-3秒，能达到5-10秒的产品算是比较厉害了，也有一些很火爆的产品，比如极梦，最高可以达到12秒，不过都比不上Sora，后者曾宣称最高可以生成60秒的视频，不过由于目前还没有开放使用，所以具体表现还无法验证。

视频长度不够，生成的视频内容也要合理。石榴AI首席研究员张恒告诉《顶角》：从技术上讲，可以要求AI连续输出。毫不夸张地说，哪怕生成一个小时的视频也不成问题，但很多时候我们要的不是监控视频，也不是循环播放的风景动画，而是画面精美、有故事的短片。

顶焦测试了国内五款热门免费AI产品，分别是字节跳动的极梦、摩托罗拉的Morph、爱势科技的忆影AI、右脑科技的Vega AI，并给了它们同一条文字指令：“一个穿着红裙子的小女孩在公园里用胡萝卜喂一只白兔。”

几款产品的生成速度差不多，都只有2-3分钟，但清晰度、时长差别较大，准确率更是“群魔乱舞”。结果如下：

附庸风雅人工智能

维加人工智能

梦

变形

像素诗

各自优缺点都很明显，Dream 胜在时长，但制作质量不高，主角小女孩后期直接变形，Vega AI 也有同样的问题，画质比较差。

相比较而言，Morph 生成的内容很精准，但时长只有 2 秒；画质也不错，但对文字理解不够到位，直接丢掉了兔子这个关键元素；生成的视频不够逼真，偏向卡通化。

简而言之，目前还没有任何产品能够提供符合要求的视频。

AI 视频挑战：准确性、一致性和丰富性

“定焦”的体验和各家公司发布的宣传视频有很大区别，AI视频要想真正商业化，还有很长的路要走。

张恒告诉《顶焦》，从技术层面，他们主要从准确率、一致性、丰富度三个维度来考虑不同AI视频模型的水平。

张恒举了一个例子来说明如何理解这三个维度。

例如生成“两个女孩在操场上观看篮球比赛”的视频。

精准体现在，第一，对内容结构的准确理解，比如视频中出现的物体必须是女生，而且是两个；第二，对过程的准确把控，比如投篮之后，篮球要慢慢的从篮筐上落下来；最后，对静态数据建模的准确，比如当镜头有遮挡的时候，篮球不能变成橄榄球。

一致性是指AI在时间和空间上的建模能力，包括主体注意力和长期注意力。

主注意力可以理解为，在观看篮球比赛的过程中，两个小女孩要始终保持在画面中，不能到处乱跑；长时间注意力是指在运动过程中，视频中的各个元素不能丢失，也不能变形或者出现其他不正常的情况。

丰富性是指AI也有自己的逻辑，即使没有文字提示，也能生成一些合理的细节。

基本上，市面上现有的AI视频工具还未能完全达到上述维度，各类公司也在不断提出解决方案。

比如在视频人物的一致性方面，季梦和可灵想到用图像生成视频取代文字生成视频的思路。即用户先用文字生成图片，再用图片生成视频，或者直接给一两张图片，AI 会把它们连成一段动人的视频。

“但这并非什么新的技术突破，而且图像生成视频的难度比文字生成视频要低。”张恒告诉顶角。文字生成视频的原理是，AI先对用户输入的文字进行分析，分解成一组镜头描述，再将描述转化为文字再转化为图片，进而得到视频的中间关键帧。通过将这些图片串联起来，就能得到一段连续的有动作的视频。图像生成视频相当于给了AI一张特定的图片去模仿，生成的视频就会延续图片中的五官，达到主角的连贯性。

他还表示，在实际场景中，图像生成视频的效果更符合用户预期，因为文字对画面细节的表达能力有限，有图片作为参考会有助于生成视频，但目前还未实现商用。直观来说，5秒是图像生成视频的上限，超过10秒可能意义不大，要么内容重复，要么结构扭曲、质量下降。

目前，很多号称全AI制作的短片、电视剧，大多采用图像转视频或者视频转视频的方式。

吉梦也用上一帧功能拍摄了图像生成的视频，并尝试了“定焦”功能，结果如下：

在组合的过程中，人物发生了变形、扭曲。

Cyrus 还表示，视频需要连续性，很多支持图像转视频的 AI 视频工具也是通过单帧图像来推断后续动作，至于推断是否正确，还是要看运气。

据了解，在实现主角一致性方面，各家公司并不单纯依赖数据生成。张恒称，大部分模型都是在原有底层DIT大模型的基础上，叠加各种技术，比如（哈尔滨工业大学与华为云提出的可控文本视频生成方法），加深AI对主角五官的记忆，让脸部在运动过程中不会发生太大变化。

但目前还处于试验阶段，即使加入了技术，角色一致性的问题仍然没有彻底解决。

AI视频，为何进化得如此缓慢？

在AI圈，目前竞争最激烈的是美国和中国。

从《2023年全球最具影响力人工智能学者》（简称“AI 2000学者”榜单）相关报告可以看出，2020年至2023年四年间全球1071所“AI 2000机构”中，美国有443所，中国有137所位列其后。从2023年“AI 2000学者”国别分布来看，美国入选人数最多，共有1079人，占全球总数的54.0%，其次是中国，共有280人入选。

过去两年，AI除了在视觉图像、音乐等领域取得巨大进展外，在最难突破的领域——AI视频也取得了一些突破。

在前不久的世界人工智能大会上，益天资本合伙人乐原公开表示，视频生成技术在过去两三年内取得了远超预期的进展。新加坡南洋理工大学助理教授刘子伟认为，视频生成技术目前处于GPT-3时代，大约需要半年时间才能成熟。

不过乐源也强调，其技术水平还不足以支撑大规模商业化，基于语言模型开发应用的方法论和挑战同样适用于视频相关的应用领域。

年初，Sora的出现震惊了世界，它基于架构新扩散模型DiT在扩散和生成方面取得了技术突破，提升了图像生成的质量和真实感，让AI视频有了重大突破。Cyrus表示，目前国内外大部分文化视频都采用了类似的技术。

图片来源/Sora官网

目前来看，大家在底层技术上基本是一致的，虽然各家也在此基础上寻求技术突破，但需要更多量的训练数据来丰富产品功能。

在使用字节跳动的极梦和Morph AI的Morph时，用户可以选择视频的镜头运动方式，这背后的原理就是不同的数据集。

“以前各公司在训练时使用的图像都比较简单核心问题2o24奥门正版精准资料，大多会标注图像中的元素，但是不会说明这个元素是用什么镜头拍摄的。这让很多公司发现了这个漏洞，于是利用3D渲染的视频数据集来补全镜头特征。”张恒说，目前这些数据都来自影视行业、游戏公司的效果图。

“定焦”也尝试了这个功能，不过镜头的变化不是很明显。

Sora 等人之所以发展得比 GPT 等人慢，是因为他们要构建时间轴历史回顾澳门今晚必中一肖一码今晚澳门,AI 视频圈热闹非凡，国内外公司纷纷发力，谁能赶超 Sora？，而且训练视频模型的难度比文本和图片更大。“现在能用的视频训练数据都已经被挖掘出来了介绍新澳好彩免费资料查询，我们也在想一些新的办法，创造出一系列可以用来训练的数据。”张恒说。

而且每个AI视频模型都有自己的风格，比如快手科灵做的美食直播视频就比较好，就是有大量这样的数据支撑的。

石榴AI创始人沈仁奎认为，AI视频的技术包括文本转视频、图像转视频、视频转视频、视频转视频等，定制形象、定制声音的数字人已经在营销领域应用，达到商用水平，而文胜视频还需要解决精准度、可控性的问题。

此时此刻，无论是抖音与博纳联手出品的AI科幻短剧《三星堆：未来启示录》，还是快手原创的AI奇幻短剧《山海镜：劈波斩浪》，更多的是大型模型公司主动寻找影视制作团队与其合作，它们有推广自身科技产品的需求，作品并未出圈。

在短视频领域，AI还有很长的路要走，说它已经接管好莱坞还为时过早。

*标题图片来自。

标签：半年过去 AI视频卷到哪儿了？