本文作者:叶圣陶

详细解析(新澳2024管家婆资料第三期)智谱 AI CEO 张鹏:发布清影的初衷是让大家体验视频生成能做到什么程度

详细解析(新澳2024管家婆资料第三期)智谱 AI CEO 张鹏:发布清影的初衷是让大家体验视频生成能做到什么程度摘要: 详细解析(新澳2024管家婆资料第三期)智谱 AI CEO 张鹏:发布清影的初衷是让大家体验视频生成能做到什么程度智谱AICEO张鹏说,这是发布清影(Ying)的初衷,今天,AI视...

网易科技《态度AGI》对话专栏出品

作者:丁广胜

“在视频生成人人可用的前提下,让每个人都能体验到能实现什么,而不是被关在实验里。”

智扑AI CEO张鹏表示,这正是推出Ying的初衷,如今AI视频生成又增添了一位强力玩家。

Ying 是一个视频模型,它能做的事情可以用一句话来概括:只要你有一个好的想法(从几个字到几百个字)和一点耐心(30 秒),Ying 就能生成高清的视频。

Ying base 的视频生成模型就是能把文本、时间、空间三个维度融合起来,参考了 Sora 的算法设计,同样是 DiT 架构,通过优化,相比上一代()推理速度提升了 6 倍。

智扑青鹰(Ying)AI视频生成(寻人启事)(来源:网易科技报道)

“我们在模型层面积极探索更高效的方法。”张鹏表示:“随着算法和数据的不断迭代,相信Law还会继续发挥强大的作用。”

张鹏在接受采访时谦虚地表示详细解析(新澳2024管家婆资料第三期)智谱 AI CEO 张鹏:发布清影的初衷是让大家体验视频生成能做到什么程度,鹰的推出主要是阶段性的成果,还不够完善。他坦言,“我们和世界顶尖水平还有差距。但虽然承认差距,但这条路我们自己要走。在追求技术进步的同时,我们也追求技术的普及,这是我们的特点。”

当被问及 Ying 是否在朝着超级应用的方向努力时,张鹏表示实践指导2022澳门今晚开特马,超级应用不一定是大家理解的那种“超级”,可能是人们真正爱上它,然后在一个循序渐进、潜移默化的过程中习惯了使用这个工具,而这并不一定要循序渐进、突飞猛进。

对于AGI路径,他认为视频生成并不是孤立地看的,它是多模态或者AGI多模态路径中的一个环节,是AGI的必经之路!

以下为与网易科技等媒体对话精选(有所调整,不改变原意):

Q:Ying 有没有什么商业化的考虑?后续的商业化策略是什么?是更倾向于 2C 还是 2B?

张鹏:Ying功能的推出主要是阶段性的成果,现在还不是很完善,还是需要分阶段去解决,我会把我们的进展汇报给大家,让大家感受一下目前视频生成的现状,在大家都能用到的前提下能实现什么,而不是被关在实验室里或者用极小的概率去生产什么东西。

现阶段不管是2C还是2B,走向大规模商业化都还为时过早,为了公平起见,除了C端和B端,创作者也可以享受这个能力,所以在开放平台上把API开放,并且有一定的费用,这是为了统一计费方式,但是这种形式更实惠,众所周知,生成视频的成本也是很高的,最好能收回一点。

Q:除了智扑,还有很多公司发布了新的AI视频产品,大家都在针对可控性进行优化,您觉得清影的优势在哪里?

张鹏:第一是技术层面,视频本身的可控性。我们认为未来内容生成,特别是视频内容生成,大部分情况下还是由人用语言来控制。那么怎么从文字到语言或者简单的图片呢?到了语言层面,这种方式是比较可控的。这是真正的可控,更高层次的可控,这是技术问题。

第二个层面就是安全性,生成的内容,因为视频信号里面包含的内容和细节比较多,保证生成的内容符合你的要求,同时还要保证安全性、可控性肯定是很重要的一点,所以我相信所有的视频生成团队都非常重视这个内容。

最后,生成的东西如果能用于商业应用,可控性也是一个必要条件,你要把创作者的意图表达的非常准确,让大家买单,可控性也是一个很重要的东西。

Q:Sora 目前还没有对外开放,但智普 AI 已经对外开放了,你们是怎么想的?之前做了哪些准备?

张鹏:首先Sora的效果还是挺不错的,刚才也说了,今天的结果还是一个初步的中期成果,没有Sora演示的视频那么好,也没有Sora演示的视频那么长,这个还需要多加努力。

我们一直很坦诚地承认我们和世界顶尖选手的差距,但是虽然承认差距,但我们还是要走自己的路,用自己的方式不断追赶,大家都能用,所以我们在追求技术先进性的同时,也在追求技术的可获得性和成本,这也是我们团队的特点。

问:智扑清研或者说这个新产品如何能够增加活跃度,如何能够把它做成一个超级APP或者杀手级APP?

张鹏:这是一个思维的问题,我们认为清眼APP的定位是人工智能助手,助手就是帮你解决工作、学习、生活中的实际问题,帮你提高生产力、学习效率、工作便利性,比如说改进等等。

你可能会觉得它作为一款娱乐工具来说,并没有那么好玩、没有那么吸引人,但我们也相信,所谓的超级APP,也未必就那么“超级”,让人真正爱上、使用、习惯使用这个工具,是一个循序渐进、潜移默化的过程。

所以可能这种变化不一定是逐步的、跳跃式的变化,而可能是潜移默化的变化。

我们认为,与其不断地预测这一点,不如脚踏实地、一步一个脚印地去做。

Q:现在的车型都是DiT架构,我们在这方面有什么创新吗?

张鹏:首先在算力方面,DiT+大家知道,Sora 也是用这个方案,我们也用这个方案,但是因为技术细节的开放性和不透明性,很多地方需要我们自己去探索。然后,算力方面我不太认同生成视频会比生成文本更重要的说法。可能未来很多东西都会变成多模态信号的融合,但主要是视觉信号,人脑还是最有影响力的。

比如说PPT为什么比传统方式更容易被接受?因为它有更多主观的视觉信号,把文字转化成结构化的信息。未来会是视频的形式,所有内容都会转化成视觉形式,这是需要大家去探讨的PPT。

Q:智扑的视频生成只是整个模型矩阵的一部分吗,还是希望未来让它形成一个独立的商业闭环?

张鹏:视频生成不应该孤立地来看,而应该放在整个技术和产品发展路线中,我们认为它是多模态或者AGI多模态路径中的一个环节。

我们认为它是AGI的必经之路。从产品角度来说,它会不会成为一个单独的产品去商业化?我觉得这个是肯定的。只要有市场需求,作为公司,我们就应该去做商业化。这是两码事。

Q:文森视频科技给影视行业带来了哪些变化?智普和华策克都有合作,AI会取代长视频拍摄吗?

张鹏:从技术发展的角度来说,大家都觉得这是一个好的事情、一个重要的方向,对于影视行业的变革有着积极的意义。但是就目前而言,它可以用于一些辅助性的工作,甚至做一些小范围的创作,但要真正达到改变电影制作的目的,这些更高层次的东西可能还有一些路要走。

Q:智浦AI今年的重点是落地行业,目前的布局包括B端、C端、多模态,你们是如何分配资金和精力的?

张鹏:确实做大模型成本太高,而且确实有市场需求,你要把它商业化,所以我们是分层分层去做的。最基础的技术突破和创新是我们消耗的资源和计算能力是最大的部分,在这个基础上推动商业化。但是在我们看来商业化还是根植于你做这件事的技术创新和驱动力。我们不想说研发是商业化是一张皮,我们的产品和客户服务是另一张皮。这样的分割对于企业来说会面临一个问题,就是资源怎么分配。我们希望是一致的,在商业化的过程中,服务客户的过程,是由我们在技术和产品上的核心能力来驱动的,客户的需求和反馈才是我们技术创新、突破和进步的动力,我们力求在两者之间打造一个更好的闭环。

:青影(Ying)目前有绑定哪些种子用户画像和重点关注场景?

张鹏:主要是线上电商营销、媒体、社交媒体短视频等需求比较强,但是我相信绝对不局限于这些客户。

Q:未来从文本模型到视频生成模型、多模态模型,传统程序员在开源多模态模型开发中会扮演什么角色?

张鹏:文本模型在视频多模态模型之前跑了一段时间,现在这个模型是未来视频或者多模态也会往这个方向发展,模型也差不多。开发者社区有很多人在做技术建设,风格化之类的东西都是开源社区一些有热情的人在做的,他们会慢慢积累成一定的套路不看后悔澳门六开彩开奖结果资料查询,用到的方法论也会迁移到多模态模型上。

:Sora 诞生之初是一个视频生成模型,同时也提出了“世界模型”,智浦 AI 对世界模型和物理世界有进行过研究吗?

张鹏:很多讨论还没有定论。我们的观点跟其他人是差不多的。对于人脑,或者说对于人对世界的认知,除了语言之外,视觉、听觉、嗅觉等各种感官都是融入到人脑中的。同时为什么看起来人的学习速度和效率没有计算机快,但人的智能却比计算机高呢?这是因为人脑的学习过程比现在复杂得多,不同模态之间信号的相互验证和交叉。在所谓世界模型的道路上,跨模态性非常重要实践策略二四六香港管家婆期期准资料大全,我们一步一步来。

问:你们什么时候开始研发 Ying?你们的团队规模有多大?你们在产品研发上的投入有多少?

张鹏:我们从 2021 年就开始规划这件事情,在这个过程中我们也在积累其他相关的东西。我们认为构建大模型的最终目的是实现 AGI,本质上就是如何去理解现实世界。信号和数据的提取、压缩和学习的过程,可能最密集的就是语言,相对容易,也是人机交互中非常重要的一环。然后语言模型就转化成多模态模型。我相信单模态建模、语言模态建模、跨模态建模,最终会走向对本质物理世界的统一表示。我们都在追求同一个真理,只是走的路不一样而已,这可能就是结局。

关于 AGI

网易科技推出系列对话专栏《态度AGI》。近三年来,AI瞬息万变,全球技术秩序正在重构,AGI之路或正悄然临近。本期专栏以AGI为题,将对话100位AI专家。专家、创业者、投资人,力图拨开迷雾,与大家共同见证AGI时代的到来。第八期访谈对象为智普AI CEO张鹏。

先前的评论:

《态度AGI》第一集:对话李开复:大咖创业狂奔一年,中美差距缩小,十年我不会套现

《态度AGI》第二集:对话王小川:我们不会跟风大车型打价格战

《态度AGI》第三集:对话戴文渊:大模型价格战并不能解决核心问题

《态度AGI》第四期:致远研究院院长王忠源:GPT4不是国产大模型的终结

《态度AGI》第五期:对话朱啸虎:5年后不会出现独立的大型模型公司,因为没有商业模式

《态度AGI》第六期:对话梅花创投吴世春:“中国大模式五虎”脱颖而出很困难

《态度AGI》第七期:对话悦然创新CEO李勇:如何在大规模模型应用上与巨头竞争

详细解析(新澳2024管家婆资料第三期)智谱 AI CEO 张鹏:发布清影的初衷是让大家体验视频生成能做到什么程度

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,48人围观)参与讨论

还没有评论,来说两句吧...