哪怕大厂有资金、技术的非常大的优势,在AI时代,无论公司规模大小,都是创业者,很难轻易全力投入。
距离OpenAI发布Sora已过去近半年,国内的挑战者轮番上阵,只增不减。
就在刚结束的2024年世界人工智能大会(WAIC)上,多个“中国版Sora”亮相。
快手发布了可灵大模型的更新版本,主打时长最高达3分钟;商汤推出了最新的人物 AI 视频模型 Vimi,主打技术的“可控性”;阿里达摩院发布AI视频创作平台“寻光”,主打剧本创作辅助。
虽然AI生成式视频久违地热闹了一番,但整体掀起的水花并不大。尽管对谁才是中国版Sora的争夺从未停止,得到业内普遍认可的产品仍未出现,但快手成了最新的变数。
无论是技术路线,还是视频时长、生成效果,快手的可灵大模型似乎最像Sora。
“甚至我觉得也吊打了Sora,我认为这样的产品今天,在我能使用的范畴内就是全世界第一的。”在测试快手可灵后,猎豹创始人傅盛不吝赞美。
值得注意的是,傅盛提到了“使用范畴”。眼下,国内AI视频的玩家有限,Sora又从始至终保持神秘,某一些程度上“衬托”出了快手可灵的相对优势。
在Sora发布的几天前,张楠宣布辞任抖音集团CEO,亲自带队转战剪映,寻求在AI视频的突破。
同为短视频平台巨头,快手长期被抖音压过风光,在大模型时代,外界也惯性般对抖音寄予厚望,将其视为狙击Sora的种子选手。
就在人们翘首以待,张楠会交出怎样的成绩时,快手CEO程一笑却“截了胡”。
被Sora吊足了胃口的国内外网友们,被快手可灵的demo效果惊艳到,在线求试用名额。至少在国内的AI生成视频领域,这是少见的情况。
据快手透露,可灵大模型上线一个月以来,累计申请用户数50万+,开通用户数30万+,生成视频数700万。
先从技术路线说起,快手可灵的架构采用了类Sora的DiT结构,即以Diffusion和Transformer结合的方式,替代了传统扩散模型中基于卷积网络的U-Net。
Transformer具有较好的可拓展性,其结构会随着模型的增大,效果会持续变好。而U-Net会在模型增大到一些范围时,所受的增益效果放缓甚至停止。
Sora能在AI生成式视频实现质的飞跃,正是技术底层架构的巧妙选择。阿里巴巴达摩院的分析认为,Sora 的智能涌现,体现在其三位一致性、长距离连贯性和物体持久性、与世界互动的能力、对数字世界的模拟。
可灵也似乎能生成如Sora效果般的视频,真实还原物理世界。例如,一个人吃汉堡时,嘴角容易沾上酱料,汉堡留下咬痕。在可灵官网展示的demo中,小男孩吃汉堡的动作、神态均比较自然。
(prompt:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡,图源官网。)
傅盛曾用快手可灵模仿Sora气球人的视频,在一些镜头中,显而易见气球里还有人头。且就气球本身来说,Sora的气球透明度非常自然,和现实中的气球一模一样。而可灵的气球被撑得很大,在阳光下几乎看不到透明度的变化。
此外,Sora可接受提示词、图像乃至视频作为输入,大模型将按照每个用户的输入来生成视频。多样的输入选择背后,是OpenAI多模态大模型的支撑。
由于Sora有OpenAI文生图模型DALLE3的加持,可将许多没有文本标注的视频自动进行标注,用于视频生成的训练。
同时,ChatGPT也可以把用户的输入扩写成细节更详细的描述,有效帮助Sora提取和理解用户的需求,使生成的视频更符合用户预期。
举个例子,输入“女性在商店购物”,ChatGPT可能会扩展联想到女性的衣服、商店的装饰、购物的类型等信息。
快手旗下的通用语言大模型“快意”,功能远不如GPT,在国内大模型梯队中,其存在感也较弱。快意对可灵语义理解上的助力,很可能是有限的。
目前,快手可灵支持文本输入、图片输入,另支持多种控制信息输入,如相机运镜、帧率、边缘/关键点/深度等,但没提供视频输入的功能。
以Sora横空出世为分界线,AI生成视频领域被划成分“10秒以内的时代”,以及“60秒及以上的时代”。
此前,国内没有一个产品,可以把视频做到10秒,10秒也成了衡量产品的“生死线”。
火爆全网的AI 视频生成应用Pika,在去年11月末正式对外发布,比Sora早几个月,仅能生成长度为3秒的24帧视频。
代表产品有百度AI文生视频的功能,自动根据文字内容,帮助寻找合适的视频素材,再输出视频,实质是对现有素材的拼接,没有涉及生成新的视频内容。
也有让单帧的图片“动”起来的文生视频技术,代表产品有阿里的EMO模型,输入声音和图片后,比如输入一首歌与人的照片,就能生成人在唱歌的短视频。
上述产品都只是“从有到有”,而Sora带来了文生视频技术真正的完成了“从无到有”,直接跃升至“构建现实”的新高度。
Pika 创始人郭文景表示,“(Sora)是一个振奋人心的消息,我们准备直接冲,将直接对标Sora。”经过几次更新,目前Pika把画面延长至4秒,只够做成表情包。
第一个跨越10秒“生死线”的企业,是背靠“清华系”的生数科技,旗下Vidu大模型4月首次亮相时,可以生成16秒视频,赢得了“中国版Sora”的称号。不到2个月,Vidu又宣布实现32秒视频的升级。
第一个跨越10秒“生死线”的大厂,是腾讯旗下的混元大模型,也是能生成16秒视频。
而抖音集团旗下的Dreamina(即梦)有所掉队,目前只支持生成3秒视频。
1秒的延长,往往意味着技术路线、训练数据等环节的大量研究与优化。单是训练素材,视频比文体、图像都更紧缺,收集、清洗、标记的难度更大。
套用Sam Altman 解释为何 GPT 会比其他的大模型更好的理由,是因为 OpenAI 堆了“一百万个小技巧”。
腾讯混元大模型能跨过10秒门槛,主要是全面升级了基础架构,由传统的U-Net改为DiT架构,参数量提升十几倍等。
快手可灵起初是支持2分钟视频,通过增加频续写功能,成功延长至3分钟。但快手可灵开放的内测,只支持生成几秒的视频。
视频长度与连贯性高度相关,国内视频大模型长期在10秒内止步,便是没办法做到在确保时长的基础上,兼具人物和场景、前后语境逻辑等方面的连贯。为了画面流畅度,厂商宁愿放弃时长。
比如,当一个人遛狗,狗怎么走路?遇见路人时会有什么反应?人和狗移动时旁边的环境如何同步变化?我们在日常生活中习惯的场景,放在虚拟世界,却是极其复杂的问题。
“可灵肯定是一个很复杂的,重资源投入,多兵种协作的复杂项目,肯定不是一个单一的天才的想法随便搞出来的东西。”快手视觉生成与互动中心负责人万鹏飞表示。
ChatGPT发布后,国内大厂争先恐后上线通用语言大模型。不到两年,该领域就已历经“百模大战”、“开源与闭源之争”、“价格战”,百度、阿里、腾讯、字节、华为集体亲自下场交锋,火药味十足。
而AI生成视频要冷清得多,当OpenAI抛出Sora这一“王炸”后,讨论热度依然高居不下,但在产品数量上,国内没有重现语言大模型的盛况。
只有字节的海外版剪映跟进推出了文生视频产品的测试版,且反响不佳。有网友反馈,生成一个视频得等约1800分钟。
资本也把主要的热情分给通用语言大模型,同样是初创公司,Kimi的月之暗面估值超200亿人民币,生数科技估值刚超过1亿美元。
即便是可灵,对快手拉高市值也没什么影响。6月以来,快手的股价持续下跌,7月12日才稍有起色。
“App工厂”字节继续做擅长的事,用应用的方式打开AI生成视频,推出了即梦App,约两分钟就能生成了3 秒的视频,进步显著。要延长3 秒,则需购买会员。
腾讯在上线自研混元大模型的同时,也发布了文生图大模型,并且全面开源,可以不要钱商用。
玩法变动背后,是国内厂商考验性价比的结果。光卷文本大模型,大厂都有些分身乏力。
由于Sora完全闭源,OpenAI对技术细节守口如瓶,让竞争对手难以“抄作业”。
算力荒为另一大痛点,哪怕大厂有资金、技术的非常大的优势,在AI时代,无论公司规模大小,都是创业者,很难轻易全力投入。
中信证券曾简单估算,一个60帧的视频(约6—8秒)需要约6万个Patches,以去噪步数为20计算,相当于要生成120万个Tokens。考虑到扩散模型在实际使用时需要多次生成的特点,实际计算量会远超120万个Tokens。
业界也流传,Sora 的参数规模在 100亿到 300亿之间,所需的算力或与千亿级的大语言模型差不多。
何况,不像语言大模型已指出较明确的B端商业化路径,视频大模型还在摸索阶段,甚至连全面公测都有较远的距离。快手可灵也暂无商业化计划,不对外提供API。
OpenAI向来不打无准备的战,届时Sora的开放,或又是进一步盘活国内AI生成视频赛道的鲶鱼。