爱游戏APP入口

新闻中心NEWS CENTER

常见问题TECHNICAL DATA

国产Sora赛道无战事

时间： 2024-08-03 04:33:46 来源：沙拉盒

产品详情 PRODUCT DETAILS

　　哪怕大厂有资金、技术的非常大的优势，在AI时代，无论公司规模大小，都是创业者，很难轻易全力投入。

　　距离OpenAI发布Sora已过去近半年，国内的挑战者轮番上阵，只增不减。

　　就在刚结束的2024年世界人工智能大会（WAIC）上，多个“中国版Sora”亮相。

　　快手发布了可灵大模型的更新版本，主打时长最高达3分钟；商汤推出了最新的人物 AI 视频模型 Vimi，主打技术的“可控性”；阿里达摩院发布AI视频创作平台“寻光”，主打剧本创作辅助。

　　虽然AI生成式视频久违地热闹了一番，但整体掀起的水花并不大。尽管对谁才是中国版Sora的争夺从未停止，得到业内普遍认可的产品仍未出现，但快手成了最新的变数。

　　无论是技术路线，还是视频时长、生成效果，快手的可灵大模型似乎最像Sora。

　　“甚至我觉得也吊打了Sora，我认为这样的产品今天，在我能使用的范畴内就是全世界第一的。”在测试快手可灵后，猎豹创始人傅盛不吝赞美。

　　值得注意的是，傅盛提到了“使用范畴”。眼下，国内AI视频的玩家有限，Sora又从始至终保持神秘，某一些程度上“衬托”出了快手可灵的相对优势。

　　在Sora发布的几天前，张楠宣布辞任抖音集团CEO，亲自带队转战剪映，寻求在AI视频的突破。

　　同为短视频平台巨头，快手长期被抖音压过风光，在大模型时代，外界也惯性般对抖音寄予厚望，将其视为狙击Sora的种子选手。

　　就在人们翘首以待，张楠会交出怎样的成绩时，快手CEO程一笑却“截了胡”。

　　被Sora吊足了胃口的国内外网友们，被快手可灵的demo效果惊艳到，在线求试用名额。至少在国内的AI生成视频领域，这是少见的情况。

　　据快手透露，可灵大模型上线一个月以来，累计申请用户数50万+，开通用户数30万+，生成视频数700万。

　　先从技术路线说起，快手可灵的架构采用了类Sora的DiT结构，即以Diffusion和Transformer结合的方式，替代了传统扩散模型中基于卷积网络的U-Net。

　　Transformer具有较好的可拓展性，其结构会随着模型的增大，效果会持续变好。而U-Net会在模型增大到一些范围时，所受的增益效果放缓甚至停止。

　　Sora能在AI生成式视频实现质的飞跃，正是技术底层架构的巧妙选择。阿里巴巴达摩院的分析认为，Sora 的智能涌现，体现在其三位一致性、长距离连贯性和物体持久性、与世界互动的能力、对数字世界的模拟。

　　可灵也似乎能生成如Sora效果般的视频，真实还原物理世界。例如，一个人吃汉堡时，嘴角容易沾上酱料，汉堡留下咬痕。在可灵官网展示的demo中，小男孩吃汉堡的动作、神态均比较自然。

　　(prompt：一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡，图源官网。)

　　傅盛曾用快手可灵模仿Sora气球人的视频，在一些镜头中，显而易见气球里还有人头。且就气球本身来说，Sora的气球透明度非常自然，和现实中的气球一模一样。而可灵的气球被撑得很大，在阳光下几乎看不到透明度的变化。

　　此外，Sora可接受提示词、图像乃至视频作为输入，大模型将按照每个用户的输入来生成视频。多样的输入选择背后，是OpenAI多模态大模型的支撑。

　　由于Sora有OpenAI文生图模型DALLE3的加持，可将许多没有文本标注的视频自动进行标注，用于视频生成的训练。

　　同时，ChatGPT也可以把用户的输入扩写成细节更详细的描述，有效帮助Sora提取和理解用户的需求，使生成的视频更符合用户预期。

　　举个例子，输入“女性在商店购物”，ChatGPT可能会扩展联想到女性的衣服、商店的装饰、购物的类型等信息。

　　快手旗下的通用语言大模型“快意”，功能远不如GPT，在国内大模型梯队中，其存在感也较弱。快意对可灵语义理解上的助力，很可能是有限的。

　　目前，快手可灵支持文本输入、图片输入，另支持多种控制信息输入，如相机运镜、帧率、边缘/关键点/深度等，但没提供视频输入的功能。

　　以Sora横空出世为分界线，AI生成视频领域被划成分“10秒以内的时代”，以及“60秒及以上的时代”。

　　此前，国内没有一个产品，可以把视频做到10秒，10秒也成了衡量产品的“生死线”。

　　火爆全网的AI 视频生成应用Pika，在去年11月末正式对外发布，比Sora早几个月，仅能生成长度为3秒的24帧视频。

　　代表产品有百度AI文生视频的功能，自动根据文字内容，帮助寻找合适的视频素材，再输出视频，实质是对现有素材的拼接，没有涉及生成新的视频内容。

　　也有让单帧的图片“动”起来的文生视频技术，代表产品有阿里的EMO模型，输入声音和图片后，比如输入一首歌与人的照片，就能生成人在唱歌的短视频。

　　上述产品都只是“从有到有”，而Sora带来了文生视频技术真正的完成了“从无到有”，直接跃升至“构建现实”的新高度。

　　Pika 创始人郭文景表示，“（Sora）是一个振奋人心的消息，我们准备直接冲，将直接对标Sora。”经过几次更新，目前Pika把画面延长至4秒，只够做成表情包。

　　第一个跨越10秒“生死线”的企业，是背靠“清华系”的生数科技，旗下Vidu大模型4月首次亮相时，可以生成16秒视频，赢得了“中国版Sora”的称号。不到2个月，Vidu又宣布实现32秒视频的升级。

　　第一个跨越10秒“生死线”的大厂，是腾讯旗下的混元大模型，也是能生成16秒视频。

　　而抖音集团旗下的Dreamina（即梦）有所掉队，目前只支持生成3秒视频。

　　1秒的延长，往往意味着技术路线、训练数据等环节的大量研究与优化。单是训练素材，视频比文体、图像都更紧缺，收集、清洗、标记的难度更大。

　　套用Sam Altman 解释为何 GPT 会比其他的大模型更好的理由，是因为 OpenAI 堆了“一百万个小技巧”。

　　腾讯混元大模型能跨过10秒门槛，主要是全面升级了基础架构，由传统的U-Net改为DiT架构，参数量提升十几倍等。

　　快手可灵起初是支持2分钟视频，通过增加频续写功能，成功延长至3分钟。但快手可灵开放的内测，只支持生成几秒的视频。

　　视频长度与连贯性高度相关，国内视频大模型长期在10秒内止步，便是没办法做到在确保时长的基础上，兼具人物和场景、前后语境逻辑等方面的连贯。为了画面流畅度，厂商宁愿放弃时长。

　　比如，当一个人遛狗，狗怎么走路？遇见路人时会有什么反应？人和狗移动时旁边的环境如何同步变化？我们在日常生活中习惯的场景，放在虚拟世界，却是极其复杂的问题。

　　“可灵肯定是一个很复杂的，重资源投入，多兵种协作的复杂项目，肯定不是一个单一的天才的想法随便搞出来的东西。”快手视觉生成与互动中心负责人万鹏飞表示。

　　ChatGPT发布后，国内大厂争先恐后上线通用语言大模型。不到两年，该领域就已历经“百模大战”、“开源与闭源之争”、“价格战”，百度、阿里、腾讯、字节、华为集体亲自下场交锋，火药味十足。

　　而AI生成视频要冷清得多，当OpenAI抛出Sora这一“王炸”后，讨论热度依然高居不下，但在产品数量上，国内没有重现语言大模型的盛况。

　　只有字节的海外版剪映跟进推出了文生视频产品的测试版，且反响不佳。有网友反馈，生成一个视频得等约1800分钟。

　　资本也把主要的热情分给通用语言大模型，同样是初创公司，Kimi的月之暗面估值超200亿人民币，生数科技估值刚超过1亿美元。

　　即便是可灵，对快手拉高市值也没什么影响。6月以来，快手的股价持续下跌，7月12日才稍有起色。

　　“App工厂”字节继续做擅长的事，用应用的方式打开AI生成视频，推出了即梦App，约两分钟就能生成了3 秒的视频，进步显著。要延长3 秒，则需购买会员。

　　腾讯在上线自研混元大模型的同时，也发布了文生图大模型，并且全面开源，可以不要钱商用。

　　玩法变动背后，是国内厂商考验性价比的结果。光卷文本大模型，大厂都有些分身乏力。

　　由于Sora完全闭源，OpenAI对技术细节守口如瓶，让竞争对手难以“抄作业”。

　　算力荒为另一大痛点，哪怕大厂有资金、技术的非常大的优势，在AI时代，无论公司规模大小，都是创业者，很难轻易全力投入。

　　中信证券曾简单估算，一个60帧的视频（约6—8秒）需要约6万个Patches，以去噪步数为20计算，相当于要生成120万个Tokens。考虑到扩散模型在实际使用时需要多次生成的特点，实际计算量会远超120万个Tokens。

　　业界也流传，Sora 的参数规模在 100亿到 300亿之间，所需的算力或与千亿级的大语言模型差不多。

　　何况，不像语言大模型已指出较明确的B端商业化路径，视频大模型还在摸索阶段，甚至连全面公测都有较远的距离。快手可灵也暂无商业化计划，不对外提供API。