当前位置：首页 > 财经

追不上Sora的偕行有难了

时间： 2024-02-26 16:41 来源：未知

发布第天，同行已经坐不住了。

月日，中国大年初七，发布了全新的生成式人工智能模型：输入做作语言指令，输出至多秒的视频。

从文本到视频的生成式模型并不奇怪，但——就像——一样，因其断崖式的质量提升，登时点燃了互联网。

高清的画质，流畅的画面，乍看之下颇为做作的物理轨迹，和一年前近乎鬼畜的“威尔·史密斯吃意大利面”视频看起来像隔了一个世纪，同行去年才发布的产品与之比拟也黯然失色。

天很短，但在领域却足以生变。

至少有两家界“当红炸子鸡”站了出来：月日，正式开放的公测，该产品背后的模型去年月就已经发布。

的确同时，另一家在文生图领域颇有建树的也透露，可能会在下一次迭代时包含视频功能。

往日“炸子鸡”站在阴影中，追不上的同行有难了。

在接受了演示视频的直接打击之外，人们立刻最先做纵向和横向的比较。

纵向比较，人们拿出了一年前“威尔·史密斯吃意大利面”的视频。

这位好莱坞明星脸部变形严重、面的形态千变万化，分分钟触发恐怖谷效应，越看越诡异。

一年之后，已经可以做出一个女人在东京街头漫步的视频，不管是画面质量、连续性和稳定性，照旧女人的步态与神情，都已经的确可以以假乱真，让人连连称誉：文本到视频的前进也太大了。

惋惜的是，尽管有数网友在山姆·奥特曼（）的交际媒体账号下求版本的“威尔·史密斯吃意大利面”，并没能得偿所愿。

倒是史密斯本人跑出来整了个活儿，真人拍摄，“伪造”了一个新版本。

你别说，还真差点给人骗过去——真人都能拍视频伪装是生成的了，倒也足见视频的高质量。

横向对比，同行就有点尴尬了。

把每一个演示视频的文本指令都发布了，虽然人们不克不及直接用，可是可以拿着指令去市面上已有的产品里试，看看有什么差别。

不试不要紧，一试吓一跳：看到视频的时候就以为厉害，看了同行的显示更对的威力有了新的认知。

同样是女人在东京街头漫步的指令，生成的视频暂停看还都像那末回事，连起来就只能用“千变万化”形容，女人的形象并不克不及随着时候的推移保持稳定。

要知道的演示视频中还有机位的变革，从近景到脸部特写，女人的形态始终如一。

生成的视频更像是不少张图片的动态融会。

——就是那个开源了文生图的公司——的生成的画面清晰度和美观度都很不错，可是女人的脸变形严重，看起来很像一个骷髅头，诡异感拉满。

则有些取巧，其画面相对流畅，但比较恍惚，且并非写实气概。

此外，打闹的猛犸象、行驶中的汽车、俯瞰的景观、看蜡烛的小怪物等指令都被网友做了横向对比，并非和同行打得有来有回，而是碾压了同行。

一朝之间，文生视频当红“炸子鸡”发现自己站在了投下的阴影中。

从文本到视频的东西并不是奇怪事物。

在年，多个文本到视频东西问世，、（下称）、等初创公司在这个赛道都备受瞩目，热钱不断，估值暴涨。

此中成立于年，月开放内测，月正式对外发布。

此前有图像到视频东西。

同时还手艺支撑了多部电影。

此中最大名鼎鼎的是奥斯卡获奖影片《瞬息全宇宙》。

的兼连系创始人克里斯托瓦尔·巴仑苏埃拉（ó）说：“我们已经看到了图像生成模型的暴发。

我相信，年将会是视频之年。

在月时，已经完成了亿美元的轮融资，投资方包罗谷歌、英伟达等，估值暴涨三倍，达到亿美元，去年月刚刚成立，轮融资达万美元，估值登时凌驾亿美元，月就发布了第一个文本到视频产品。

到了月时，其用户已有凌驾万，每周生成近百万视频内容。

而则因其文本到图像东西名声在外，早在年得到亿美元融资后，估值就已经凌驾了亿美元，成为独角兽企业。

去年月，发布，留神后面还有一个“”后缀，这是一个基于的生成式视频底子模型，需要用户自己部署使用，还不算面向群众发布的产品。

官网三家初创公司，年三个重要生成式视频产品模型，突然就被会心一击。

在兴冲冲向世界展示之后，的巴仑苏埃拉在交际平台上发帖：“游戏最先（）。

而的兼创始人莫斯塔克（）则将奥特曼称作“巫师大人”。

从演示视频来看，的确有改变游戏格式的威力，跟不上的同行有难了。

参照发布之后，虽然浪潮让投资人热情高涨，初创公司如雨后春笋般冒出来，新晋独角兽一个接着一个。

但这是一个冰火两重天的故事，不少创业公司走上下坡路，或寻求收购，或大幅裁员，甚至就此寿终正寝。

据智东西梳理，仅年月到年月，全球就有新闻初创企业、医疗公司等家初创企业宣布关停。

称，至少有家开发生成式视频的公司，共筹集了至少亿美元的资金。

有投资人私下对表示，之前刚刚错过某热门视频初创企业的融资，看到的视频后“感到庆幸”。

人工智能赛道热度高，但门槛也高，厮杀之中刀光剑影，掉队就可能掉入坟墓。

知名初创企业在一篇博文中，提到了文本到视频的三大挑战：算力挑战，确保跨帧空间与实践的一致性伴随着高计算老本，使得大多数研究人员无法累赘这类模型的训练费用；不足高质量数据集，用于文本到视频生成的多模态数据集十分希少，并且时时不足注释；指令恍惚性，如何以一种让模型更容易学习的方式描述视频不是一件容易的事。

即便是看似站稳了脚根的都麻烦不断。

去年月，福布斯发布一则长新闻，凌驾位前员工和投资人细数创始人兼莫斯塔克的大罪证，包罗：窃取结果融资亿；遮盖融资困难；夸大公司收入；拖欠员工工资；学历和工作教导造假。

抛开其他不谈，硅谷“当红炸子鸡”却又融资困难、公司收入被夸大的问题，着实令人意外。

知情人士称，每月的开销大概是万美元，而莫斯塔克却曾自爆公司月的营收大概在万美元，有机会凌驾万美元。

莫斯塔克很快就删除了该帖，但从这个数字不难闻到烧钱的味道。

月，也就是其发布模型的同月、公司完成亿美元融资的一年后，传出多位高级管理人员告退、公司财务状况软弱的动静，并一度传闻斟酌出卖，这一动静随后被莫斯塔克否定。

入不敷出、人才流失，的危机袒露了光鲜的热门创企的软肋。

巨头的加入也会让战事更为激烈。

在视频的赛道，巨头早有布局。

年月，和谷歌相继发力。

先发布了模型，仅一周后，谷歌桑德尔·皮查伊（）亲自安利他们在这一领域的两个最新结果，和，分别强调视频品质和长度。

但不管是照旧谷歌，目前都尚未向公众开放其文本到视频东西。

谷歌官方认为用于训练视频模型的数据仍包含有问题的内容，可能会致使产生图形暴力或色情剪辑，造成不良影响。

巨头的保守操作大师也都熟悉了，在做作语言谈天机械人的赛道，谷歌也是早早就手握模型但未向端推出产品，原因也是安全问题。

但与微软的联手让巨头走出保守，未尝不克不及做同样的事。

已经有巨头有新动作。

在发布的一周前，字节宣布人事故动，原抖音集团张楠宣布辞去集团一职，未来把精力聚焦在剪映的发展上。

据时代周报征引接近剪映的人士，张楠亲自带队寻求在辅助创作上打破，并即将推出一个生成视频的产品。

面对新开的“游戏”，的同行只能全力向前。

就在发布的几天之后，月日，正式开放了的公测，从模型走向人人可以方便上手的产品。

虽然视频长度照旧比较短，只有秒，但视频质量比较高。

莫斯塔克在交际平台上宣传新产品时显得很谦虚，表示开放的原因是：“我们想要创造类似的大型开放的，但需要更多的数据和计算。

此外，在文生图领域有超高口碑的也跑步入场，创始人大卫·霍尔兹（）在中透露，下一个版本，也就是“可能包含视频功能”。

现阶段还在对进行评估，距离正式对外公开可能还有几个月的时候。

好动静是，同行还有时候应变。

坏动静是，留给同行的时候不多了。

参考资料：、智东西：《创业冰火两重天：降世本钱狂欢，数家创企倒闭关门》、连线：《来了，字节发力：张楠的重任和挑战》、新火种：《被迫卖身、下台、高管出奔，又一家独角兽失事》、机械之心：《图像生成卷腻了，谷歌全面转向文字→视频生成，两大利器同时挑战分辨率和长度》、财联社：《圈子不太平知名开源模型开发商被曝“寻求卖身”》

本文来源于网络，不代表立场，转载请注明出处

我要收藏

0个赞

上一篇 贾跃亭，凭甚么骂高合是行业的耻辱

下一篇 中央部委定调！楼市，一个新表态来了！

转发到:

欢迎光临长和环球网！

追不上Sora的偕行有难了