追不上Sora的偕行有难了 - 财经 - 长和环球网

欢迎光临长和环球网!

今天是 2024年10月06日 星期天

关注社会热点

一起实现我们的中国梦

当前位置: 首页 > 财经

追不上Sora的偕行有难了

发布第天,同行已经坐不住了。

月日,中国大年初七,发布了全新的生成式人工智能模型:输入做作语言指令,输出至多秒的视频。

从文本到视频的生成式模型并不奇怪,但——就像——一样,因其断崖式的质量提升,登时点燃了互联网。

高清的画质,流畅的画面,乍看之下颇为做作的物理轨迹,和一年前近乎鬼畜的“威尔·史密斯吃意大利面”视频看起来像隔了一个世纪,同行去年才发布的产品与之比拟也黯然失色。

天很短,但在领域却足以生变。

至少有两家界“当红炸子鸡”站了出来:月日,正式开放的公测,该产品背后的模型去年月就已经发布。

的确同时,另一家在文生图领域颇有建树的也透露,可能会在下一次迭代时包含视频功能。

往日“炸子鸡”站在阴影中,追不上的同行有难了。

在接受了演示视频的直接打击之外,人们立刻最先做纵向和横向的比较。

纵向比较,人们拿出了一年前“威尔·史密斯吃意大利面”的视频。

这位好莱坞明星脸部变形严重、面的形态千变万化,分分钟触发恐怖谷效应,越看越诡异。

一年之后,已经可以做出一个女人在东京街头漫步的视频,不管是画面质量、连续性和稳定性,照旧女人的步态与神情,都已经的确可以以假乱真,让人连连称誉:文本到视频的前进也太大了。

惋惜的是,尽管有数网友在山姆·奥特曼()的交际媒体账号下求版本的“威尔·史密斯吃意大利面”,并没能得偿所愿。

倒是史密斯本人跑出来整了个活儿,真人拍摄,“伪造”了一个新版本。

你别说,还真差点给人骗过去——真人都能拍视频伪装是生成的了,倒也足见视频的高质量。

横向对比,同行就有点尴尬了。

把每一个演示视频的文本指令都发布了,虽然人们不克不及直接用,可是可以拿着指令去市面上已有的产品里试,看看有什么差别。

不试不要紧,一试吓一跳:看到视频的时候就以为厉害,看了同行的显示更对的威力有了新的认知。

同样是女人在东京街头漫步的指令,生成的视频暂停看还都像那末回事,连起来就只能用“千变万化”形容,女人的形象并不克不及随着时候的推移保持稳定。

要知道的演示视频中还有机位的变革,从近景到脸部特写,女人的形态始终如一。

生成的视频更像是不少张图片的动态融会。

——就是那个开源了文生图的公司——的生成的画面清晰度和美观度都很不错,可是女人的脸变形严重,看起来很像一个骷髅头,诡异感拉满。

则有些取巧,其画面相对流畅,但比较恍惚,且并非写实气概。

此外,打闹的猛犸象、行驶中的汽车、俯瞰的景观、看蜡烛的小怪物等指令都被网友做了横向对比,并非和同行打得有来有回,而是碾压了同行。

一朝之间,文生视频当红“炸子鸡”发现自己站在了投下的阴影中。

从文本到视频的东西并不是奇怪事物。

在年,多个文本到视频东西问世,、(下称)、等初创公司在这个赛道都备受瞩目,热钱不断,估值暴涨。

此中成立于年,月开放内测,月正式对外发布。

此前有图像到视频东西。

同时还手艺支撑了多部电影。

此中最大名鼎鼎的是奥斯卡获奖影片《瞬息全宇宙》。

的兼连系创始人克里斯托瓦尔·巴仑苏埃拉(ó)说:“我们已经看到了图像生成模型的暴发。

我相信,年将会是视频之年。

在月时,已经完成了亿美元的轮融资,投资方包罗谷歌、英伟达等,估值暴涨三倍,达到亿美元,去年月刚刚成立,轮融资达万美元,估值登时凌驾亿美元,月就发布了第一个文本到视频产品。

到了月时,其用户已有凌驾万,每周生成近百万视频内容。

而则因其文本到图像东西名声在外,早在年得到亿美元融资后,估值就已经凌驾了亿美元,成为独角兽企业。

去年月,发布,留神后面还有一个“”后缀,这是一个基于的生成式视频底子模型,需要用户自己部署使用,还不算面向群众发布的产品。

官网三家初创公司,年三个重要生成式视频产品模型,突然就被会心一击。

在兴冲冲向世界展示之后,的巴仑苏埃拉在交际平台上发帖:“游戏最先()。

而的兼创始人莫斯塔克()则将奥特曼称作“巫师大人”。

从演示视频来看,的确有改变游戏格式的威力,跟不上的同行有难了。

参照发布之后,虽然浪潮让投资人热情高涨,初创公司如雨后春笋般冒出来,新晋独角兽一个接着一个。

但这是一个冰火两重天的故事,不少创业公司走上下坡路,或寻求收购,或大幅裁员,甚至就此寿终正寝。

据智东西梳理,仅年月到年月,全球就有新闻初创企业、医疗公司等家初创企业宣布关停。

称,至少有家开发生成式视频的公司,共筹集了至少亿美元的资金。

有投资人私下对表示,之前刚刚错过某热门视频初创企业的融资,看到的视频后“感到庆幸”。

人工智能赛道热度高,但门槛也高,厮杀之中刀光剑影,掉队就可能掉入坟墓。

知名初创企业在一篇博文中,提到了文本到视频的三大挑战:算力挑战,确保跨帧空间与实践的一致性伴随着高计算老本,使得大多数研究人员无法累赘这类模型的训练费用;不足高质量数据集,用于文本到视频生成的多模态数据集十分希少,并且时时不足注释;指令恍惚性,如何以一种让模型更容易学习的方式描述视频不是一件容易的事。

即便是看似站稳了脚根的都麻烦不断。

去年月,福布斯发布一则长新闻,凌驾位前员工和投资人细数创始人兼莫斯塔克的大罪证,包罗:窃取结果融资亿;遮盖融资困难;夸大公司收入;拖欠员工工资;学历和工作教导造假。

抛开其他不谈,硅谷“当红炸子鸡”却又融资困难、公司收入被夸大的问题,着实令人意外。

知情人士称,每月的开销大概是万美元,而莫斯塔克却曾自爆公司月的营收大概在万美元,有机会凌驾万美元。

莫斯塔克很快就删除了该帖,但从这个数字不难闻到烧钱的味道。

月,也就是其发布模型的同月、公司完成亿美元融资的一年后,传出多位高级管理人员告退、公司财务状况软弱的动静,并一度传闻斟酌出卖,这一动静随后被莫斯塔克否定。

入不敷出、人才流失,的危机袒露了光鲜的热门创企的软肋。

巨头的加入也会让战事更为激烈。

在视频的赛道,巨头早有布局。

年月,和谷歌相继发力。

先发布了模型,仅一周后,谷歌桑德尔·皮查伊()亲自安利他们在这一领域的两个最新结果,和,分别强调视频品质和长度。

但不管是照旧谷歌,目前都尚未向公众开放其文本到视频东西。

谷歌官方认为用于训练视频模型的数据仍包含有问题的内容,可能会致使产生图形暴力或色情剪辑,造成不良影响。

巨头的保守操作大师也都熟悉了,在做作语言谈天机械人的赛道,谷歌也是早早就手握模型但未向端推出产品,原因也是安全问题。

但与微软的联手让巨头走出保守,未尝不克不及做同样的事。

已经有巨头有新动作。

在发布的一周前,字节宣布人事故动,原抖音集团张楠宣布辞去集团一职,未来把精力聚焦在剪映的发展上。

据时代周报征引接近剪映的人士,张楠亲自带队寻求在辅助创作上打破,并即将推出一个生成视频的产品。

面对新开的“游戏”,的同行只能全力向前。

就在发布的几天之后,月日,正式开放了的公测,从模型走向人人可以方便上手的产品。

虽然视频长度照旧比较短,只有秒,但视频质量比较高。

莫斯塔克在交际平台上宣传新产品时显得很谦虚,表示开放的原因是:“我们想要创造类似的大型开放的,但需要更多的数据和计算。

此外,在文生图领域有超高口碑的也跑步入场,创始人大卫·霍尔兹()在中透露,下一个版本,也就是“可能包含视频功能”。

现阶段还在对进行评估,距离正式对外公开可能还有几个月的时候。

好动静是,同行还有时候应变。

坏动静是,留给同行的时候不多了。

参考资料:、智东西:《创业冰火两重天:降世本钱狂欢,数家创企倒闭关门》、连线:《来了,字节发力:张楠的重任和挑战》、新火种:《被迫卖身、下台、高管出奔,又一家独角兽失事》、机械之心:《图像生成卷腻了,谷歌全面转向文字→视频生成,两大利器同时挑战分辨率和长度》、财联社:《圈子不太平知名开源模型开发商被曝“寻求卖身”》

本文来源于网络,不代表立场,转载请注明出处
我要收藏
0个赞
转发到:
推荐阅读
腾讯云秒杀
阿里云服务器


地址:广东省广州市白云区机场路
Copyright © 2022 长和环球网有限公司 版权所有 赣ICP备19013911号

网站地图