当前位置：首页 > 新闻

OpenAI发布首个文生视频模型Sora 笔墨直接生成视频

时间： 2024-02-16 18:12 来源：未知

来源：封面消息封面消息记者边雪“盛大介绍，我们的文本转视频模型。

当地时间月日，骤然发布首款文生视频模型——，震惊程度可以让熬夜党们彻底清醒到睡不着觉，直呼“王炸来了”。

据在社交平台上发文，可以缔造长达秒的视频，此中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。

月日凌晨，发布了首个文生视频模型。

（图源：截图）为了揭示这个王炸级技术，还配上了一个带有提示词的视频：“艳丽、白雪皑皑的东京城很荣华。

镜头穿过熙熙攘攘的城市街道，跟从几个人享受艳丽的雪天并在附近的摊位购物。

艳丽的樱花花瓣随着雪花在风中飞舞。

视频中，一镜到底的画面中，不仅做到了画面主角体现流畅——一对情侣携手逍遥地漫步在东京的街道，甚至摊贩两边的背景人物，都流畅真实得难以置信。

从大中景无缝切换到面部特写。

“超长长度”“单视频多角度镜头”“这怎么办啊！”“太卷了吧！”……当“天下模型”愈来愈真实，人类社会虚拟和现实的界线，还能分辨得清吗？诞生让现实不存在了？“这是我们的视频生成模型，昨天，我们开始为红队以及有限数量的创作者提供接见权限。

开创人兼山姆·阿尔特曼（）在社交媒体直言真是不可思议。

“他们和团队的卓越工作，造就了特殊的时刻。

月日，开创人兼山姆·阿尔特曼发问介绍。

（图源：截图）目前在官网上已经更新了生成的个视频，这些不仅精确呈现出指令细节，还能明白物体在物理天下中的存在，并生成具备丰富情感的角色。

该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

例如一个（大语言模型中的提示词）的描述是：在东京街头，一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在生成的视频里，女士身着玄色皮衣、红色裙子在霓虹街头行走，不仅主体连贯稳定，还有多镜头，包罗从小巷景慢慢切入到对女士的面部表情的特写，以及潮湿的街道地面反射霓虹灯的光影成效。

深夜发布“王炸”模型：首个文生视频模型将倾覆现实？｜科技考察打开网易消息查看更多视频深夜发布“王炸”模型：首个文生视频模型将倾覆现实？｜科技考察更令诸多网友热议的视频，是一只会踩奶的猫：一只猫试图叫醒酣睡的主人，要求吃早餐，主人试图忽略这只猫，但猫尝试了新招，最终主人从枕头下拿出藏起来的零食，让猫本身再多待一会儿。

在这个生成视频里，猫甚至都学会了踩奶，对主人鼻头的触碰甚至都是轻轻的，接近物理天下里猫的真实反馈。

但值得详尽的是，在这则中也有一些小瑕疵：猫主人翻身的时候胳膊肘跟被子融为一体。

根据解释的工作原理，是一个扩散模型，它生成的视频一开始看起来像动态噪音，通过多个步骤逐渐去除噪声后，视频也从末了的随机像素转化为清楚的图像场景。

技术团队发文。

（图源：截图）与模型类似，使用了架构，因此可以实现极强的扩展性。

将视频和图像表示称作“补丁”（）的较小数据单位聚拢，每个“补丁”都类似于中的一个“符号”（），通过统一的数据表达方式，能实现在更广泛的视觉数据上训练和扩散变革，包罗不同的时间、分辨率和纵横比。

是基于过去对·和的研究根本构建，使用·的重述提示词技术，为视觉模型训练数据生成高描述性的标注，因此模型能更好地遵照文本指令，实现用户想要的视频场景。

除了可能仅根据笔墨说明生成视频外，该模型还能根据现有的动态图像生成视频，并精确、过细地对图像内容进言论画处理。

该模型还能提取现有视频，并对其进行扩展或填充缺失的帧。

技术破壁之后“深度造假”将更进一步吗？随着人工智能成为天下各地科技界的焦点，新工具进一步引发了人们对深度造假的耽忧：根据简单的文本提示生成高度逼真的秒视频，这不大大提高了人工智能视频和已被用来欺骗民众“深度造假”内容的质量吗？对此，也表示，这款名为“”的新工具末了只会供一小部分艺术家和片子制作人以及“红队成员”或试图找到将人工智能工具用于恶意目标的办法的研究职员使用。

过去一年，人工智能生成的图像、音频和视频的质量迅速提高，、、和等公司竞相制造更强大的工具并寻找贩卖方式。

与此同时，民主倡导者和人工智能研究职员警告说，这些工具已经被用来欺骗和欺骗民众。

实际上，其他公司也构建了本身的文本到视频的人工智能生成器。

谷歌正在测试一个名为的模型，有一个名为的模型，人工智能初创公司已经在开发产品来帮助片子制作人制作视频。

但人工智能专家和分析师均表示，视频的长度和质量越过了迄今为止所见的程度。

伊利诺伊大学厄巴纳香槟分校信息科学教授特德·安德伍德表示：“我没想到在接下来的两到三年内还会出现这种继续、连贯的视频生成程度。

虽然他警告说可能会选择揭示模型最佳状态的视频，但他表示，与其他文本到视频工具比拟，“容量好像有所提升”。

如果你认为是像一样的创意玩具，那可能就略显肤浅了。

是一个数据驱动的物理引擎。

它是对良多天下的模拟，无论是真实的还是妄想的。

模拟器通过一些去噪和梯度数学来进修复杂的渲染、“直观”物理、历久推理和语义根本。

“如果使用虚幻引擎对大量分解数据进行训练，我不会感触惊讶。

它必须如此！”英伟达高级研究科学家兼人工智能代理负责人通过生成的视频分析到，提示词是两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频。

“模拟器实例化了两种精美的资产：具备不同装饰的海盗船。

必须在其潜在空间中隐式地解决文本到的题目；对象在航行并避开互相路径时始终坚持动画成效。

还有咖啡的流体动力学，甚至是船舶周围形成的泡沫。

流体模拟是计算机图形学的一个完全子领域，传统上须要非常复杂的算法和方程，而照片写实主义，几乎就像光线追踪渲染一样。

指出，视频中模拟器考虑到杯子与海洋比拟尺寸较小，并应用移轴摄影来营造“微弱”的空气。

“场景的语义在现实天下中并不存在，但引擎仍然实现了我们期望的精确物理规则。

接下来：添加更多模式和条件，然后我们就有了一个完全的数据驱动的，它将取代全部手工设计的图形管道。

王炸技术将带来行业夕阳？技术的快速提高使得从片子制作到消息行业等各个行业的人们都在争先恐后地了解它可能会对他们的工作产生怎样的影响。

在诞生前，视频的工作流都是单镜头单生成，在一个视频中，多角度且连贯流畅的自在切换，是无法想象。

“不管如许悲伤和恐惧，这就是全部工作的未来。

某片子后期制作人关照封面消息记者，技术的提高是不会止步的，不克不及更不会由于我们预料未来它可能取代我们的工作而停止。

“对于行业来讲也是功德，技术提高象征着我们能制作出更良好的影视作品，离别‘毛’特效。

视频生成器已在好莱坞引起了轰动。

制作片子成本高昂、耗时，并且须要数十或数百人。

一些技术专家推测，人工智能可以让一个人制作出与漫威大片具备相同视觉复杂性的片子。

“看看我们在图像生成的一年里取得了甚么希望。

一年后我们会在那边？”片子导演兼视觉成效专家迈克尔·格雷西（）一直亲切关注人工智能对行业的影响。

预测，很快，像这样的人工智能工具将容许片子制作者仔细控制他们的输出，重新开始缔造各种视频。

“当技术剥夺了其他人的创造力、工作、设法和执行力，却没有给予他们应有的荣誉和经济报酬时，不是一件功德情。

视频的质量，尤其是那些看起来像现实生涯的视频，比大多数其他人工智能公司迄今为止可能制作的质量要高。

普林斯顿大学计算机科学教授表示，根据周四发布的视频，“好像比任何其他视频生成工具都“进步前辈得多”。

他表示，“这可能会导致‘深度伪造’视频，人们更难识别出人工智能生成的视频。

如果你仔细考察一些视频，你仍然可以发现良多不一致的处所。

例如，他在上的一篇帖子中指出，在东京街头的视频中，一名男子的左右腿替换了位置，背景中的人在有东西经过他们面前后消散了。

无论若何，送上的春节大礼包已经足够震撼了。

本文来源于网络，不代表立场，转载请注明出处

我要收藏

0个赞

上一篇 女子从从河南南阳开车回杭州 4小时只走了两三公里

下一篇 女子从河南南阳开车回杭州 4小时只走了两三公里

转发到:

欢迎光临长和环球网！

OpenAI发布首个文生视频模型Sora 笔墨直接生成视频