Sora 作为场景媒介:AI 演进的强大升维与传播革命|喻国明
发布日期:2024-03-29浏览次数:
《Sora作为场景媒介:AI演进的强大升维与传播革命》
喻国明
2024.3
内容提要
横空出世的 Sora 并非仅仅是一款文生视频的智能工具,其本质是物理世界的模拟器。首先,文章探讨了 Sora 作为“世界模拟器”的意义、内涵及其价值,进而从传播学的视角分析认为,Sora 是借助于生成式人工智能技术所构建起来的场景媒介。其次,文章借助维度理论,分析了人工智能发展中最为关键的三次升维,认为Sora 是 AI 发展的第三阶段的标志性技术,它完成了三维时空框架内对于物理世界的系统模拟和场景构造。最后,文章研究了 Sora 所开启场景时代,以及它对于传播领域所产生的生态级意义上的革命。
Sora :打造通用的物理世界模拟器
2 月 15 日,OpenAI 发布了 Sora,立刻引起了全球关注与热议。OpenAI 官方将这个文生视频的大模型命名为“世界模拟器”,意图强调的是,Sora 并不是单纯的视频生成模型,也不只是视频行业颠覆者,而是“世界的模拟器”——它打开了一条通往模拟现实可感的物理世界的有效路径,自此,生成式人工智能可以拟合出无限丰富的符合真实物理定律的数字孪生世界,走进人类社会未来发展的场景。
ChatGPT 是通过大语言模型完成了对于自然语言认知、理解和生成的巨大“智能涌现”,Sora 则以物理世界的模拟器的方式完成了对于视觉感知能力的惊人“智能涌现”。两者的关系如同仿生学意义上的左脑和右脑 :左半脑主要负责逻辑理解、记忆、时间、语言、分类、逻辑分析、写作、推理、嗅觉、触觉、味觉,所以左半脑可以称为意识脑、学术脑和语言脑 ;而右半脑主要负责空间形象记忆、直觉、情感、身体协调、视知觉、美术、音乐节奏、想象力、灵感、顿悟等,所以右半脑也叫本能脑、潜意识脑、创造脑、音乐脑、艺术脑。当生成式 AI 双管齐下地完成了对于人类大脑的功能仿真之际,真正意义上的 AGI 时代便拉开了其发展的时代大幕。
Sora 作为场景媒介:人工智能演进的重大技术升维
(1)AI 发展的“一维”阶段 :以垂直化、专业化的方式实现对人类单一能力的超越
此阶段的人工智能局限在“一维”的界限内,就像一条“线”一样,是在一个狭窄、垂直的领域中表现出对人类智能的超越。因此,它只能用来执行一些简单任务。比如,AlphaGo 可能是世界上最好的围棋玩家,但除此之外什么也做不了 ;谷歌翻译可以把英文的影评翻译成中文,但它无法告诉用户影评者是否喜欢这部电影,更不用说自己观看和评论电影。
(2)AI 发展的“二维”阶段 :完成了对于语义世界的智能化、通用化整合与生成
“二维”的人工智能最大的突破在于其通用性,ChatGPT 所能胜任的工作不再是单一化的狭窄领域,而是实现了更高层次的功能维度集成,逐渐走向通用人工智能。从媒介的角度看,它实现了世界万事万物的全要素、全领域、全环节的符号整合,即实现了在语义系统中的、抽象符号意义上的价值链接。但 ChatGPT的能力还是局限在语言与符号之内。
(3)AI 发展的“三维”时空阶段 :完成了对于物理世界的系统模拟和场景构造
“世界模拟器”Sora 成为 AI 发展进入“三维”阶段的标志。与此前视频生成技术相比,Sora 所生成的视频不仅更加清晰、灵活、多样,还具备了强大的场景构造的智能涌现能力。Sora 在视频赛道重现了ChatGPT式的成功,得力于其把虚拟世界的模型(LLM)落地到具象化的物理世界的模型(视频生成)。从时间上看,Sora 不仅仅是单纯生成视频,还能将视频沿时间线向前或向后扩展,从而呈现出对象在时间上的变化 ;而从空间的角度看,Sora 能创造出带有动态视角变化的视频,呈现出人物和场景元素在三维空间中的移动,某些情境下甚至能产生和真实的运镜相差无几的效果。
Sora 开启场景时代:传播领域的生态革命拉开大幕
(1)从“认知时代”到“体验时代”的转型
Sora 代表的智能媒介将开启不同以往的全新的“场景体验时代”。而基于这种场景体验,人的学习方式及认知模式都将发生深刻的变化。每个人都将越来越多地以第一人称进入各种场景之中,实现自己学习和探索的巨大自由度。它将深刻地改变通过“第三人称”“投喂”而进行的认知和学习方式。
(2)从“界面”治理到“过程”治理的转型
内容的界面治理让位于全过程要素的协同治理已成为一种趋势。实施“用户治理”便是其中最为关键的一环。Sora 作为场景媒介的作用在于,通过相关场景的构建,让用户在一系列的场景体验和“游戏”当中,提升自己的媒介素养和认知能力,学会辨识和正确地加工认知。Sora 这种场景前置、在体验中提升其媒介素养的方式无疑为“用户治理”提供了全新且有效的手段。
(3)从“话语认同”向“场景认同”的转型
在 Sora 所创造的新的场景体验时代,个体能够以相对具象的方式呈现话题,大大削减语义不明的灰色空间,使会话多方能够对话题形成共通的基础的认识,从而减少网络中各说各话的沟通困境。比如,构建场景可以为情感叙事提供更丰富的可供性,当不同立场的个体置身场景之中更容易发生情感共鸣 ;比如难民议题的叙述文本远不如使用户置身场景之中更具感染力和冲击力,更容易建立彼此相向而行的共识。
(4)游戏从“污点媒介”向主流媒介的转型
数字文明时代充满了“游戏精神”,游戏作为媒介的价值凸显,并带来新的社会“再组织”方式。媒介隐喻观为理解媒介对社会结构的影响机制提供理论支点——媒介作为人的延伸和关系连接将分别形塑个人行动和群体交往。随着媒介对个人行动及群体交往维度的拓展,社会结构将从部落式向 DAO(分布式自驱组织)式演进。
Sora 到来后的思考
人工智能则会以史无前例的速度促使人类的智力和知识平权。我们正处于碳硅文明融合的重要关口,我们的社会、我们的传播和我们的教育,该何去何从?现在的人们思考未来,当然还存在另一种更加具备人类尊严的可能性,即“机器的遍在以及我们与机器的沟通并没有使我们成为机器,而是使得我们更加成为人”。
论文信息
本文编译自《青年记者》,2024年3月14日网络首发,作者喻国明,全文见原刊。