傅盛央视光华录直播对话,Sora对普通人影响几何?

2025-09-03 -

Sora的出现是一次产品级的成功

主持人:您认为Sora这次现身,在您悠久的网络生涯里,特别是之前将近十年在人工智能领域深耕的情况之下,它面世时算得上怎样的事件和技术等级?

傅盛表示,Sora的出现无疑是一大重要节点,至少从产品角度来说,它证实了文本生成视频的技术已经能够做到以假乱真的程度。此外Sora借助特定指令生成,先前我们也接触过若干模仿好莱坞影片的作品,它并非仅凭简短描述实现,而是运用了精密工艺,耗费了大量资源,如今或许只需简短指令,便能呈现逼真影像,我认为这标志着产品层面的重大进展,人们突然领悟到该技术完全具备实践可能,并且可以规模化应用。

Sora的问世确属产品层面的显著成就,然而真正的大型语言模型才是一项(技术角度上的)革命性进展。尽管Sora面世时令我深感意外,但大型语言模型一旦具备理解能力,文本生成视频技术便水到渠成,这种发展态势或许与多数人预期相悖。实际上,语言层面的认知难度远超图像与视频的认知。相较之下,视觉感知的具象性特征,使得语言这种高度抽象的认知过程成为最具挑战性的领域。语言一旦被攻克了,图片和视频更多的是算力问题。

Sora背后:复刻人类的推理和直觉

主持人询问傅总,从专业层面而言,像我们这样的业余爱好者明白所谓构建模型,比如人类画家和动画师,他们脑海中已经形成了对物理世界的理解,雪花飘动应当遵循何种物理规则,因此他们在制作动画时能够领会,那么Sora在执行这个动作时,是凭借与人类相似的认知,还是根本无需认知,无需构建模型,是一种完全突破传统界限的技术?

傅盛谈道,从技术角度审视,Sora当前公开的信息有限,通过分析其发布的博客文章以及行业专家的讨论,能够判断该技术在实质上并无显著创新,属于沿用既有方案,可以视为更优化的工程实践,运用了更强的计算能力,这恰似"熟能生巧"这句成语所描述的境界。过去我们建立模型是为了借助物理引擎来复现真实环境,不过还有另一种途径,无需借助物理引擎,即便是普通人,只要持续练习,就像反复描绘鸡蛋那样,我画几次就能感知到立体效果,长期练习就能掌握技巧。我脑海中并没有物理公式,但通过大量观察,我逐渐培养了直观判断能力。这次大型语言模型的问世,成功模拟了人类原有的推理能力与直觉思维,因此Sora在技术发展上,显著受益于这类模型的进步,它无需构建独立的物理仿真系统,便能借助类似直觉的方式呈现现实世界。

这并非指寻觅一个与提示词描述相仿的人,而是指一个完全虚构出来的人物形象。实际上,在图像生成领域这种情况已经存在,例如当你要求它创作一位美女时,这个人世间从未存在过,但观者会认为其具备所有符合审美标准的特征。其次,观察生成的视频,其中某些元素堪称巧思,或许也可以说是刻意为之,以引发我们的强烈震撼,比如水面上的倒影效果。比如雪的意境,或许最让人费解的是光线变化,在大型模型或视觉系统看来却毫无差异,对它们而言都同等无二,绘制一个寻常鸡蛋和夜晚水面上的倒影,在它们眼中没有分别,我们却觉得,差异源于我们受限于设备,受限于那是重新叠加的景象,譬如一个孩童看待这个世界,黑夜与白昼对他毫无分别。

我认为这仿佛推开了一道新门,就是文成视频的表现如此出色,迅速会有大批人参与其中,我昨天还特地和美国同事交流了看法,觉得这并非一种特别的技术,将来会有许多类似的工具出现。

技术的成本会不断降低

主持人:先前傅总还有包包都提及了一个核心概念,就是计算能力,这种能力的高低是否能够直接左右最终呈现的成果?

傅盛表示,能够进行一个说明,其基础运算方式相同,但计算能力有别,导致最终成果存在差异。所以说,并非其本身运算方法特别高明,尽管确实存在令人惊叹之处,但对我们这些从事人工智能工作的人员而言,其核心原理基本一致,就是依靠强大力量才能取得突破。

主持人:谈及硬件配置,是否运用了众多GPU,显卡以及相关计算设备,这些GPU,就是诸如A100、A800的芯片,尽管大家目前对这些型号可能不甚了解,但倘若这项技术未来持续进步,其规模将取决于这些设备的数量,以及能源消耗的规模。

傅盛谈到算力费用不断降低,他打了个比方,说这好比汽车刚问世时,汽油价格高昂,而马只需要吃些草料即可维持,汽油价格随时间推移却持续走低,这种趋势是必然的,即便算法技术没有进步,算力开销也会大幅减少以今年为例,有一个显著的行业动向,新推出的中央处理器并非仅限于服务领域,当前购入的个人电脑配置中,中央处理器会配备一个专用的推理计算辅助单元,这种单元正逐步得到广泛应用,过去需要依赖中央处理器完成计算任务,而今依靠这个小单元,用户便可在个人设备上直接运用大型模型。

AI技术演进的两条路线

主持人:接下来请傅总从技术演进角度,探讨其形成不同分支的过程,以及不同技术路线带来的差异,我们借助科技树的演变实例,请傅总为我们解析人工智能的迭代历程,目前进展到何种阶段。

傅盛表示,很多科技并非只有一条路可走,而是需要探索新的方向,比如寻找不同的路径。起初,在语言理解领域,多数公司都遵循谷歌开创的路径,并不认为简单的预测下一个词就能实现智能化,这种观点在2022年底前几乎被视为荒谬,因为人们普遍觉得这不太可能成功。接着分支再次产生,唯有持续阅读大量文本才能认识世界,经由认识这个世界,便能预知下一个字,逐字吐露之后,便构成一句完整的话,这象征着我对世界的认知。

这项工作的基础原理源自谷歌的早期探索,不过谷歌最终未选择该方向,直到GPT问世,人们才意识到这个方向是正确的。

Sora文生视频之所以效果出色,关键在于将某些要素融入了视频的时间进程和相关训练环节,使其能够深入掌握海量信息,从而生成高质量内容,这一点不容忽视,这一点至关重要。随后,业界其他声音也相继出现,比如Meta推出的开源社区LlaMa项目,有人提出用千亿参数完成此类任务,进而质疑百亿参数是否也能同样胜任,特别是在某些特定应用场景下,这种规模或许同样有效。

这个属于大型语言模型的某个分支,假如你观察到这个分支,或许会认为它是最初形成的。比如在立体造型方面,这就意味着需要把物理学中的所有规则方程都纳入其中,不过这些方程无论如何处理都会出现偏差,过去计算能力有限,因此效果也不理想,其实Sora并非首创者,其核心思路是让计算机获取海量的图像和影像资料,等到某个时刻,或许就能省去造型这一环节,直接将其呈现出来,所以在Sora看来,无论呈现何种影像,结果都毫无区别,于它而言,根本不存在规则的概念,只有本能反应。

Sora现身时,众人感到十分惊讶,不少人认为他已掌握物理世界的规律,认为强人工智能的诞生将加速到来,然而仔细审视,当前所谓强人工智能的问世,与这一事件关联并不密切。

如何成为AI原住民?

主持人:普通民众面对AI浪潮冲击时,不得不面对一个现实问题,那就是数字难民、数字移民、数字原住民这些概念,究竟谁能成为AI时代的原住民,这种担忧真切地影响着我们每个人,最近大家可能都在寻找学习Sora的途径,甚至已有机构开设相关培训课程,面对这种普遍的焦虑情绪,该如何应对才是关键我们怎么成为AI的原住民?

傅盛表示赞赏刚才提及的原住民概念,他提到在项目启动那天,公司内部讲话的主题是《让熟悉人工智能的员工率先实践》,强调需要运用创新性思考方式,坚信这次人工智能引发的是根本性变革,所有想法都应基于这一认识来展开,不应该将人工智能视为自身功能的辅助工具。以电的普及为例,当时人们做任何事都要先接通电源,之后再开始工作,不会考虑使用蜡烛等替代方案,因此对于AI真正融入生活的未来,我抱有积极的期待,觉得AI应该是一种普惠型技术,并非少数人的特权,比如生成视频功能,过去要制作一部电影,需要动用大量人力,而且还得是具备专业技能的人员。未来或许你无需手持摄影机,仅凭指令就能生成片段,最终创作出卓越的影片,因此对于普通人而言,它被认为能够带来实际利益。

其次是专注投入地研究和掌握。公司内部提出了一个概念,称作AI理念,当前首要任务是推动机构架构的调整,为此设立了专项机构,负责协调各业务单元运用人工智能技术。第三点,关于评估机制,面对这场行业变革,唯有适应者方能生存,这并非施加于你的负担,对吧?作为企业本身也承受着压力,因此将转化为强制性要求进行考核。今年我们评估所有职位,特别是部门主管职位,其中一半评估内容是人工智能技能,这是由于只有具备这种能力,相关人员才能真正掌握人工智能技术,进而提升整体工作效率。

再跟你说个事儿,前年有款游戏特别火,是日本厂商开发的,Steam平台同时在线玩家数超过一百万,你知道仅有的一个记录是什么吗?这是咱们《和平精英》的电脑版,算得上是部力作,可日本的那个游戏却是五个人临时凑合搞出来的,大家觉得里面大量运用了人工智能工具来构建场景,有个在超市打工的,他对AI技术运用得特别精通,后来被请去做游戏开发者,就五个这样的人合力打造了一款游戏,最终变成了现象级作品,营收突破了1亿美元。

主持人表示,眼下不少人正担忧着自己的职业前景是否稳定,同时也有许多普通人创造了令人瞩目的辉煌成就。这两种截然不同的现象,或许让从事媒体行业的专业人士感到更加不安。当今众多从业者,不论从事短视频创作,还是传统电视或新媒体领域,我算是位后来者,从传统电视转向数字电视至今,期望能成为其中的一份子,过往积累的专业知识,如今与这些摄像师、灯光师以及幕后编导们相比,是否还有用武之地?是否依然具备价值?

包冉说,你提供的提示词会比那些没有专业背景的普通人更到位,更详实,因为你见过,能根据所见展开想象,所以我在第一时间视频号评论Sora时,就建议不要急于求成,不要感到不安,也不必纠结于未来是选择文科还是理科,其实眼下,什么样的人更受欢迎?他具备高超的写作技艺,同时具备卓越的思辨才干和沟通技巧,能够给出详尽的指令信息,由于参照Sora的实例,我们可以确认指令信息越详尽,生成的成果就越是出色。

主持人:能否提供更具体的实际运用参考,比如央视财经频道存有大量反映几十年中国经济发展历程的视频资料,还有访谈记录,我们今天的对话傅总也录入了库中,这些积累的内容,如何在新一代文生视频的技术条件下加以利用?

包冉:首要任务是构建专属的大型语言模型,仅服务于特定群体,比如不限于中央广播电视总台,也可以只面向央视财经,考虑到后者同样拥有大量数据积累,这些数据通过私有模型训练后,效果显著,相较于公共大型语言模型,私有模型对计算资源的需求较低,经济性更优,同时安全性更有保障,数据不会外泄,避免了传输至公共网络可能带来的境外风险,私有模型能有效防范此类问题。

要让大家普遍使用,因为持续应用,持续输入和互动,才能不断积累完善的关键词,由此形成许多具备更专业领域的对话机器人基础模型。这样我们依托央视财经频道积累数十年的语料库,再结合实时网络新闻功能,就能依据最新新闻事件快速生成素材,甚至完整视频。

企业应用 百亿参数就够了

主持人:还有个疑问,假如傅先生的企业能与我们结成伙伴关系,提供包冉刚才提及的私有化大型模型,这条道路是否通畅,费用是否高昂?当前各家企业的参数规模已达千亿量级,咱们也需向更高水准看齐,但是否必须采用如此顶尖的标准?

傅盛表示,纵观技术发展全局,新兴技术起初往往价格昂贵且门槛高,随后会快速涌现出多种经济实惠的解决方案,关键在于具体的使用情境,比如举例来说,假设家中灯泡损坏,是邀请爱因斯坦来更换,还是找邻近的胡师傅更合适。

今天可以说体现两种大模型路径,就是说,某些大企业也在试图创造一个爱因斯坦,但对我们普通人而言,日常生活中很多时候并不需要爱因斯坦,或许只需要一个能帮忙修理灯泡,或者铺设电线的人,这样就能让生活感到舒适。

我有个看法,未来一年里,必定会有许多同类产品问世。不过,并非所有人都得制作各种类型的视频,比如科幻片,我或许会专注于某一类,这样的话,专属的精专模型也会应运而生,这类模型对资源消耗不大,足以满足我的日常使用。比如最近研发出具有千亿规模的人工智能系统,接着我们了解到,在企业实际操作中,很多情况下百亿量级的模型已经足够满足需求,并且经济上更为划算。现实中或许会存在对模型规模的某种偏见,不过这种差异并不会对实际应用效果产生显著影响。

另有一点值得注意,那就是公开使用策略,你把所有信息都透露出去,某天别人询问时,这些信息他们也能查到,但我认为随着大型模型的普及,数据将转变为关键资源,这种关键资源应当留在组织内部,目前这并非我们独有的想法,硅谷也开始关注这个问题,在美国已有两家大型媒体机构提起诉讼,指控对方在训练模型时,未获得授权便拿走了他们多年的文章报告和研究资料。

企业应用AI的三个段位

主持人:我们再设定一个更严的标准,假如眼下迫切需要应用这种尖端科技,怎样运用才能体现企业具备优秀品质。

傅盛谈到他们进行了归纳,当前人工智能非常火爆,因此其实运用它会有不同的层次。我非常认同包总那番话,就是说现今掌握专业学问或者对专业相当精通的人与人工智能协作,才是最具优势的,你们无需过分忧虑,我们这些从事科技行业的人反而时常面临颠覆,一旦出现新的技术,就可能被淘汰,然而当今在电视台工作的人员,对受众的把握,如何打动观众,这仍然是人类的优势所在。

主持人表示,据黄仁勋所言,若时间倒流十多年,他那时并不会选择学习电脑,反而可能会去钻研医学。

傅盛认为那个观点非常中肯,过去我们做了很多重复性、技术性的任务,比如搬运重物,但创新性工作实际上没什么机会施展,因为必须加入大集体,充当零件,将来或许每个人都能成为引领者,可以让自己从事的工作富有独创性。

主持人:公司运用大型模型,应循序渐进,究竟能为咱们带来哪些益处,具体表现在公司实践层面?

傅盛说,人们现在可能对百亿参数这个概念不太明白,之前提到Sora非常出色,但根据它公布的资料,它或许只有30亿参数,因此参数数量并非越多越好,在图像和视频制作领域,目前最流行的那个模型,参数量仅有800万,但Sora并不需要这么大的参数量也能画出很好的图像。参数数量并非评判标准,关键在于此功能能产生何种作用。企业采用情况,我们将其划分为不同层级,其中一个层级称为青铜级别,目前多数人处于该级别,即试用新一代大模型,或用于生成文本,或用于生成图像,属于自发应用。

黄金段位指的是什么?某些特定职位开始运用人工智能来处理工作。例如,我们的一些行政职位,每天需要应对员工提出的各种咨询,还有客服职位,以及法务审核职位,这些都已经可以被视为数字化职员了。比如电视节目的一些剧本创作,其实都可以借助AI来完成。第三种是王者级别,王者级别就是机器智能协助判断,在所有资料都处理完毕后,机器智能或许会建议次日应该报道什么内容,又或者哪个角度基于当日获取的资讯可能成为关注焦点。这种做法是机器智能的强项,它未必比人的判断力更出色,但肯定能分析比人更多的信息。

主持人说,主编和领导制片人们或许迫切需要这个工具。

傅盛说,制片人整天忙碌不休,你读的文章数量,他可以做到你的十倍甚至百倍,然后他会告诉你,他分析出的当天热点是什么,建议你选择这样的题目可能会更合适。

包冉表示,学术领域存在一个术语称为AIGA,而AIGC专注于生成内容,AIGA则侧重于依据数据得出判断。

主持人强调一个关键点,首期《光华录》为众多企业家和CEO们留下了记录,或许若想成为未来的领军人物,需要借助这类AI大模型工具,以辅助进行相关判断。

傅盛表示,当前人工智能领域中最受欢迎的公司并非总是利润最高的,真正获利丰厚的反而是那些提供基础服务的商家,以英伟达为例,这家公司的发展达到了何种地步呢,在他们进行访谈时了解到,该企业所有职员都需要向黄仁勋提交周报,公司拥有数千名员工,当时他感到十分惊讶,这真是一位勤奋的领导者,经过深入了解才知道,原来他是借助人工智能技术来处理这些周报的。这样,企业最高负责人就能明确了解其组织内具体人员的各项活动,因此,观察英伟达为何在此轮竞争中取得优势,关键因素之一在于该公司在半导体行业内部结构异常精简,它一边研发人工智能处理器,一边运用人工智能技术提升自身运作效能,得以完成迅速的业务调整,正如先前提及的A100、A800系列产品的问世,便是它舍弃了诸多既有产品分支,迅速转向人工智能领域后才得以达成的。

包冉:此外,他制造这个物品具备显著的费用节省,因为这个完全是他自己负责生产,所以费用肯定非常有优势。

AI大潮下,做好应用是中国企业的机会

主持人:最后一项内容,我想询问,众多中国企业中,以您为代表的企业家们,在当前趋势冲击下,有哪些机遇?贵公司十年前在美国上市,兼营软硬件业务,如今软件和算法领域存在明显不足,面对这种不足,您认为哪些方面可能带来机遇?我们剩余的时间还充裕吗?

傅盛态度积极,提及人工智能,我们这边与美国存在不足,并且 GPT已经出现良性循环,一方面大型语言模型能力出众,近期许多观点指出Sora表现突出,原因在于大型语言模型实力强大,具体强大到什么程度?对视频内容进行精细说明,例如当视频资料交付给人类时,比如一段60秒的影像,有人去识别其中的关键词汇和标签,通常只需标记五个即可。而大型语言模型会对这段视频增添数百字描述,随后通过学习过程,使它对视频的领悟程度得到提升,并且这种方式能够有效利用计算资源。

因此Sora这次的优异表现,同大型语言模型的强大功能和高超计算能力是分不开的。虽然我们确实存在一些不足,不过我认为中国在这方面有一个显著优势,那就是我们特别擅长开发应用,我一直认为所有的创新都可以从应用层面进行逆向探索。

主持人:因此您认为自己是实干型创业者,我们了解到国内许多企业专注于基础理论突破,基础认知革新,过去我们确实完成不少实用型创新,现在面对大型人工智能,实用型创新这条道路您觉得是否依然有空间有潜力,并且符合我们国家的发展特点?

傅盛认为这种模式非常契合我们国家的实际情况,他再举一个美国企业的案例,那就是苹果公司刚起步的时候,没有任何零件是自己制造的,连天气应用都是雅虎公司负责开发的,但它专注于打磨应用本身,等到后来规模扩大了,它才开始研发芯片,凭借庞大的用户基础,一旦进入芯片领域就迅速成为领先者,赚取丰厚的利润。华为起初在手机制造领域表现优异,后来又着手研发麒麟芯片,只要我们拥有数量充足且功能强大的软件应用,技术会持续变得经济实惠且易于获取,尽管目前Sora显得非常先进,但我相信一年之内,必定会有大量甚至开源的方案出现,我们只需专注于软件应用的开发,再根据应用需求反向优化技术,反而能找到适合自身的道路。

主持人:昨晚,某手机制造商宣告将不再生产常规手机,手机行业已转型为传统领域,将集中精力开发AI设备,倘若去年是大模型快速发展的非凡一年,那么今年能否成为中国企业主导AI设备的黄金时期,能否成为我们实现突破的崭新阶段?

傅盛认为,中国至少在应用层面,必将诞生诸多独具一格的成果,例如昨天某手机品牌所提及的观点,他视作颇具远见的论断,即人工智能堪称基础层面的革新,将来几乎一切事物都能依托AI孕育而生,尽管其他途径同样能够产生,但效能过于低下,终有一天全然依赖AI的培育,眼下连抗生素与新材料的发展,都得益于AI的助力。蛋白质分子的研究工作现在基本上都由人工智能完成了,这确实代表了基础层面的重大革新。我们绝不能在这个领域落后,不过坦白说要完全赶超并非易事,毕竟别人已经先行一步。现阶段我们应当专注于完善应用层面,同时密切关注底层技术发展,等到应用实力足够强大之时,回顾过去十几年前阿里巴巴甚至连服务端技术人员都稀缺,而今阿里云在亚洲已经具备相当实力。所以我觉得把应用做好。

主持人问包包,关于所有中国企业,在今天的首条报道里,他预感今年会出现哪些情况,这些情况会带来什么启示。

包冉认为应该从两方面来说明问题,首先需要谈谈整体性的宏大话题,因为算法、算力和数据这三者,中国虽然总算力一直排在世界第二位,但国内的算力构成中,以GPU为代表的智能算力所占比例相对较小,而当前人工智能的训练和推理过程主要依赖智能算力,因为这种计算方式是并行进行的,所以在这个领域必须承认,美国在高端GPU方面卡住了我们的脖子,不让这些设备进口,就连英伟达专门为中国市场设计的简化版或修改过的GPU也包含在它的禁令之内。长远来看,我们终究要处理GPU构造的本土化事宜,自主独立还得推进,不过伟业非一日之功。但这条道路绝不能间断,绝对不能间断。由于对方的计算能力还在持续增强,倘若我们的计算能力无法获取,那么就会停滞,实际上就是在落后。

我同意傅总的看法要开发应用,中国有一个显著特征,应用市场的人口基数非常庞大,可以说,单一文化的单一市场在全世界找不到第二个,这么大的市场几乎有十亿人能上网,你就能接触到AI的应用,或者被AI改进过的应用以及相关的设备,因为设备和应用是相互关联的,硬件和软件,还有服务,当然在这个领域里,我觉得刚才傅总提到的一个观点很关键,我们可以通过应用进入市场,赚取收入和现金,这并不影响我们要顺着应用往回追溯,来加深对科技根本的认识,比如说包括在内,现在AIGC依然有一部分是黑箱,你不知道它内部的运作原理到底是什么,我们是不是可以通过小规模参数体系的应用,以及它的大量应用数据来反向推导,这可能是有机会的。若能在根本层面形成理解,就能触类旁通,好比先前战胜了围棋高手,随后人工智能革新了人们对蛋白质构造的认识,调整了人类探究蛋白质构造的方法。这难道不是实践吗?对于围棋爱好者,我们如今能够借助实践构建模型,借助模型推演原理,再借助原理举一反三,这或许是中国人工智能公司的可行途径。

无论是公司拥有专属的大型模型,还是国家集中资源建设强大的计算力基础架构,这同我们每个人具备独特长处的情况类似。

主持人:我们今日同样进入《光华录》的初始部分,总共六十分钟已悄然流逝,各位倘若未来某时观赏这段影像,这场探讨或许将显现意义,最后向各位呈现一位我在社交圈内认识的朋友,一位常人观看Sora后流露的若干零星感想。

他说:Sora仅有四个字符便让全球为之动容,这究竟是什么?是带来了革新,还是引发了颠覆,抑或是彻底重塑了世界格局?最初对人工智能非常喜爱,满怀憧憬,认为这是我们领域最出色的工具,然而随着其不断进步,反而有些担忧,担心无法掌控,担心被不法之徒利用,担心陷入一个真假难辨的境地,尽管有这些忧虑,却无济于事,当它出现后,只有勇敢地接纳它、亲近它,才能逐步引导它朝好的方向发展。有人声称Sora降临了,现实已不复存在,现实却始终如一,现实中的难题当然也不会消失,不过直面这些挑战,我们便能开拓,所有一切尚有可为。

傅盛认为,想象能力或许是人类在人工智能时代最突出的长处,这种长处还包括强烈的好奇心以及主动作为的精神。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权本站发表,未经许可,不得转载。

扫一扫在手机阅读、分享本文