type
status
date
slug
summary
tags
category
icon
password
notion image

引言:范式转移的时刻

我们正站在一个历史性的转折点。正如互联网的出现彻底改变了信息获取和传播的方式,人工智能(AI)的最新进展,尤其是AI Agent的崛起,预示着一场更加深刻的变革。这场变革不仅将重塑我们与技术互动的方式,还将对人类社会、经济和文化产生深远的影响。
过去几年,以大型语言模型为代表的AI技术取得了令人瞩目的突破。这些模型在自然语言处理、图像生成、代码编写等任务上展现出惊人的能力,引发了全球范围内的关注和讨论。然而,LLM仅仅是冰山一角。更重要的是,这些技术进步正在催生一种全新的AI形态——AI Agent。
关于AI Agent的介绍和详细能力,前面的文章已有详细论述,为保证文章结构的完整性,我们简单带过。

1.什么是AI Agent?:超越工具的智能体

传统上,我们将AI视为一种工具,一种帮助我们完成特定任务的辅助手段。无论是搜索引擎、推荐系统还是自动驾驶,AI的作用都是在人类的指导下执行预先设定的任务。
AI Agent则不同。Agent的本意是“代理人”或“代理商”,强调的是自主性和主动性。AI Agent不仅仅是被动地执行指令,而是能够主动感知环境、理解目标、制定计划、采取行动,并根据反馈不断学习和改进。
如果说传统的AI是“功能型”的,那么AI Agent则是“智能体型”的。它更像是一个虚拟的助手、伙伴,甚至是分身,能够代表我们去完成各种任务,解放我们的时间和精力。

2.o1和R1的划时代意义

2.1 o1开启后训练和推理新范式

OpenAI的o1模型通过在大型语言模型中引入强化学习(Reinforcement Learning,RL),开创了Pretraining(预训练)Scaling Laws之外的Post-training(后训练)和test-time-computing(即推理阶段的计算)阶段的新Scaling Laws。o1证明了强化学习在后训练阶段和推理时间上的Scaling Law潜力,显著提升了模型的推理能力。o系列的后续进展(如o3,o4 Mini)也进一步验证了这条路径的可行性和巨大潜力。模型能够思考更长时间,从而得到更好的结果,这在o系列上已逐渐成为现实。

2.2 DeepSeek R1引领开源风潮和技术方向:

与o1并列,DeepSeek R1的强势开源被认为是具有世界级影响力的工作,甚至在某种程度上超过了o系列的影响,引发了全民范围的讨论。R1的开源及其详尽的技术报告,以及同期Kimi-k1.5发布的类似报告,明确了某些技术方向(如蒙特卡洛树搜索等方法)的局限性,为整个行业提供了宝贵的“一比特信息”,减少了不必要的探索。R系列展示了开源与专注的力量,以及本土年轻团队的技术实力,其技术提升带来了“魔法般”的用户体验,并正在催生新的商业模式。R1的成功也得益于在基础模型V3的基础上,仅通过强化学习就持续获得了更长的输出长度和更好的智能表现,无需SFT(Supervised Fine-tuning),这是一个重要的创新。GRPO技术的应用也得到了验证。

2.3 共同开启Agent应用前景:

o1和R1共同带来的推理能力的提升、成本的下降,以及同期模型编程能力与工具使用能力的提升,被认为是开启了AI Agent在2025年的应用前景。

3.AI Agent的三大核心能力:推理、编程与工具使用

AI Agent之所以能够实现从“工具”到“智能体”的跃迁,得益于以下三大核心能力的显著提升:
  • 推理(Reasoning):推理能力是AI Agent的基础智能。它使Agent能够理解复杂任务的目标,分析问题的本质,制定实现目标的计划,并在执行过程中评估结果,进行调整和优化。推理能力越强Agent的“智能”程度就越高,能够处理的任务就越复杂。
  • 编程(Coding):在数字世界中,代码是构建一切的基础。编程能力使AI Agent能够理解和编写代码,从而与各种软件、系统和API进行交互。通过编程Agent可以实现自动化操作、数据处理、任务调度等功能,极大地扩展了其应用范围。
  • 工具使用(Tool Use):人类社会已经积累了大量的工具和软件,这些工具极大地提高了我们的生产力和效率。AI Agent需要能够熟练地使用这些工具,才能融入现有的数字生态系统,完成更广泛、更复杂的任务。工具使用能力使Agent能够站在“巨人的肩膀上”,充分利用人类已有的知识和资源。
这三大核心能力相辅相成,共同构成了AI Agent的智能基础,使得AI具备了“主观能动性(Agency)”。推理能力提供“大脑”,编程能力提供“神经系统”,工具使用能力提供“四肢”,三者协同工作,使Agent能够像人类一样思考、行动和创造。

4.从“注意力经济”到“无注意力时代”:互联网商业模式的颠覆

互联网的兴起催生了“注意力经济”——一种以争夺用户注意力为核心的商业模式。互联网公司通过提供免费的服务、吸引人的内容、个性化的推荐等方式,尽可能多地占用用户的时间,即“时长 × 用户数 × 变现率”,从而实现流量变现。
然而,人类的注意力是有限的。在信息爆炸的时代,我们每天都面临着海量的信息和选择,注意力变得越来越稀缺。注意力经济的弊端也日益凸显:信息过载、时间碎片化、成瘾性等问题日益严重。
AI Agent的出现,预示着“注意力经济”向“无注意力时代”的范式转变。AI Agent可以自主执行任务,无需人类持续关注。这意味着用户可以将更多的时间和精力投入到更重要、更有创造性的活动中,而将那些繁琐、重复、耗时的任务交给Agent去完成。每个人都可能成为AI的“老板”,指挥AI完成各种工作。
例如,一个AI Agent可以:
  • 自动筛选和回复邮件,过滤掉垃圾信息,处理日常事务。
  • 根据用户的需求,自动预订机票、酒店、餐厅,安排行程。
  • 监控金融市场,进行投资分析,甚至自动执行交易。
  • 管理智能家居设备,调节温度、湿度、照明,营造舒适环境。
  • 学习新的知识和技能,并根据用户的兴趣推荐相关内容。
说回时间暴政与科技幻觉,往往使我们在效率崇拜中沦为时间的囚徒,“kill time”与“save time”早已异化成现代文明的紧箍咒。我想说fxxk效率主义!人类真正渴求的,是在时光长河里刻下灵魂的涟漪。自动驾驶缩短了物理位移,AI压缩了工作流程,却永远无法复现五公里奔跑时的心跳共振、两小时网球对攻时的多巴胺喷涌、完整演绎《月光奏鸣曲》时指尖与琴键的生死缠绵。
技术革命总是裹挟着泡沫登场——画大饼式的营销话术、贩卖焦虑的生存危机、对技术权威的盲目崇拜,构成了这个时代的科技传销三部曲。但穿透浮华表象,真正的技术民主化永远生长在沉默的土壤里:田间地头的老人能否在三次点击内完成操作,小镇青年是否愿意用半亩玉米的收成为之买单,这些网络上沉默的大多数才是丈量创新的终极标尺。当我们凝视微信的九宫格界面、拼多多的砍价狂欢、特斯拉方向盘上磨损的皮质包浆,或许能窥见技术平权的微光——那些被精英话语场域遗忘的褶皱里,往往藏着最本真的文明密码。
完成上面个人情绪化的表达,我想说说信息炼金与认知平权。给人们再长时间,也没办法获得超越大模型的信息梳理和总结能力,我丝毫不怀疑大模型的那些优势。威廉·吉布森的预言“未来已来,只是尚未均匀分布”正在数据洪流中显形。当o1的思维导图能在三分钟内重构人类三昼夜的逻辑迷宫,当DeepSeek的认知引擎吞吐着超越个体生命长度的知识光谱,"未来"早已在算力集群里完成了胚胎发育。这恰似《银翼杀手》中复制人罗伊在雨中的顿悟:All those moments will be lost in time, like tears in rain, time to die.那些淹没在信息沼泽里的认知时刻,终将被算法打捞重组,在硅基神经元的突触间完成永生。
互联网公司正在经历价值基座的范式转移:当注意力经济的钟摆走到尽头,"认知杠杆率"将成为新的货币单位。那些能将被稀释成"信息眼泪"的碎片凝练成智慧结晶的产品,那些能让外卖骑手在等餐间隙完成认知迭代的服务,才是刺破认知茧房的光锥。在“无注意力时代”,互联网公司需要重新思考自己的商业模式。这不是简单的效率竞赛,而是一场关于人类如何与机器共同进化的认知革命——在AI的辅助下,建筑工人可以调用城市数据库重构施工方案,菜场摊主能借助商业大模型优化供应链。当技术平权的阳光真正普照,每个普通人的时间颗粒都将闪烁钻石般的光芒。我坚信那些能帮用户省时间、提升单位信息价值密度的产品,会在AI时代脱颖而出。

5.Agent产品形态的演变:从信息分析到多Agent协同

AI Agent的产品形态将随着技术的发展而不断演变。我们可以预见以下几个阶段:
  • 第一阶段:信息分析与研究。初期的AI Agent应用可能主要集中在信息处理领域。例如,AI可以成为强大的研究助手,帮助用户深度检索信息、分析数据、生成报告、总结文献等。如OpenAI的DeepResearch、Google的Deep Research和Perplexity的搜索功能。这类“只读(Read Only)”Agent能够深度检索信息、生成报告,在某些知识工作方面已经超越了人类实习生的水平,付费意愿和应用场景都非常明确。在这个阶段,AI Agent主要发挥其“信息处理”的优势。
  • 第二阶段:工具使用与操作。 随着AI Agent的工具使用能力不断提升,它将具备“写”的能力,即能够操作各种软件和工具,对外发布信息,甚至进行交易等。例如,AI Agent可以自动撰写邮件、发布社交媒体内容、管理项目进度、进行在线购物、Anthropic的ComputerUse等。在这个阶段,AI Agent开始真正成为用户的“代理人”。
  • 第三阶段:多Agent协同。未来,我们可能会看到多个AI Agent协同工作的场景。一个Agent可以指挥其他Agent去完成不同的任务,形成一个复杂的Agent网络。这需要解决记忆(Memory)和在线学习(Online Learning)等关键技术挑战。AI甚至可能发展出专门为自身设计的工具,这些工具可能与人类使用的截然不同。这种多Agent协同的模式,将极大地扩展AI Agent的应用范围和能力,实现更复杂、更智能的任务。

6.模型公司与应用公司的机会与挑战

在AIAgent领域,模型公司和应用公司都面临着巨大的机遇和挑战。
  • 模型公司:拥有强大模型能力的公司(如OpenAI和Anthropic)等,可以直接进入AI Agent领域。他们可以利用自身的技术优势,构建更强大的Agent模型,并提供API或平台服务,赋能应用开发者。
  • 应用公司:应用公司可以专注于特定领域或场景,利用现有的模型和工具,打造更贴合用户需求的产品。他们可以混合使用多种模型,发挥不同模型的长处,实现差异化竞争。应用公司更了解用户心智和具体场景,能够打造更贴合用户需求的产品,
模型公司和应用公司之间的关系,既有竞争,也有合作。模型公司需要应用公司来拓展应用场景,验证模型效果;应用公司也需要模型公司提供强大的技术支持。例如Perplexity在AI搜索领域占据用户心智,Cursor与Sonnet模型相互成就。类似于Windows与Office/Adobe的关系,未来可能既有模型公司自己开发Agent应用,也有更多第三方基于优秀模型开发创新应用。两者共同推动AI Agent生态的繁荣。

7.开源的影响:加速创新与行业洗牌

开源对AI领域产生了深远的影响,尤其是在AI Agent领域。
  • 大公司的不同应对:一些公司积极拥抱开源,将自己的模型开源,吸引开发者共建生态,如腾讯和百度积极接入DeepSeek,将其应用于核心产品(如元宝和微信搜索),这被认为是拥抱开源和用户价值的明智之举。腾讯选择接入DeepSeek,可能是一种后发制人的策略,利用自身的用户基础和数据优势,在技术成熟后快速跟进。另一些公司则更倾向于自主研发基础模型,保持技术领先地位。如阿里(通过千问)和字节跳动则似乎更倾向于坚持自主研发基础模型。不同的策略反映了不同的商业理念和战略选择。
  • 加速行业洗牌:开源模型的崛起,降低了AI技术的门槛,加速了行业洗牌。“AI六小虎”的“清场效应”巨大DeepSeek的崛起加速了行业洗牌,使得一些之前没有明确技术突破或战略方向的公司面临更大压力。目前看来,“AI六小虎”中可能只有Kimi在人才、团队、资金和用户上具备持续冲击SOTA(State-of-the-Art)的能力。Kimi的长文本能力和在truthfulness(真实性)方面的优势仍然显著。一些没有明确技术突破和商业模式的公司,将面临更大的生存压力。
  • 推动生态繁荣:开源为应用开发者提供了更多选择,降低了开发成本,加速了AI应用的创新和落地。加速从“黑莓时代”到“iPhone”时代,开源和技术进步,类似于安卓的出现,为应用开发者提供了更多选择,将加速AI应用生态的繁荣,推动行业从技术受限的“黑莓时代”走向更加开放和多样化的“iPhone”时代。开源社区的活跃,也促进了知识共享和技术交流,推动了整个Agent生态的繁荣。

8.在指数增长与潜在风险中探索商业模式

8.1 对AGI的展望:从指数增长与潜在风险

我们正处于一个技术指数增长的时代。AI的发展速度超出了许多人的预期。AGI(通用人工智能)不再是遥不可及的科幻概念,而是越来越接近现实。AGI的实现,将对人类社会产生前所未有的影响。它将极大地提高生产力,改变社会结构,重塑政治格局,甚至影响人类文明的走向。然而,AGI也带来了一系列潜在的风险。我们需要认真思考如何确保AGI的发展符合人类的利益,避免出现失控的局面。这需要全球范围内的合作,制定合理的伦理规范和监管措施。

8.2 成本与商业模式:技术革命的早期阶段

目前,AI技术的成本仍然相对较高,商业模式也还在探索中。一些人担心AI的高成本会阻碍其普及和应用。然而,我们需要认识到,我们正处于一场技术革命的早期阶段。正如早期的计算机和互联网一样,AI技术的成本会随着时间的推移而迅速下降,成本下降是必然趋势,但性能会不断提升。在技术革命的早期,不应该过早地用成熟期的标准来要求商业模式。更重要的是,要关注如何通过技术为用户和客户创造价值。当价值足够大时,商业模式自然会水到渠成,这个事情我认为迟早会发生,但是要有些耐心。伟大的公司往往先通过技术突破创造用户价值,然后才逐步找到商业模式,例如Google和Facebook。
当然,无论在商业还是应用中,你总是先证明你没问题你才能用,那这个时候可能就会出现很多这样的阻碍进步的情况发生。当然,DeepSeek通过销售API已经展现了盈利能力,也不排除OpenAI的订阅模式在未来成为主流。但每个人视角不一样,我自己还是觉得要鼓励创新,就是事后审核比事前自证清白要更适合。

8.3 开源并非必选项:价值与创新

开源是一种值得尊敬的理念,但并非商业成功的必经之路。领先的技术和对世界的增量价值,才是开源的前提。一些公司选择开源自己的模型,是为了吸引开发者,构建生态,扩大影响力。另一些公司则选择闭源,是为了保护自己的技术优势,获取商业回报。不同的选择没有绝对的对错,关键在于是否能够持续创新,为用户和社会创造价值。所以说DeepSeek的开源策略在吸引全球关注和与腾讯合作方面取得了积极成果,但这并非所有公司都适用的策略。

9.下一个技术范式:AI for Science

除了AI Agent之外,另一个更深远的技术范式正在崛起:AI for Science。AI不仅可以帮助科学家分析数据、建立模型、进行模拟,还可以提出假设、设计实验,甚至独立发现新的科学规律。这一趋势将AI视为一支虚拟的科学研究力量,它能够主动提出新颖的科学假设、设计精妙的实验流程、指导实验设备甚至自主验证结果。这种强大的AI被描述为“数据中心中的天才国度”,能够在数年之内完成传统科研领域半个世纪甚至更长时间才能取得的进展。
具体而言,这种AI能突破生物学、医学与神经科学等领域原有的数据与实验瓶颈,极大提高突破性技术的发现效率,例如更先进的CRISPR基因编辑技术、新一代细胞疗法、高精度的医疗诊断工具以及快速有效的药物开发途径。OpenAI在其AI能力的五级分类中也明确指出,“创新者(Innovator)”这一高级阶段恰恰代表着AI主动推动科学进步的能力。AlphaFold已经在蛋白质结构预测领域做出历史性贡献,展现了AI for Science巨大而真实的潜力。
更重要的是,这一范式不仅意味着科学发现速度的大幅提升,更代表着人类面对重大挑战(如癌症、阿尔茨海默病、遗传疾病甚至人类寿命延长)的全新可能性。AI for Science 将不仅限于发现技术,而是开启人类健康与福祉全方位提升的新时代。
更多深入探讨请见原文:Machines of Loving Grace

10.对算力需求的影响:结构性变化

AI Agent的发展和AI for Science的兴起,将对算力需求产生深远影响。
  • 预训练需求可能放缓:随着预训练模型的规模越来越大,边际效益递减的现象开始出现。未来,对大规模预训练算力的需求可能不会像之前那样快速增长。
  • 推理和后训练需求大幅提升:AI Agent的落地应用,将导致推理算力的需求大幅增加,可能是数十倍甚至数百倍的增长。因为Agent需要实时响应用户的请求,处理各种任务,这需要大量的推理计算。同时,为了提高模型的性能和适应性,后训练(Post-training如微调、强化学习等)也变得越来越重要,成为近期提升模型能力的关键,其算力消耗也在快速增长。
  • GPU市场格局变化:尽管英伟达目前在GPU市场占据主导地位,但随着特定模型架构的稳定,针对性优化的国产芯片(如昇腾)和ASIC(Application-Specific Integrated Circuit)可能获得更多机会,GPU市场的格局可能会发生变化。针对特定AI任务进行优化的芯片,可能会获得更多的市场份额。

结语:范式跃迁与未来图景

我们正处于人工智能范式跃迁的前夜。从AI Agent引领的“无注意力时代”,到AI for Science加速科学进步、赋能人类福祉,这场变革注定深刻且广泛。AI技术不仅将重构商业模式、重塑社会经济,还将重新定义人类与技术、人与社会的关系。未来充满挑战,更充满希望。我们有幸见证、参与并引领这一时代转折,借助AI的力量,创造出更具创造力、更高效、更富有人性关怀的文明图景。
社会求生终极奥义:从青铜到王者的血泪升级路AI时代的人类自处之道与人机关系重塑