2026世界杯比赛买输赢中国官网唐杰半夜发文，AI从器具到劳能源只差这一步

发布日期：2026-05-16 00:19 来源：未知作者：admin 浏览次数：

文 | 字母 AI

跟着黄仁勋踏上赶赴特朗普的空军一号，智谱股价暴涨 36.9%，收报 1150 港元，创下历史新高。

从 1 月 8 日上市时的 116.20 港元刊行价算起，智谱的股价在短短四个多月内增长了 900%。

而就在暴涨之前不到 24 小时里，智谱创举东谈主唐杰半夜在 X 上发布了一条推文，大谈了我方对所有 AI 产业的想考。

整条推文的中枢是"长周期任务"。

请瞩目，英文原文是" Long-Horizon Tasks "，直译过来应该是长视线。但是在 AI 语境中，它是指一个任务需要跳跃较永劫刻、较多门径、较多中间景况才能完成。

他以为，2026 年最可能的冲破点不在于模子变得更智慧，而在于模子大略捏续完成复杂、多门径的任务。

在唐杰看来，一朝模子能捏续贪图、试错、判断和委用，它冲击的就不仅仅模范员遵守，而是整套东谈主类践诺层。

以前 AI 替东谈主写几句话，全球还能说它仅仅器具。一朝 AI 能承接几天我方干活、我方判断、我方委用间隔，它要替代的就不仅仅某个岗亭了，它可能会透顶替代某一个行业。

长周期任务是什么？

夙昔两年，咱们评价一个大模子的好坏，主要看它在单次对话中的进展。恢复是否准确、逻辑是否明晰、谈话是否调换。

这内容上是在测试才略。但长周期任务需要的不是才略，是践诺力。

操办明确但旅途不细目，需要捏续数个小时、数天致使数周的恒久激动。

唐杰在推文顶用黑客当作例子。

他说，纰缪挖掘是典型的长周期任务。需要阅读多量代码、泄露系统架构、搭建测试环境、构造时弊输入、考据纰缪灵验性，临了撰写技艺敷陈。

这个过程充满试错，因为莫得尺度谜底，只可依赖陶冶和直观。

你不可只读一遍代码就找到纰缪，你要反复去尝试不同的时弊向量，在每次失败后调治想路，在每次到手后考据可靠性。

如果 AI 能在这种抗击性、陶冶化的鸿沟站稳脚跟，那么它对庸俗模范员、数据分析师、法务助理等奇迹的冲击只会来得更猛烈。

因为这些奇迹的任务天然也很复杂，但抗击性更弱，陶冶依赖度更低，更容易被系统化的经过障翳。

唐杰以为，斟酌 AI 的边幅，正在从看对话、谜底，变成看"长周期"任务完成才略。

一个模子可能在单次对话中进展完整，但在需要捏续职责 8 小时的任务中常常出错、丢失高下文、访佛无效操作。

另一个模子可能单次恢复不够精彩，但能踏实地激动任务，记着每一步的间隔，在遇到绝交时自动换旅途。

那么后者在长周期任务中的价值，就高于前者。

腾讯的姚顺雨曾建议一个倡导，今天模子太依赖预查考里的"参数化常识"，真实寰球更需要能从刻下 Context 里学习并愚弄的模子。

当模子着实开动跑任务的时候，它需要查文档、跑代码、测接口、读日记、调参数。

一个能熟练调用这些器具的模子，比一个记着了统统 API 文档但不会践诺操作的模子有用得多。

此外，以前的模子过于被迫，它得恭候东谈主类发出辅导后才能践诺，况兼每发出一次辅导，只可践诺一步。

但在长周期任务里，给定操办后，模子需要自主贪图和践诺。

被迫反映只需步调会刻下问题，主动激动需步调会所有任务的结构、刻下所处的阶段、下一步应该作念什么、如果失败了该怎样调治。

这需要模子具备某种"任务感"，知谈我方在作念什么，为什么这么作念，作念到哪一步了。

当有了这一切后，AI 就开动参预"间隔委用"阶段。

企业和个东谈主不再得志于" AI 帮我写了一段代码"，而是期待" AI 帮我完成了所有功能模块的诱骗、测试和部署"。

这是从助手到承包商的跳跃。助手需要你告诉它每一步作念什么，承包商只需要你告诉它最终要什么间隔。

长周期任务的倡导并不极新。学术界早就在询查强化学习、任务贪图、多步推理。

唐杰以为，恰是因为如下几个要害技艺冲破，长周期任务在本年变得可以完结。

第一个即是操心。

百万级高下文窗口和 RAG 技艺的纯属，让模子大略在永劫刻任务中保捏对神志布景、历史尝试和用户偏好的操心。

Claude Opus 4.7 支柱 1M token 高下文窗口，GLM-5.1 支柱 200K token。这意味着模子可以在一个会话中记着数十万字的代码、文档、对话历史。

它不会因为任务太长而健忘最初的操办，不会访佛也曾尝试过的失败决策，不会丢失中间门径的要害信息。

第二个是捏续学习。

天然着实的捏续学习仍然贫苦，但模子更新周期正在急剧裁减。全球率先模子也曾作念到月度更新，国内模子紧随后来。如果来岁能作念到周更新，事实上就接近了捏续学习的成果。

模子不需要在查考时就学会统统常识，它只需要能快速给与新器具、新 API、新业务规矩。当更新周期弥散短，模子就能跟上现实寰球的变化速率。

第三个是自我判断、自我进化。

唐杰意料，Claude 可能也曾完结了基础的自查考才略。

模子我方写代码、清洗数据、生成合成数据，然后用这些数据查考我方。GPT-5.5 就在用模子生成的代码和测试用例来矫正我方的编程才略。

它开动知谈我方的谜底是否靠谱，知谈什么时候该重试、求证或回滚。

这种才略在长周期任务中至关伏击。因为莫得东谈主会在操纵监督每一步，模子必须我方判断刻下线案是否可行，是否需要调治，是否也曾达到操办。

但这条旅途也充满风险。

自我进化意味着东谈主类对模子查考过程的示寂力鄙人降。当模子开动我方生成查考数据、我方评估查考成果时，咱们怎样确保它不会偏离东谈主类的价值不雅？咱们关于 AI 的价值又是什么？

唐杰的判断是，这些才略通过小巧的工程" tricks "完结。这意味着进展速率会比学术界预期的快得多，因为工程化的迭代周期远短于学术和技艺上的革命周期。

你只需要在现存架构上作念更好的 prompt 工程、更综合的强化学习、更可靠的器具集成。

智谱的 GLM-5.1 在 SWE-Bench Pro 上达到 58.4%，超越 GPT-5.4 的 57.7% 和 Claude Opus 4.6 的 57.3%，即是这种工程化迭代的间隔。

智谱：在长周期任务赛谈上的政策押注

当作智谱的创举东谈主兼首席科学家，唐杰发这条 X 昭着不仅仅技艺不雅察，还多了一层政策宣言。

智谱在国内大模子阵营中的特质是技艺基础底细塌实，但贸易化节律相对严慎。

它不像 Kimi 那样靠 C 端爆款产物快速起量，也不像阿里、百度那样有浩繁的生态和流量进口。

智谱的阶梯一直是"模子才略先行，愚弄场景跟进"。先把基座模子作念到弥散强，再通过 API、专有化部署、行业握住决策变现。

长周期任务这个标的，无论是国内如故海外，参与的玩家齐很少，莫得明确的领跑者，全球齐在探索阶段。

OpenAI 的 GPT-5.5，定位即是"自主任务践诺"，强调的是 agent 才略和多门径职责流，Opus 4.7 亦然类似。

推敲词二者在长周期这件事上，齐还差点深嗜。

两家公司并莫得展现出压倒性上风，市集阵势也还远不决型。

天然在纯模子才略上追逐 GPT 和 Claude 很难，世界杯比赛买输赢(中国)2026最新官方网站不外在长周期任务这个新方进取，全球齐站在团结条起跑线上。

唐杰进一步提到了 NPC 这个倡导。他以为长周期才略会激动从 OPC 到 NPC 的滚动。一东谈主公司的逻辑是"东谈主加 AI 器具"，无东谈主公司的逻辑则是" AI 系统加东谈主类监督"。

前者是增强，后者是替代。

不外无东谈主公司并不是确实莫得东谈主，而是东谈主的定位发生了改变，从践诺者变成了操办设定者、资源设立者和职守承担者。

着实被替代的是中间践诺层，比如那些负责激动任务和合作资源的岗亭。在 NPC 里，东谈主只需要设定操办和审核间隔。

落到智谱身上，唐杰的不雅点预示着智谱接下来的发展标的。

智谱 GLM-5.1 的技艺白皮书中提到，GLM-5.1 能捏续镇静功课 8 个小时，单次任务可踏实践诺 1200-1700 步操作，无需东谈主工监控与侵扰。

不外这仅仅一张收成单，要着实让企业宽解，还得看它换到更多场景后会不会掉链子，遇到没见过的问题时能不可靠我方的技能握住。

长周期任务不是一个通用产物，它需要针对不同业业、不同场景作念深度定制。

软件诱骗需要的是代码泄露和测试践诺，法律行业需要的是文档检索和合规查验，金融行业需要的是数据分析和风险评估。

不是说把模子卖给企业就完毕，智谱还要把模子打包成能平直上手的 agent 器具箱，客户不消从零诱骗，也能快速搭出我方的长周期任务系统。

长周期任务系统不是智谱一家能作念出来的，它需要诱骗者孝敬器具和插件，需要企业客户提供真实场景和反馈，还需要监管机构制定安全和合规尺度。

智谱的开源策略即是在构建这个生态。

从市值来看，智谱是国产 AI 的架海金梁，唐杰的每一个判断齐会对国内 AI 产生很大的影响。

就以唐杰提到的自我进化来说，智谱是会追求自我进化？如故会禁受更保守的策略？

从 GLM-5.1 来看，智谱在走一条中间阶梯。

一方面，GLM-5.1 的查考也曾多量使用模子生成的合成数据，这是自我进化的雏形。

可另一方面，智谱强调"可阐发的、可监管的"系统，这意味着它不会统统烧毁东谈主类示寂。

这种均衡很难，但可能是最现实的旅途。

长周期任务是企业的核肉痛点，它能平直替代东谈主力资本，能平直提升业务遵守，企业爽快为此支付更高的价钱。

如果智谱能拿下长周期任务，那么它的业务会进一步增长，市值也会更高。

AI 吞吃寰球

基于对长周期任务的判断，唐杰给出了一个预言，畴昔咱们可能会跳跃 APP 的倡导，平直参预 LLM OS 期间。

什么是 LLM OS？愚弄按需生成，用户不再握住文献、窗口和按钮，用户只握住任务、权限和间隔。

推敲词我想说，这个判断波及了当代盘算机的根柢逻辑。

APP 的内容是把功能固化在界面里，用户通过点击按钮来触发预设的功能。

你淌若想发邮件，你就大开邮件 APP，点击写邮件按钮，填写收件东谈主、主题、正文，点击发送。每一步齐是事先瞎想好的，你只可在瞎想者章程的旅途上操作。

agent 的内容则是把操办交给系统，让系统临时组合器具、数据和界面来达成操办。

你告诉系统"给张三发一封邮件，告诉他神志程度"，系统会我方决定用哪个邮件服务、何如措辞、什么时候发送。你不需要知谈邮件 APP 在何处，不需要知谈何如操作，你只需要抒发意图，系统负责践诺。

如果唐杰说的这个趋势建造，软件的中心将从"大开哪个 APP "变成"告诉系统我要什么间隔"。这将会颠覆现存的一切。

它挑战的是 80 年来的冯诺依曼架构，挑战的是所有盘算机科学的产业基础。

当今的操作系统，无论是 Windows、macOS 如故 Linux，内容上齐是文献握住器加进程编削器。

它们握住的是数据在何处、模范何如运行、资源怎样分派。用户需要知谈文献存在哪个文献夹，需要知谈用什么模范大开，需要知谈何如在不同模范之间复制粘贴数据。

LLM OS 的逻辑统统不同。

它握住的不是文献和进程，而是任务和权限。你不需要知谈数据存在何处，系统我方能找到需要的数据。你不需要知谈用什么模范，系统会我方调用相宜的器具。

你只需要告诉系统你要作念什么，然后恭候间隔就可以了。

听起来可以，然而完结起来极其贫苦。

用户说"我要作念什么"，系统能准确泄露吗？

天然谈话是暗昧的、多义的、依赖高下文的。相似一句话，在不同场景下可能有统统不同的含义。

是以模子不仅需要具备坚忍的语义泄露才略，还需要蚁集高下文、用户历史、刻下景况来推断意图。

泄露用户的意图以后，接下来就到了践诺任务。

一个高层操办需要阐发成若干个子任务，每个子任务用什么器具完成，任务之间有什么依赖关联。

"给张三发邮件"这个浅陋任务，践诺上包含了查找张三的邮箱地址、生成邮件内容、禁受发送时刻、处剪发送失败等多个子任务。

再往底层看即是器具调用。

邮件是器具、写字用的输入法是器具、网页亦然器具。系统需要能调用无独有偶个不同的器具和服务，每个器具有不同的 API、不同的参数、不同的空虚处理边幅。

唐杰在收尾提到了监管问题。

他承认这个不可逆的进程也曾开动，但同期号令崇敬想考怎样监管。长周期任务和自主 agent 带来的监管挑战是前所未有的。

PG娱乐电子游戏中国APP下载

当 AI 镇静完成一个任务并形成亏损，职守应该由谁承担。诱骗者、使用者，如故 AI 本人？如果一个 AI 系统在践诺长周期任务时作念出了空虚决策，导致企业亏损数百万，谁来负责？

2026 年 4 月，PocketOS 就际遇过一次典型事故。

一个基于 Claude 的 Cursor 编程 agent，在处理环境问题时误删了公司的坐褥数据库和备份，所有过程只用了几秒钟。

现存的法律框架还莫得准备好恢复这个问题。

除此之外，当多量践诺层岗亭被 AI 替代，那么随之而来的即是休闲潮。

但休闲仅仅最容易被看见的间隔，更深层的变化，是社会单干本人被重新改写。

夙昔，技艺替代的经常是某个要害、某个器具、某种访佛做事；长周期 agent 要替代的，是"把事情激动到间隔"的整套践诺才略。

它一朝建造，AI 就不再仅仅嵌在职责流里的扶持按钮，而会变成职责流本人的一部分。

唐杰以为，长周期任务不是 AGI 的通盘2026世界杯比赛买输赢中国官网，但它可能是 AGI 第一次着实参预现实寰球、着实开动重构东谈主类社会的边幅。当 AI 不再仅仅恢复问题，而是开动承包间隔，咱们就站在了一个历史性的转化点上。

上一篇：上一篇：2026世界杯比赛买输赢中国官网奕境X9外不雅遐想细节公布：纯平水切线全车剖释

下一篇：下一篇：世界杯比赛买输赢(中国)2026最新官方网站佣金皆涨？利润腰斩？东南亚「后红利时间」，一批跨境卖家无语撤回

世界杯直播

2026世界杯比赛买输赢中国官网 唐杰半夜发文，AI从器具到劳能源只差这一步

2026世界杯比赛买输赢中国官网唐杰半夜发文，AI从器具到劳能源只差这一步