文章作者:刘军 文章来源:深潮 2026 年,AI 行业的一个共识正在成形:模型能力不再是瓶颈。差距在模型之外,在领域知识的编码,在 agent 与真实世界的接口,在工具链的成熟度。这个差距正在被开源社区填补,而且速度超出所有人预期。OpenClaw 在 72 小时内拿到 6 万颗 GitHub 星,三个月后突破 35文章作者:刘军 文章来源:深潮 2026 年,AI 行业的一个共识正在成形:模型能力不再是瓶颈。差距在模型之外,在领域知识的编码,在 agent 与真实世界的接口,在工具链的成熟度。这个差距正在被开源社区填补,而且速度超出所有人预期。OpenClaw 在 72 小时内拿到 6 万颗 GitHub 星,三个月后突破 35

当 AI 的瓶颈不再是模型:Perseus Yang 的开源生态建设实践与思考

2026/04/13 09:48
阅读时长 18 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

文章作者:刘军

文章来源:深潮

2026 年,AI 行业的一个共识正在成形:模型能力不再是瓶颈。差距在模型之外,在领域知识的编码,在 agent 与真实世界的接口,在工具链的成熟度。这个差距正在被开源社区填补,而且速度超出所有人预期。OpenClaw 在 72 小时内拿到 6 万颗 GitHub 星,三个月后突破 35 万颗。Claude Code 的 Skill 生态半年内从 50 个增长到 334 个以上。Hermes Agent 更激进,让 agent 自主构建可复用技能。Vela Partners 的数据显示,过去 90 天,个人 AI 助手和 Agentic Skill 插件两个品类合计新增 24.4 万颗星。这是一场 Skill 大爆发。

Perseus Yang 的工作坐落在这场爆发的核心地带。作为 Cornell 数学与计算机科学背景出身、Forbes Business Council 成员、THINC Fellowship 入选者,他过去几年在 GitHub 上参与和维护了十余个 AI 相关的开源项目,涵盖 agent 技能扩展、手机设备级操控、AI 引擎优化工具链、GEO 数据分析 agent、内容自动化工作流、支付协议基础设施等方向。他的特点是同时具备深厚的工程背景和极强的产品直觉。他不只是写代码,而是能从用户需求出发定义一个工具应该长什么样,然后端到端地把它造出来并推动采用。

以下是他在这个过程中形成的几个核心判断。

第一个判断:Skill 系统是 AI agent 时代最被低估的基础设施

Anthropic 在 2025 年底将 Agent Skills 发布为开放标准后,OpenAI 的 Codex CLI 也采用了相同的 SKILL.md 格式。OpenClaw 的 ClawHub 注册中心已经积累了超过 13000 个社区贡献的 Skill,Claude Code 生态也在快速跟进。Skill 的意义远不止"给 agent 加插件"。它本质上是让不会写代码的人也能参与 AI 编程的方式。一个运营人员用自然语言写一份 SKILL.md,就能让 agent 学会一个新工作流。这是一次范式转移:AI 的真正威力不取决于模型参数量,而取决于模型被注入了什么领域知识,而 Skill 把注入知识的权力从工程师扩展到了所有人。

但 Perseus 观察到一个问题。绝大多数 Skill 集中在工程领域,代码审查、前端设计、DevOps、测试。非工程领域的专业知识几乎没有被系统性地编码为 Skill。这意味着 Skill 生态的覆盖面远远没有达到它应有的边界。

这个观察驱动了他在 GTM 工具链方向上的一系列开源工作。其中最具代表性的是 GTM Engineer Skills,一组覆盖 AI 引擎可发现性完整工作流的 Claude Code 和 Codex 技能集,目前在 GitHub 上积累了 600 多颗星。它把传统上需要 SEO 专家、内容策略师和前端开发者协作的工作编码为单人可执行的自动化流程:网站 AI 可发现性审计、内容结构优化、关键词研究、数据可视化的机器可解析层。审计器不输出建议,而是自动检测前端框架后生成可直接提交为 Pull Request 的代码修复。围绕同一方向,他还构建了配套的 GEO 分析工具,可以同时向 ChatGPT、Claude、Gemini、Perplexity 发送查询并分析品牌提及率、情感、市场份额和竞争定位,输出交互式 HTML 报告和结构化数据。

实际效果说明了这套工具的产品价值。Articuler AI 和 Axis Robotics 等公司用 GTM Engineer Skills 在数小时内完成了从调研到 Resource Center 搭建的完整流程,而这类工作在传统模式下通常需要数十个小时的跨团队协作。这个效率差不是靠模型能力实现的,而是靠 Perseus 对 GTM 工作流的深度理解和产品化拆解:他把一个模糊的"提升 AI 可发现性"需求拆分为可被 agent 逐步执行的标准化阶段,每个阶段都有明确的输入、输出和质量校验。这套工具链目前被十来家初创公司和多家世界五百强企业采用,开源工具是入口,商业化产品是规模化延伸,两者共享同一个技术内核。

这个项目本身有价值,但 Perseus 认为它验证的命题更重要:Skill 系统的能力边界远不止工程领域。产品策略、go-to-market、商业分析,任何可以被结构化描述的专业知识,都可以被编码为 agent 能力。

第二个判断:AI agent 的操作边界不应止于浏览器和 API

2026 年的 agent 讨论被浏览器 agent 和 API 集成主导。LangGraph、CrewAI、Google ADK 构成了繁荣的多 agent 编排生态。但 Perseus 注意到一个结构性盲区:全球大多数数字活动发生在手机原生应用中,社交、支付、游戏、通信,而这些应用没有公开 API,没有浏览器等效物。现有框架无法操作微信、抖音、WhatsApp 或支付宝。手机是全球最主导的计算界面,但手机原生 agent 的基础设施几乎为零。

Perseus 的思考是:为什么所有人都在教 AI 操作浏览器,却没有人认真教它操作手机?浏览器 agent 的繁荣很大程度上是因为 web 天然对自动化友好,有 DOM、有 API、有 Playwright 这样成熟的工具链。但手机是一个完全不同的世界。原生应用是黑盒,没有结构化的界面描述,操作只能通过模拟人类的触摸和滑动来完成。这个问题的难度不在于让 LLM 理解一个按钮该不该按,而在于整个执行层的基础设施从零开始:设备连接管理、屏幕状态解析、多 agent 之间的设备互斥、敏感操作的安全边界。

这个判断驱动了 OpenPocket 的诞生。它是一个通过 ADB 让 LLM 驱动的 agent 自主操作 Android 设备的开源框架,目前有十来位贡献者、五百次以上的 commit。用户真正在用它做的事情很说明问题:自动管理社交媒体账号、在 IM 里替你回消息、处理手机上的支付和账单、甚至自动玩手游。一个典型的场景是:用户用自然语言告诉 agent"每天早上 8 点打开 Slack 完成签到",agent 就会在隔离的 session 中持久运行这个任务,把原本每天重复的手动操作变成后台自动化。

Perseus 在这个项目中做了几个他认为关键的产品和架构选择。第一,agent 可以在运行中自动创建新的 Skill。当它遇到一个没见过的操作流程时,可以把学到的步骤保存为可复用的 SKILL.md,下次直接调用。这意味着 agent 不是一个固定能力的工具,而是一个越用越强的系统。第二,所有敏感操作必须经过人类审批,而不是让 agent 自己判断什么是安全的。在他看来,自主 agent 最危险的不是它做错事,而是它"自信地"做错事还以为自己做对了。第三,每个 agent 完全隔离,绑定独立的设备、配置和会话状态,多个 agent 可以同时运行而不互相干扰。如果只有 TypeScript 工程师才能扩展 agent 的能力,那这个生态永远长不大,所以 OpenPocket 和 Claude Code 一样,用 SKILL.md 作为能力扩展的标准格式。

整个系统支持 29 种以上的 LLM 配置,agent 手机与用户个人手机完全隔离,所有数据保留在本地。在 OWASP 将"工具滥用"列入 Agentic AI 十大风险、欧盟 AI Act 高风险义务即将生效的 2026 年,这种本地优先、人类在环的设计不是保守,而是 agent 进入真实场景的前提条件。

第三个判断:开源的价值不在代码本身,在基础设施层的标准定义

Perseus 对开源的理解不是"把代码放到 GitHub 上"。他反复提到一个观点:2026 年的 AI 开源生态处在一个标准尚未固化的窗口期,现在被社区采纳的架构模式和接口规范,会在未来几年变成整个行业默认的基础设施。在这个窗口期,定义一个生态位比优化一个已有方案重要得多。

具体来说,他的 Skill 项目推动了一件技术层面有意义的事:证明 SKILL.md 这个格式不只是工程工具的容器,而是一个足够通用的领域知识编码标准。当同一个 SKILL.md 可以同时被 Claude Code、OpenAI Codex CLI 和 OpenClaw 加载执行时,它事实上成了 AI agent 生态的"可移植能力单元"。Perseus 把 go-to-market 这个非工程领域的完整工作流塞进了这个格式,并且跑通了从审计到代码修复的端到端自动化,这对整个 Skill 标准的通用性是一个有份量的验证。

他的手机 agent 项目解决的则是 agent 执行层的一个架构空白。现有的 agent 框架在工具调用层面依赖结构化接口,要么是 API,要么是 DOM。OpenPocket 必须在没有任何结构化接口的环境中完成操作,纯粹依赖屏幕像素解析和触摸事件注入。这迫使项目从底层重新设计了 agent 的感知-决策-执行循环,包括设备状态的实时解析、多 agent 的设备互斥协议、以及操作失败后的自动恢复机制。这些不是对现有 agent 框架的简单适配,而是一套针对"无 API 环境下的自主操作"这个问题独立演化出来的架构方案。

两个项目的工程设计值得单独说一下。OpenPocket 采用 Manager、Gateway、Agent Runtime 三层分离架构,每一层可以独立迭代,社区贡献者只需要关注自己熟悉的那一层。GTM Engineer Skills 的每个 Skill 内部遵循阶段化 pipeline 设计,前一阶段的输出是后一阶段的输入,中间有强制的质量校验门控,工作流可以在任意阶段中断恢复,错误可以被定位到具体阶段。这些架构选择的目的都是同一个:让开源项目能被真实用户在生产环境中信任。

从产品视角看,这两个项目还有一个共同点:Perseus 在设计中始终把"谁来用"和"怎么扩展"放在架构决策的最前面。GTM Engineer Skills 的目标用户不是工程师而是增长团队,所以它的每个 Skill 都有明确的输入输出契约和内置的质量校验,让非技术用户也能理解 agent 在做什么。OpenPocket 的 SKILL.md 扩展机制、自然语言定时任务、多渠道接入(Telegram、Discord、WhatsApp、CLI)都是为了降低非工程用户的使用门槛。在他看来,一个开源基础设施项目如果只有工程师能用,那它的天花板就是工程师社区的大小。真正有杠杆的设计是让 agent 的能力边界由所有领域的从业者共同拓展。

这种模式贯穿了他的多个项目。不是在现有框架上做应用层开发,而是在 agent 生态的基础设施层识别缺失的组件,然后把它造出来。

更大的图景

2026 年的开源 AI 生态正在经历一个类似于 2010 年代早期云原生生态的时刻:基础设施层的标准和工具正在被定义,而这些定义将在未来数年内约束整个行业的发展路径。在这个窗口期,每一个被社区采纳的 Skill 格式、每一个被验证的 agent 架构模式、每一个被填补的生态空白,都在参与塑造 AI 的下一个界面层。

Perseus Yang 正在做的事情很简单:用工程能力和产品思维去探索 AI 时代技术前沿的 paradigm。模型会继续变强,但谁来定义 agent 该怎么和真实世界交互,谁来决定领域知识该以什么形式被编码和分发,这些问题的答案不会从模型里长出来,只能由动手造东西的人一点一点试出来。

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

USD1 Genesis:0 费率 + 12% APR

USD1 Genesis:0 费率 + 12% APRUSD1 Genesis:0 费率 + 12% APR

新用户:质押最高享 600% APR。限时福利!