引子
过去半年我同时在用三类 AI 开发工具:IDE 里的 Copilot 和 Antigravity,终端里的 Gemini CLI 和 Codex,还有跑在虚拟机里的 OpenClaw。
因为穷,所以每个工具的免费额度各有各的上限,把它们拼在一起刚好够用。也没什么更冠冕堂皇的理由。半年下来我确实跑通了不少项目,但更多时候我在处理的是工具越界带来的麻烦:CLI 在配置 VPS 的时候把我的代理服务器干掉了,IDE 在我只想让它查个资料的时候连搜索什么关键词都要反复确认,Agent 在没打招呼的情况下删了我的文件。
这篇文章就是这些经历的记录。
Part 1 · 工具箱:配置、成本和一些不太光彩的 hack
作为一个独立开发者,整套方案的第一优先级是省钱。
主力 IDE:Antigravity
Google Pro 会员每月 20 美金,提供 Gemini Pro 和 Claude Opus/Sonnet 的混合额度。我的分工方式很固定:Gemini 画前端,Claude 做规划和关键决策。前者适合快速生成 UI 组件和页面,后者在架构设计、复杂调试这些容错率低的环节更可靠。
然后是一个 hack:Google 家庭共享。我在主力账号下挂了两个成员,这样实际上手上有 ×3 的模型额度。20 美金买到了 60 美金的天花板。用了半年,目前没出什么问题。
CLI 工具
| 工具 | 额度 | 我拿它干嘛 |
|---|---|---|
| Gemini CLI | 免费,日限约 1000 次 | 随手提问、手搓原型 |
| Codex | 免费 | 轻量编码 |
| Copilot | 100 次/月,支持 Claude 全系列 | 嵌进 IDE 做严肃开发 |
Gemini CLI 的额度很大方,但在长程复杂任务上指令遵循不稳定。Reddit 上从 2025 年底就有人反映 Gemini 3.0 Pro 的指令遵循质量不如 2.5 Pro,长会话中会"丢失指令"。我自己的经历后面 Part 2 会详细讲。
Agent:OpenClaw
一台 Mac 上的 VMware Fusion 虚拟机,接入 MiniMax 的 Coding Plan(49 元/月)。用的次数不多,生成质量比 Claude 差一截,这个价位能期待的也就这样。但 OpenClaw 代表的东西让我在意:它已经越过了写代码的层面,直接像一个人一样操作你的电脑——鼠标、键盘、窗口切换。这种 Human-like 的 Agent 还很粗糙,但随着模型能力的增长,我相信它总会越来越可靠。
Claude 官方由于对大陆支持不太友好,暂时搁置。后面额度不够了可能重新考虑。
总账
| 项目 | 月费 |
|---|---|
| Google Pro(Antigravity) | $20(≈¥145) |
| Gemini CLI / Codex | 免费 |
| MiniMax Coding Plan | ¥49 |
| 合计 | ≈¥194/月 |
月均 194 块,我用着没什么不满意的地方。
Part 2 · 三种场景,三种踩法
工具配好了,核心问题是什么时候该用什么。下面三个分类是半年用下来长成的肌肉记忆。
IDE:上下文容器
我的个人网站是一个 Astro 5 的多页面站点——博客、项目展示、图像资源管线、还有一堆 11ty 遗留模板。它的难度不在任何单一组件,在组件之间的关系:改一个布局模板可能影响六个页面,更新一张图要同步调 CSS 约束和模板路径。这种任务只能在 IDE 里做——IDE 能同时打开七个文件,让我和模型的注意力锁在同一个上下文里。终端做不了这个,你没法同时看模板、CSS、预览页面和 git diff。
但 IDE 用久了,有个东西让我越来越不耐烦。
有一次我只是想让 IDE 里的 agent 帮我跑一轮 deep research,去几个网站检索一些资料。这个任务很简单对吧?但它连要搜索什么关键词都反复跟我确认。每个搜索方向都要我点头。三次之后我已经不记得自己最初想调研什么了。Cursor 的团队显然也碰到了类似的反馈——他们后来在设置里加了一个 "Auto-run" 选项让 agent 跳过逐次审批,旁边标了一句 "Use with caution and consider guardrails"。
我越想越觉得这套东西本质上是免责策略。工具把每一步都推给你确认,因为这样出了错就找不到它头上。它在保护自己,顺便把决策责任甩回给你——但甩的方式很糟糕,不给你一个清晰的计划让你拍板,反而把流程切成碎片让你逐步签字。最后你签了二十次字,对全局反而更模糊了。
我之前用 YOLOv8 + DeepSORT 做电影人物追踪的时候体会最深:如果追踪器每检测到一个新的边界框就弹窗问我"这是不是同一个角色?",我在第 50 帧就得崩溃。好的追踪器是先跑完整段视频,遇到真正模糊的帧再回来让我裁决。IDE 的确认策略也该这样——该自治的地方自治,只在真正模糊的决策点才把人拉进来。
CLI:一次性执行器
做电影实证研究的时候,我需要把一部 112 分钟的片子切成 2 分钟的片段,对每个片段做 VLM 分析。这个需求太清楚了——输入一个视频文件,输出一组切片加描述。告诉 Gemini CLI,一分钟后脚本就在跑。做量化交易机器人的时候也差不多,最初的 K 线分析逻辑就是在 CLI 里随手验证的,等到要协调调度器、数据库、API 和前端 Dashboard 的时候才搬进 IDE。
但有一次我把 CLI 推到了它不该去的位置。我让 Gemini CLI 通过 gcloud SSH 帮我在 VPS 上配置 WARP,结果它把我之前搭好的代理服务器配置文件给删了。整个 VPN 链路断掉,最后回滚到前一个版本才恢复。本来想省十分钟,多花了一个小时,而且那一个小时里我已经不敢再完全交给它了——得另外开一个 Claude 来交叉验证它的每一步操作。
事后我复盘,问题出在 CLI 根本没有可视化的 diff 预览。它打算改什么、删什么,你在执行之前看不到。IDE 里至少有 undo,有文件历史。CLI 里一个 rm 或者一次静默覆写,你发现的时候已经晚了。
所以现在我有个土规矩:CLI 拿来跑新建的脚本没问题,但碰线上配置的活我不让它独立操作。VPS 那次之后,我已经不信任它在有状态的环境里的判断了。
Agent(OpenClaw):可控的代理——如果真的可控的话
OpenClaw 代表的方向是完全的自治:你描述一个目标,它自己拆解任务、跨应用执行、遇到问题自己调整。我在上面跑过一些跨应用的任务,体验比想象中粗糙得多。
最直接的问题:它在操作过程中删除了我的原始文件。 没有预告,没有确认,我是在事后检查的时候才发现的。如果说 VPS 事件是 "CLI 犯了一个可以回滚的错误",那 Agent 删文件就是另一个量级——它跨过了"执行任务"和"修改环境"之间的隐形门槛。
类似的事故在行业层面也在发生。2026 年 1 月,OpenClaw 被报出 CVE-2026-25253 远程代码执行漏洞(CVSS 评分 8.8)。数千个配置不当的实例被发现暴露在公网上。3 月份 CNCERT 发布限制令,禁止在国有企业和政府机构中使用。KDNuggets 梳理已知风险的时候提到一个案例:Agent 误删了用户的邮件。听起来像段子,细想让人后背发凉。
所以我把 OpenClaw 放在虚拟机里运行——物理隔离是我目前能找到的最硬的边界,即使它越权,损害也被限制在一个可以快照回滚的沙箱里。但另一面是,Nvidia 的 Jensen Huang 在 GTC 2026 上把 OpenClaw 比作 "Linux、Kubernetes、HTML 级别的重要性"。能力和信任之间的落差,现在还太大。
三种场景的对比
| 维度 | IDE | CLI | Agent |
|---|---|---|---|
| 人的角色 | 合著者 | 指挥官 | 授权方 |
| AI 的角色 | 上下文助手 | 执行器 | 代理人 |
| 上下文 | 人主导 | 几乎无需 | 必须自主维护 |
| 信任要求 | 中 | 低 | 高 |
| 失控的代价 | 注意力碎片 | 环境被覆写 | 原始文件消失 |
| 我踩过的坑 | deep research 确认地狱 | VPS 代理配置被删 | 原始文件被删 |
Part 3 · 从 IDE 到 CLI 到 Agent:一条正在发生的演进
上面三种场景看起来是并列的,但回头看我这半年做的项目,会发现重心一直在移动。
早期做视频人物重识别系统的时候——YOLOv8 + DeepSORT + InsightFace + CLIP,四个模型做特征融合、EMA 平滑、时空互斥聚类——每一个模块细节的执行我都要亲自去部署。只能在 IDE 里,我是主控。
后来做口播视频自动切分的时候,流程已经标准化了:音频提取 → ASR 转写 → LLM 分析叙事单元 → FFmpeg 切片。我开始把其中的环节交给 CLI——"帮我写一个 SenseVoice 的批处理脚本",然后我只验收输出质量。
到最近在设计 Manim 动画的 Agent Workflow——目标是让一个 Agent 接收学术概念描述,自己写 Manim 代码、自己渲染、自己检查质量、不合格就自己重来——如果这条路跑通,人只需要在最后看一眼视频说"行"或"不行"。
这三个项目正好对应了三种工具。每往后走一步,人的角色就退后一格:从写每一行代码,到审核输出质量,到只看最终结果。我没有有意设计这条路径,是模型能力推着我走的。
回看过去两年的工具变迁——Cursor 到 Claude Code 到 OpenClaw——也是同一个方向。实际情况比"大家都从 IDE 跑到了 CLI"要微妙:很多开发者把 Cursor 当交互式开发环境,同时把 Claude Code 当深度重构和代码分析的后台引擎——两者互补着用。但重心偏移的方向很清楚:人需要干预的粒度越来越粗。
问题是这个偏移能走多快。Part 2 里我讲的三个事故——deep research 的确认碎片、VPS 配置被覆写、Agent 删除文件——全都指向同一件事:工具还不知道什么时候该自治、什么时候该停下来问人。能力在涨,但做错了以后的代价谁来承担这件事,到现在也没有好的答案。
所以我目前的分工仍然是三轨并行:IDE 维护需要自己理解和控制的复杂项目,CLI 帮我完成具体组件或特定任务,Agent 在虚拟机沙箱里试探性地接手更多流程。三者之间的边界在流动——每次模型能力跳一个台阶,我就把一些 IDE 的任务推给 CLI,把 CLI 的推给 Agent。但推的前提是,我能承受它搞砸的最坏情况。
Part 4 · 我的操作原则
这三个坑踩完,我才搞清楚这些工具分别该放在什么位置上。
第一条来自 VPS 事件:涉及系统配置的操作,必须先出计划。读文件、查资料这些我无所谓,让它自己跑就行。但一旦要碰网络配置、安装新依赖、改系统环境——先告诉我你打算做什么,风险是什么,怎么回滚。我签了字再动。那次代理服务器被删的根本原因就是一个重操作被当成了轻操作静默执行。
第二条来自 deep research 事件:确认应该分级,而且宁粗勿细。让我审核"整体方向对不对",我很乐意;但别让我逐步签字每个搜索关键词,那只是在消耗我的注意力来降低工具自己的风险。干重活之前告诉我四个东西就够了:你打算做什么、预期结果、可能的风险、出了事怎么回滚。
第三条来自 Agent 删文件事件:场景隔离是默认策略。核心开发在 IDE,一次性任务在 CLI,Agent 只在虚拟机沙箱内启用。我个人的底线是:在预定义的沙箱边界内你可以自主行动,超出边界先给我看计划。碰系统配置,默认不自动执行。
第四条是我现在最深的体感:工具越界的代价比工具不够聪明的代价大得多。我宁可多花十分钟手动做一步,也不想花一小时回滚一次自动化搞出来的事故。
结语
今天 CLI、IDE 和 Agent 是分工关系,各有场景、各有边界。随着模型能力继续涨,Agent 会逐步接管前两者的地盘——我赌这条路走得通,但速度取决于信任机制能不能跟上来。目前的答案是跟不上,所以我还在三轨并行,一边用一边观察,一边把工具推向边界,一边提防它越过我的边界。
我们想要的其实不是一个更强的助手,而是一套更稳的秩序。
写于 2026 年 3 月。这篇文章在 Antigravity IDE 里完成结构设计和素材整合,用 Gemini CLI 做了部分资料检索。OpenClaw 没有参与——它还没挣到这份信任。