对AI工作流的认识分享

——————本篇长期更新修正——————

前言

AI掀起的不是革命，是效率的进步，它目前来说并未带来生产关系的改变，因此目前的AI只能作为工具去使用。如果AI要掀起新一轮工业革命，应该要达到强人工智能水平，具身智能，释放人类向创造性工作转变。显而易见的是，那可能还需要10~20年，尽管目前有世界模型、机器人等前沿探索。其普及的速度受到技术、成本、能源、效率的影响。

对于一般人而言，使用AI仅仅是作为“更强的浏览器”使用，亦或者是作为虚拟陪伴。再进一步，到一般的办公场景，洗数据、查资料、写Word、PPT、Excel等，AI能带来显著的效率飞跃，这是其对于工作效率的助力。再深入一点，它能帮助一个领域外的人，进入到其未曾学习、探索过的领域。这也是我目前走到的一步，哪怕是最简单的网页，HTML、CSS、Javascript等繁多的参数看得我眼花缭乱，我只学习了一点点，实际上我并不太懂，但是我能借助Agent、Coding来搭建网站，并且在其帮助下成功部署，这是AI目前最有价值的地方。目前AI强覆盖的领域并不多，但是随着AI的发展，其能覆盖到的领域，就是能熟练使用AI的人所能扩展到的领域。从这一点来说，AI有一点掀起新革命的苗头，但是其更具价值的还是将人从西西弗斯式的工作中解放出来，发挥人应有的创造力、生产力。

起初想顺着时间展开，但是第二天再编辑的时候想想，这样并不适合总结——太繁琐了。想了想按照使用深度来说吧，一开始当增强版的搜索引擎，然后逐渐开始问AI概念，再一起共同产出，到现在的AI代理。我提供想法、概念，AI执行，最后由我判断是否合格，再整合。总体上是一个使用方法递进的过程，从工具延申到主动探索，接下来就是详细叙述了。

第一章对AI的认识过程

最早认识AI，是在Bilibili上看到ChatGPT的视频，了解到它的新奇，然后使用了一点小手段去尝试使用、对话，当时确实感觉很新奇。为了薅羊毛，到处找有免费额度的服务提供商，例如什么SiderAI、奇怪的中转站之类的，每天有20-30次免费对话额度，哪时的需求不多，也刚好够用。随着AI版本的迭代、能力的跃升、国产大模型的推出，使用频率越来越高了，也开始接触国产大模型。最先使用的应该是Kimi，还是经由水力学课程的老师推荐使用的，在国产AI中，Kimi在模型能力上算得上名列前茅吧（虽然总数不多）。然后就成了Kimi的重度用户，当时Kimi还没开启订阅服务（纯免费），模型能力也不差，还是国内最早探索PPT、Looong长文的模型，用上就感觉离不开了。不过在重度使用Kimi时，也没有“冷落”其它AI吧，想要能力更强——就用点科学去用国际上的模型，额度不够用了——薅其它AI的羊毛，有新模型发布了——去探索一下，看看是真🐮🍺还是打肿脸充胖子。这样主流的模型都知道大体情况，反正AI在迭代的过程中需要“免费”的用户提供语料与反馈用于训练，用户得到了AI的使用额度，厂商获得了数据和潜在用户粘性，适当的情况下两全其美。随着使用方法的扩展、需求的上涨，开始使用付费、订阅服务，事无巨细先问问AI。这时了解AI发展的信息渠道从媒体平台（Bilibili）扩展到了服务提供商（月之暗面、阿里千问、智谱等等）和社媒，开始关注起AI的使用性价比，AI的能力，多模态等等。当Kimi推出Agent模式时，才开始探索使用并了解其概念，不过当时Kimi的Agent能够解决我的绝大部分需求，便没有拓展界面。下一个认识突破点还是Bilibili打开的，Codex火起来只是在计算机圈吧（我是这么感觉的），OpenClaw感觉太难部署了，Hermes的“自进化”、长期记忆、便捷安装等等直接进入我的视野，然后就在自己的电脑上下载了，说起来到现在也就用了两三个月，期间还了解了Dify，但是那个编排还是更适合学习计算机方面的人使用的，玩了一会无审查模型后就没用了（还躺在电脑里）。Hermes带来的体验是远超网页端Agent的，通过它熟练使用了脚本、命令行，此前只觉得脚本看不懂，命令行不会写之类的，现在只要描述需求，让AI写出来并附加解释，用的久了就懂了。总而言之，对于AI的认识探索，还是基于好奇心和媒体平台的分享，从简单对话到任务执行，不只是认识的递进，也是AI技术发展的递进。

最初使用AI完全是奔着角色扮演去的，“你是谁呀？”“你能作甚么？”只图个新奇。后来上课查询新概念、解决计算简单但是步骤繁多的作业、甚至实习时对齐Excel数据，都使用了AI，那时还是网页端对话式的模型。深度搜索功能我是最先在Grok上发现的，拿这个功能搜索资料，文献等等很棒，当时刚好碰上一点小组作业，就应用上了这个功能，很惊艳。随后在Gemini、Kimi中也发现了相关功能。25年底Agent出现，“帮我写Word”“帮我写PPT”“帮我查资料”等等，最后毕业论文的文献资料、数据处理，都使用了AI进行处理。

第二章使用AI的方法

AI的使用，需要从输入、输出、反馈几个方面入手，输入方面主要是提示词工程、需求表达组织等方面，而输出方面则主要是成果审查，反馈主要用于长线任务的路线修正，用于抵抗AI幻觉导致的任务偏离。

由于使用的AI在中文语义理解上都比较强，因此我没有太过深入了解提示词工程，仅在日常提示词中加入适量约束避免其偏离预想。而需求表达方面，em......这个不好说，看个人的语文能力吧，毕竟在医疗系统中，医生常反馈“患者不说谎、能清晰表达问题需求等就谢天谢地了。”不是所有人都能描述清楚自己需求，我有些疲惫的时候也是胡言乱语。如果说自己表达不清需求的话，有个办法可以解决提示词问题——寻找语义理解强的AI，一股脑说进去让AI总结归纳组织语言，然后再给执行任务的AI。只要需求明确，以目前的模型能力，任务处理基本上没有问题。也就是说：在AI语义理解足够强的今天，清晰、无歧义的自然语言就是最好的提示词工程。

成果审查是保证长线任务不走偏的主要手段，主要面向生产。目前的AI没有自主决策能力，或者说不会思考需求起点，主动决策那是强人工智能的事了。目前的AI只能视作工具，将完成任务想象成开车，需求是目的地，AI就是汽车，人是驾驶者，只不过多半情况下是自动驾驶。由于AI幻觉的存在，长线任务难免会跑偏，不同AI间也有不同的指令遵循逻辑。不必去想AI是如何遵循指令的，在使用的过程中，审查结果是否符合预期，将差异点列出并指明方向，AI就能开到目的地。

反馈是保证AI提供的建议、决策不出错的主要手段，主要面向决策、辅助。跟AI及时反馈决策的效果、问题等各方面因素，AI不断调整决策，以渐近优化。

第三章 Agent框架

通用Agent

目前我主要使用的Agent框架是Hermes，其技能自动创建、上下文压缩、长期记忆是我最看重的点，在Hermes之前，OpenClaw是最受欢迎的Agent工具，但是其Skill需要自己提供，这存在一定门槛，我懒得折腾，所以选择了Hermes。不过Hermes只能用于工作，对于角色扮演来说，它的记忆匹配能力还是有点差的。

另外我还使用过Dify，主要是用于角色扮演，看重其知识库的检索能力，但是实际使用下来并不如意，角色扮演还是没有长期记忆。

另外腾讯的马维斯Marvis我也有所体验（给我篇都翻出来了），目前免费额度大，多端互通还能远程控制，不需要配置环境。对于办公需求的人来说，马维斯挺不错，但是任务处理它还是太笨了。听说是混合使用了腾讯自家的混元以及梁圣的DeepSeek（那混元的调用频率还挺高的）。总之马维斯只适合查资料、简单的电脑操作以及办公。

代码Coding

写代码方面，我最早是使用Kimi Code直接在VS Code里处理，订阅过期后就没有续订了（额度真的很少）。使用Hermes处理了一段时间（期间完成了项目的大体），随后雷总的Mimo模型横空出世，mimo Code飞入寻常百姓家，免费一个月！哇，薅羊毛。mimo的代码能力和DeepSeek V4 Pro不相上下，很多时候DS的Bug mimo改，mimo的Bug DS改，体感上确实差不多。GLM 5.2在6月中旬发布时，测评参数都很不错，于是下载使用了智谱清言的Z Code，两周的免费额度，偶尔拿出来解决下DS和mimo都解决不了的Bug，水平比DS和mimo强一点。另外体验的就只有Codex了，GPT偶尔搬出来救救场子。而谷歌的反重力Antigravity我的账号无法使用，最近在想法子注册个新账号。

第四章工作流

决策/规划Agent + 执行Agent + 修补Agent