主页 归档 关于 /now /colophon 异次元之旅
返回归档
札记 2026年6月25日 · 约 9 分钟

对AI工作流的认识分享

——————本篇长期更新修正——————

前言

AI掀起的不是革命,是效率的进步,它目前来说并未带来生产关系的改变,因此目前的AI只能作为工具去使用。如果AI要掀起新一轮工业革命,应该要达到强人工智能水平,具身智能,释放人类向创造性工作转变。显而易见的是,那可能还需要10~20年,尽管目前有世界模型、机器人等前沿探索。其普及的速度受到技术、成本、能源、效率的影响。

对于一般人而言,使用AI仅仅是作为“更强的浏览器”使用,亦或者是作为虚拟陪伴。再进一步,到一般的办公场景,洗数据、查资料、写Word、PPT、Excel等,AI能带来显著的效率飞跃,这是其对于工作效率的助力。再深入一点,它能帮助一个领域外的人,进入到其未曾学习、探索过的领域。这也是我目前走到的一步,哪怕是最简单的网页,HTML、CSS、Javascript等繁多的参数看得我眼花缭乱,我只学习了一点点,实际上我并不太懂,但是我能借助Agent、Coding来搭建网站,并且在其帮助下成功部署,这是AI目前最有价值的地方。目前AI强覆盖的领域并不多,但是随着AI的发展,其能覆盖到的领域,就是能熟练使用AI的人所能扩展到的领域。从这一点来说,AI有一点掀起新革命的苗头,但是其更具价值的还是将人从西西弗斯式的工作中解放出来,发挥人应有的创造力、生产力。

起初想顺着时间展开,但是第二天再编辑的时候想想,这样并不适合总结——太繁琐了。想了想按照使用深度来说吧,一开始当增强版的搜索引擎,然后逐渐开始问AI概念,再一起共同产出,到现在的AI代理。我提供想法、概念,AI执行,最后由我判断是否合格,再整合。总体上是一个使用方法递进的过程,从工具延申到主动探索,接下来就是详细叙述了。

第一章 对AI的认识过程

最早认识AI,是在Bilibili上看到ChatGPT的视频,了解到它的新奇,然后使用了一点小手段去尝试使用、对话,当时确实感觉很新奇。为了薅羊毛,到处找有免费额度的服务提供商,例如什么SiderAI、奇怪的中转站之类的,每天有20-30次免费对话额度,哪时的需求不多,也刚好够用。随着AI版本的迭代、能力的跃升、国产大模型的推出,使用频率越来越高了,也开始接触国产大模型。最先使用的应该是Kimi,还是经由水力学课程的老师推荐使用的,在国产AI中,Kimi在模型能力上算得上名列前茅吧(虽然总数不多)。然后就成了Kimi的重度用户,当时Kimi还没开启订阅服务(纯免费),模型能力也不差,还是国内最早探索PPT、Looong长文的模型,用上就感觉离不开了。不过在重度使用Kimi时,也没有“冷落”其它AI吧,想要能力更强——就用点科学去用国际上的模型,额度不够用了——薅其它AI的羊毛,有新模型发布了——去探索一下,看看是真🐮🍺还是打肿脸充胖子。这样主流的模型都知道大体情况,反正AI在迭代的过程中需要“免费”的用户提供语料与反馈用于训练,用户得到了AI的使用额度,厂商获得了数据和潜在用户粘性,适当的情况下两全其美。随着使用方法的扩展、需求的上涨,开始使用付费、订阅服务,事无巨细先问问AI。这时了解AI发展的信息渠道从媒体平台(Bilibili)扩展到了服务提供商(月之暗面、阿里千问、智谱等等)和社媒,开始关注起AI的使用性价比,AI的能力,多模态等等。当Kimi推出Agent模式时,才开始探索使用并了解其概念,不过当时Kimi的Agent能够解决我的绝大部分需求,便没有拓展界面。下一个认识突破点还是Bilibili打开的,Codex火起来只是在计算机圈吧(我是这么感觉的),OpenClaw感觉太难部署了,Hermes的“自进化”、长期记忆、便捷安装等等直接进入我的视野,然后就在自己的电脑上下载了,说起来到现在也就用了两三个月,期间还了解了Dify,但是那个编排还是更适合学习计算机方面的人使用的,玩了一会无审查模型后就没用了(还躺在电脑里)。Hermes带来的体验是远超网页端Agent的,通过它熟练使用了脚本、命令行,此前只觉得脚本看不懂,命令行不会写之类的,现在只要描述需求,让AI写出来并附加解释,用的久了就懂了。总而言之,对于AI的认识探索,还是基于好奇心和媒体平台的分享,从简单对话到任务执行,不只是认识的递进,也是AI技术发展的递进。

最初使用AI完全是奔着角色扮演去的,“你是谁呀?”“你能作甚么?”只图个新奇。后来上课查询新概念、解决计算简单但是步骤繁多的作业、甚至实习时对齐Excel数据,都使用了AI,那时还是网页端对话式的模型。深度搜索功能我是最先在Grok上发现的,拿这个功能搜索资料,文献等等很棒,当时刚好碰上一点小组作业,就应用上了这个功能,很惊艳。随后在Gemini、Kimi中也发现了相关功能。25年底Agent出现,“帮我写Word”“帮我写PPT”“帮我查资料”等等,最后毕业论文的文献资料、数据处理,都使用了AI进行处理。

第二章 使用AI的方法

AI的使用,需要从输入、输出、反馈几个方面入手,输入方面主要是提示词工程、需求表达组织等方面,而输出方面则主要是成果审查,反馈主要用于长线任务的路线修正,用于抵抗AI幻觉导致的任务偏离。

由于使用的AI在中文语义理解上都比较强,因此我没有太过深入了解提示词工程,仅在日常提示词中加入适量约束避免其偏离预想。而需求表达方面,em......这个不好说,看个人的语文能力吧,毕竟在医疗系统中,医生常反馈“患者不说谎、能清晰表达问题需求等就谢天谢地了。”不是所有人都能描述清楚自己需求,我有些疲惫的时候也是胡言乱语。如果说自己表达不清需求的话,有个办法可以解决提示词问题——寻找语义理解强的AI,一股脑说进去让AI总结归纳组织语言,然后再给执行任务的AI。只要需求明确,以目前的模型能力,任务处理基本上没有问题。也就是说:在AI语义理解足够强的今天,清晰、无歧义的自然语言就是最好的提示词工程。

成果审查是保证长线任务不走偏的主要手段,主要面向生产。目前的AI没有自主决策能力,或者说不会思考需求起点,主动决策那是强人工智能的事了。目前的AI只能视作工具,将完成任务想象成开车,需求是目的地,AI就是汽车,人是驾驶者,只不过多半情况下是自动驾驶。由于AI幻觉的存在,长线任务难免会跑偏,不同AI间也有不同的指令遵循逻辑。不必去想AI是如何遵循指令的,在使用的过程中,审查结果是否符合预期,将差异点列出并指明方向,AI就能开到目的地。

反馈是保证AI提供的建议、决策不出错的主要手段,主要面向决策、辅助。跟AI及时反馈决策的效果、问题等各方面因素,AI不断调整决策,以渐近优化。

第三章 Agent框架

通用Agent

目前我主要使用的Agent框架是Hermes,其技能自动创建、上下文压缩、长期记忆是我最看重的点,在Hermes之前,OpenClaw是最受欢迎的Agent工具,但是其Skill需要自己提供,这存在一定门槛,我懒得折腾,所以选择了Hermes。不过Hermes只能用于工作,对于角色扮演来说,它的记忆匹配能力还是有点差的。

另外我还使用过Dify,主要是用于角色扮演,看重其知识库的检索能力,但是实际使用下来并不如意,角色扮演还是没有长期记忆。

另外腾讯的马维斯Marvis我也有所体验(给我篇都翻出来了),目前免费额度大,多端互通还能远程控制,不需要配置环境。对于办公需求的人来说,马维斯挺不错,但是任务处理它还是太笨了。听说是混合使用了腾讯自家的混元以及梁圣的DeepSeek(那混元的调用频率还挺高的)。总之马维斯只适合查资料、简单的电脑操作以及办公。

代码Coding

写代码方面,我最早是使用Kimi Code直接在VS Code里处理,订阅过期后就没有续订了(额度真的很少)。使用Hermes处理了一段时间(期间完成了项目的大体),随后雷总的Mimo模型横空出世,mimo Code飞入寻常百姓家,免费一个月!哇,薅羊毛。mimo的代码能力和DeepSeek V4 Pro不相上下,很多时候DS的Bug mimo改,mimo的Bug DS改,体感上确实差不多。GLM 5.2在6月中旬发布时,测评参数都很不错,于是下载使用了智谱清言的Z Code,两周的免费额度,偶尔拿出来解决下DS和mimo都解决不了的Bug,水平比DS和mimo强一点。另外体验的就只有Codex了,GPT偶尔搬出来救救场子。而谷歌的反重力Antigravity我的账号无法使用,最近在想法子注册个新账号。

第四章 工作流

决策/规划Agent + 执行Agent + 修补Agent

#AI #Agent #工作 #效率
Comments Open
友善交流,理性表达 Ctrl + Enter 发送

暂无评论,来说点什么吧