这壁垒……一夜走红的Manus,现在已经有了开源复刻版!
5个人3个小时,一个完全免费、无需排队等待的OpenManus就做好了。
至于复现程度,还是直接看Manus官方和开源团队提供的demo对比。
作为全球首款通用智能体,官方提供的case如下:
而OpenManus团队三小时复刻的成果是酱婶儿的:
效果大家自己感受一下。
对于动手能力强的小伙伴儿,也期待大家自行体验后留言反馈。
从开源反推Manus的实现路径
与此同时,通过深扒OpenManus,我们其实还可以看出一条实现Manus的合理路径。
(当前Manus使用了哪家模型、Agent框架等具体细节处于保密状态)
概括而言,OpenManus的背后有三大关键:
- 拥有模块化Agent系统;
- 具备实时反馈机制;
- 配备了一整套强大的工具链;
展开来说,其核心设计就在这种模块化Agent系统。开发者可以根据需要自由组合不同的功能模块,从而创造出独特的AI助手。
在OpenManus中,拥有不同分工的Agent会协作完成需求理解、规划、行动等任务。
比如Manus主代理就像项目经理,负责理解用户需求并完成分工;PlanningAgent作为规划员,负责将复杂任务进一步拆解成可执行的步骤;而ToolCallAgent则是技术专家,负责掌管各类工具使用。
以上这一套都是靠开源团队曾经提出的MetaGPT(一个多智能体框架)实现,开发者可以自由集成多个合适的大语言模型。
此外,OpenManus的另一关键在于其思维过程是公开透明的。
正如开头提到的例子,拿到任务后,OpenManus如何思考问题,如何规划执行……全都能实时反馈。
这为人类在合适时间进行干预提供了“窗口”,有助于更高质量完成任务。
最后不得不提到Agent对工具的使用。
为了完成复杂任务,OpenManus也配备了一系列“外援”:
- 浏览器自动化:像人类一样操作浏览器,自动分析网络信息并交互;
- 各种代码执行器:能够实时生成和执行代码;
- 文件处理:自动生成和管理各类文档;
需要注意的是,各类工具都不是单独的模块,而是需要协同设计。
将以上组合在一起,这类多智能体系统的一般架构为:底层由各类大语言模型构成,中间层通过多智能体协作拆解任务,执行层调用各类API接口完成具体操作。
总之,按照OpenManus作者的总结,这一开源成果结合了computer-use、基本的Agents以及融合了规划能力。
正如OpenManus团队在项目致谢中提到的,Claude厂商Anthropic去年上线的computer-use,以及YC投资的项目browser-use,都给OpenManus提供了基础支持。
顾名思义,这两个项目分别被用来操作电脑和浏览器,而在沙盒环境中操纵正是Manus工作的一大核心特征。
5人开发团队,3小时完成复刻
OpenManus团队只用了1个小时就完成了核心系统,整体也只用了3个小时。
核心作者梁新兵介绍,OpenManus的火速上线,来源于MetaGPT积累下的技术沉淀。
(注:MetaGPT是一个多智能体框架,为了处理复杂任务,将不同的角色分配给GPT模型,形成一个协作性“软件公司”。)
我们只是把浏览器工具链嫁接到过去代码上,配合沉淀的Agent工具包。
几位研发成员,也都是来自MetaGPT团队。
“开源版Devin”——数据解释器(Data Interpreter),也是出自MetaGPT团队之手。
OpenManus核心作者梁新兵,毕业于华东师大,还在读时就参与了Data Interpreter的工作。
另一名核心作者向劲宇,本科就读于西南交通大学应用物理系。
去年,读大四的他和队友一起使用GPT-4与Claude 3组成多智能体的方案,让AI分饰多个角色、相互验证来完成答题步骤,获得了阿里巴巴数学竞赛AI赛道全球第二名。
在MetaGPT社区,向劲宇还和其他成员一起,让智能体成功在“我的世界”当中采集到了钻石。
甚至他还曾经让智能体假扮知乎大V,回答了100多个问题,获得3万余次阅读,还有赞同、反驳甚至私信关注,结果直到他主动停止,AI的身份都未被发现。
张佳钇,去年本科毕业于中国人民大学高瓴人工智能学院,现在是港科大(广州)在读博士,被ICLR 2025接收的智能体框架AFlow,他和向劲宇是共同一作。
于兆洋,张佳钇在人大的同级同学;洪思睿,MetaGPT和Data Interpreter两篇论文的共同一作,DeepWisdom高级研究员,香港科技大学硕士,本科毕业于暨南大学。
AFlow的作者当中,也有于兆洋和洪思睿的名字。
[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表炎黄立场。