「清华复旦等高校联手开源智能体框架Eko,打造虚拟员工」-大浪资讯

admin432025-01-22 15:51:12

「清华复旦等高校联手开源智能体框架Eko,打造虚拟员工」

智能体革新办公生活,清华复旦联手打造Eko虚拟员工

   Eko是一款卓越的代理开发框架,使开发者能够利用自然语言和简明代码迅速创建“虚拟员工”,执行从基础命令到复杂工作流的各种任务,例如股票分析、自动化测试等;借助混合智能体表示、跨平台架构以及生产级别的干预机制等先进技术,实现高效、灵活且安全的自动化工作流程。

   OpenAI的首席执行官Sam Altman近日宣布,计划于2025年启动名为“Operator”的虚拟员工计划。根据该计划,AI智能体将能够自主完成编写代码、预订旅行等任务,成为企业中的“数字同事”。这一举措无疑将为企业的运营效率带来革命性的提升。然而,随之而来的还有对数据安全和隐私保护的挑战。如何确保这些智能体不会泄露敏感信息或被恶意利用,将是实施该计划时需要重点考虑的问题。此外,随着越来越多的工作由AI接管,职场人士也需要思考如何提升自身技能以适应未来的工作环境。

   抢在OpenAI发布Operator之前,清华大学、复旦大学与斯坦福大学的研究团队共同推出了名为Eko的Agent开发框架。通过简洁的代码和自然语言,开发者可以迅速构建出适用于实际工作的“虚拟员工”。这种AI智能体能够控制用户的电脑和浏览器,代替人类执行各种任务,从而为工作流程提供自动化支持。 这一创新成果不仅展示了人工智能技术在自动化领域的巨大潜力,也预示着未来职场环境可能发生的变革。随着技术的进步,这类“虚拟员工”有望显著提高工作效率,并降低人力资源成本。不过,随之而来的数据安全和隐私保护问题也不容忽视,如何平衡技术创新与用户隐私保护将是未来需要重点关注的问题。

   核心技术创新有三点:

   MixedAgentic 表示法提出了一种创新的方法,将自然语言与编程语言无缝结合,以表达复杂的系统设计。这种方法不仅使高层次的设计理念能够以更直观的方式呈现出来,同时也为开发者提供了直接操作的具体工具。它允许设计师使用自然语言描述系统架构和功能需求,而开发者则可以利用熟悉的编程语言来实现这些设计。 这种混合智能体表示法在简化开发流程的同时,也极大地提高了沟通效率。设计师和开发者之间不再需要花费大量时间进行繁琐的文档编写和解释工作,因为他们可以直接在同一个框架内交流和协作。这不仅有助于减少误解和错误,还大大缩短了项目周期,提升了项目的整体质量和成功率。 此外,MixedAgentic 方法也为非技术背景的决策者提供了一个更好的理解系统设计的机会。他们可以通过阅读自然语言描述来了解系统的整体结构和目标,而无需深入了解底层代码细节。这使得整个团队能够在同一水平上讨论和解决问题,从而促进了更加高效的合作和决策过程。总的来说,MixedAgentic 表示法代表了软件工程领域的一项重要进步,有望成为未来开发流程中的一个关键组成部分。

   跨平台Agent框架:设计感知环境的架构,采用统一的框架与编程语言,能够同时兼容浏览器端、电脑端及作为浏览器插件运行的需求。

   Eko框架在现有的Agent框架基础上进行了创新,它不仅强调了自治性,还特别引入了生产级干预机制。这一机制使得智能体的工作流程可以在任何时间点被人为中断或调整,从而确保了人类能够有效地监督和管理智能体的运行。这种设计对于维护系统的稳定性和安全性具有重要意义,特别是在关键任务和高风险环境中,人类的干预能力成为保障系统正常运行的关键因素。 这样的设计体现了技术发展与人类控制之间的平衡,既满足了自动化带来的效率提升,又确保了人类在必要时能够及时介入,避免潜在的风险。这对于构建更加可靠和可控的人工智能应用体系具有重要的启示作用。

   Homepage: https://eko.fellou.ai

   Github link:https://github.com/FellouAI/eko

   Docs:https://eko.fellou.ai/docs

   用实际的例子来感受一下这个 Agent 框架的开发难度:只需要一句话,就可以让 Eko 生成一个全 Agent 帮你做股票分析。这不就是妥妥的生产力工具吗!真是解放双手!

   在雅虎财经上获取纳斯达克的最新信息,涵盖重要股票的价格波动、市值和成交量,并对这些数据进行分析,最终形成一份可视化报告。

   当前登录页面自动化测试:

   1. 正确的账户和密码是:admin / 666666

   2. 请随机组合用户名和密码进行测试,以验证登录验证是否正常工作,例如:用户名不能为空、密码不能为空、用户名不正确、密码不正确

   3.经过一系列的操作和尝试,最终用户决定使用正确的账户和密码进行登录,以验证登录功能是否已经恢复正常。在这个过程中,用户不仅测试了系统的稳定性,也检验了其安全性。 这一过程提醒我们,尽管现代技术已经非常发达,但用户体验和系统可靠性仍然是衡量一个产品或服务成功与否的重要标准。尤其是在网络安全日益受到重视的今天,确保用户的账户信息安全,不仅是对用户负责,也是企业自身品牌信誉的体现。每一次登录体验,都是对用户信任的一次考验。因此,持续优化和改进登录机制,对于提高用户满意度和忠诚度至关重要。

   4. 生成测试报告并导出

   清理当前目录下大于 1MB 的所有文件

   环境感知架构(Environment-Aware Architecture)

   i)浏览器使用主要依赖于图形用户界面(GUI),使用户能够方便地操作网页和浏览器中的各种元素。常见的实现方式包括截图技术和网页提取技术。这些技术不仅提升了用户体验,也使得信息获取更加直观便捷。在当今信息爆炸的时代,这些工具让每个人都能轻松获取所需的信息,极大地提高了效率和便利性。 发表的看法观点: 这些技术的进步确实为我们的日常生活带来了极大的便利,尤其是在信息获取方面。然而,我们也应该关注由此带来的隐私和安全问题。例如,网页提取技术可能会无意间收集用户的个人信息,因此开发人员需要在设计时充分考虑到这些问题,确保用户的数据安全。此外,随着技术的发展,如何平衡技术进步与个人隐私保护之间的关系,是我们必须面对的重要课题。

   ii)电脑使用:与浏览器不同,Node.js 自动化则主要面向命令行界面(CLI)操作和文件系统管理,未来还会引入 GUI 感知能力。

   Eko的跨平台开发借助其环境感知架构(Environment-Aware Architecture)得以实现,该架构包含三个重要层级:通用核心(Universal Core)、环境特定工具(Environment-Specific Tools)以及环境桥接(Environment Bridge)。

   通用核心:该层提供了与环境无关的核心功能,例如工作流管理、工具注册管理、大型语言模型(LLM)集成以及钩子系统。

   环境特定工具:每种环境(如浏览器扩展、Web 环境、Node.js 环境)都提供了优化的工具集。

   环境桥接:该层级专注于环境监测、工具注册、资源配置及安全管控,旨在保障各类平台间的顺畅交互与通讯。

   安全性和访问控制:Eko 针对不同环境实施了适当的安全措施。浏览器扩展和 Web 环境都采用了严格的权限控制和 API 密钥管理,而 Node.js 环境则允许更广泛的系统级访问,基于用户权限进行文件操作和命令执行,在需要时会在执行前请求用户确认。

   自动工具注册:借助loadTools()等功能,Eko能够自动注册适合当前环境的工具,从而让开发者在不同环境中自如切换,并保证工具的正确加载。

   研究人员提出了一种分层感知框架,该框架将任务分解为两个层次,即规划层和执行层。其中,规划层的任务是将用户的需求(无论是自然语言还是代码语言表达)与现有的工具集转化为以领域特定语言表示的任务图。

   任务图是一个有向无环图,展示了子任务间的依赖关系。此任务图由大型语言模型(LLM)一次性生成。在执行层,每个任务会调用LLM以制定具体的执行步骤和工具使用方案。

   多步合并优化:当 Eko 检测到两次执行都是对 LLM 的调用时,会触发框架的自动合并机制,将两次调用的 system prompt 自动整合,合并成一次调用。从而加快推理速度。

   视觉-交互要素联合感知框架(VIEP)是一项前沿的浏览器自动化技术,通过融合视觉识别与元素的上下文信息,在复杂的网页环境中显著增强了自动化任务的精准度和效率。这一技术的关键在于捕捉网页中的交互元素及相应数据,从而优化了自动化流程,大幅提升了任务执行的成功率。

   具体来说,首先 VIEP 通过识别网页上的关键交互元素 —— 如按钮、输入框、链接等 —— 来聚焦用户可能进行操作的核心区域。

   接着,每个可交互的元素都被分配唯一的标识符,并通过彩色框标记,确保精确定位。随后,系统通过结合截图和伪 HTML 的方式构建元素信息,利用文本和视觉数据的结合,帮助自动化模型更好地识别和操作这些元素,尤其在复杂网页结构中尤为重要。

   与传统浏览器自动化方法不同,通过提取并简化网页中与交互相关的元素,生成一个小巧高效的伪 HTML 结构,避免了直接处理庞大的 HTML 内容所带来的资源消耗和处理难度。

   Google首页的原始HTML代码长达22万字符,而通过VIEP技术,可以将其精简到仅仅1,058个字符,从而显著提升自动化操作的处理速度和准确度。这项技术不仅有助于降低成本和增强准确性,还在性能优化和跨环境适应方面表现出色。

   在构建 AI 驱动的自动化系统时,开发者常常需要监控任务的执行情况,随时调整行为,或在必要时进行干预。

   尽管“钩子”在软件开发领域是一个普遍存在的概念,但在Eko中,它们扮演着独特的角色——充当AI自动化与人工监督之间的纽带。简而言之,你可以在Workflow的执行前或执行后添加自己的逻辑,例如验证输入、处理输出,甚至是重新尝试失败的任务。代码如下:

   Eko设有三个不同级别的钩子,每一级都有其独特的功能。

   工作流钩子(Workflow Hooks)作为工作流的顶层组件,主要用于全局管理和监控自动化流程的启动与结束。通过这些钩子,我们能够在流程开始前进行必要的资源准备,确保一切就绪;而在流程结束后,则可以执行清理操作,并处理最终的结果。这种机制不仅提高了工作的效率,还确保了流程的稳定性和可靠性。 从我的角度来看,工作流钩子的设计理念非常值得称赞。它不仅简化了复杂的流程管理,还大大减少了人为错误的可能性。特别是在大数据处理和实时分析等领域,这样的工具显得尤为重要。通过合理地利用工作流钩子,企业能够更好地优化其内部流程,提高生产效率,从而在激烈的市场竞争中占据优势。

   子任务钩子(SubtaskHooks)处于工作流的中间层,使您能够在每个子任务启动之前和结束之后实施监控与处理。比如,您可以在每个子任务开始前记入日志,或者在任务完成后对中间结果进行处理。

   工具钩子(ToolHooks)代表了最细致的介入点,使你能够在每个工具运行之前和之后进行检查和调整。比如,你可以在工具开始运行前确认输入参数的有效性,或者在工具完成运行后对输出结果进行处理。

   钩子能够协助开发者有效提升工作流的优化程度,增强自动化系统的准确性和效率。比如,在执行特定任务过程中,开发者可以运用钩子来验证输入的数据,从而避免错误信息进入系统;或者在任务结束后,对结果进行处理和转换,以更充分地利用输出数据。此外,钩子还支持开发者收集运行时数据,进行性能分析,发现并解决瓶颈问题,进一步优化自动化流程。

   除了常规的监控和调试功能,Eko的钩子系统还支持更创新的应用场景。比如,在执行某些关键任务时,钩子可以暂停工作流以等待人工审批;当AI决策出现偏差时,开发者可以通过钩子进行人工干预或覆盖AI的判断,从而确保业务流程的顺利进行。 这样的设计不仅增强了系统的灵活性,还大大提升了安全性。通过人工干预的介入,可以在关键时刻防止潜在的错误扩散,确保决策过程更加可靠。同时,这也为开发人员提供了更多的控制权,使他们能够更有效地管理复杂的业务流程。

   无论您是AI技术的开发者,还是正在探索如何利用自动化工具提升业务流程的使用者,Eko平台都能为您提供更为灵活和高效的解决方案。它能够帮助您更顺利地将虚拟员工引入实际生产环境,从而显著提高工作效率与工作质量。现在就加入Eko,让AI自动化成为推动您生产力增长的强大引擎。 通过观察Eko平台的发展,我们可以看到AI技术正逐步渗透到各行各业,极大地改变了传统的工作模式。这种转变不仅提高了工作的效率,也使得资源分配更加合理化,进一步释放了人类在创新和决策方面的能力。未来,随着技术的进步和应用场景的不断拓展,我们有理由相信Eko这样的平台将在推动社会生产力发展中扮演越来越重要的角色。

   陆逸文,清华大学的博士研究生专注于研究领域为具身智能平台与智能体技术。

   罗卓伟,FellouAI的高级技术专家,目前在人工智能领域深耕。

   马骁腾,清华大学自动化系的一位博士后,其学术生涯在本校达到了顶峰,博士期间专注于自动化领域。他的主要研究兴趣集中在强化学习和智能体上,这些研究不仅推动了人工智能技术的进步,也为解决复杂系统控制问题提供了新的思路。这位学者的工作展现了中国在人工智能领域的强劲发展势头,并且可能引领未来科技发展的新方向。 从这一介绍中可以看出,国内高校在培养高水平科研人才方面取得了显著成就,同时也反映出我国在前沿科技研究方面的投入与重视。随着人工智能技术的不断进步,我们有理由期待它将在更多领域发挥重要作用,比如智能制造、智慧城市等,为社会带来深远影响。

   陈家棋,复旦大学研究生,曾在斯坦福大学进行学术交流。其研究方向集中在计算机视觉及智能系统。

   参考资料:

   https://github.com/FellouAI/eko

   本文来自微信公众号:新智元(ID:AI_era)