
第一作者Sun Qiushi是香港大学计算机科学和数据系的博士生,毕业于新加坡国立大学数据科学系。它的主要研究地址是计算机使用代理和代码智能,并在NLP和ML顶级会议ACL,EMNLP,ICLR,COLM等发表了许多文章。本文中的共同团队先前发表的研究导致了OS-ATLAS,OS-GENESIS和SEECICK等计算机代理。近年来,用于支持科学研究的伟大模型代理人默默地改变了背景和动力,LLM和VLM的快速进步已被广泛用于处理自然语言,编程,对图像等的理解等。在科学研究中,与人类知识的积累有关的重要领域,基于这些强大模型的代理人正在成为科学的“新合作者”研究工作流程。在早期,AI在科学中的作用通常是“分析仪”。现在,更容易分析数据,编写文献并生成图形。但是,随着使用计算机(也称为CUA)的代理商的出现,此角色发生了根本性的变化。与传统语言模型的参与者相比,这种类型的代理可以将计算机操纵为人类,单击并拖动,通过图形接口输入命令,编写程序以完成计算任务,并对自动控制真正的科学研究软件进行完全控制。这意味着问题将不再回答,而是会与您积极完成科学任务,并成为AI的合作者,并具有“执行功能”。从对语言的理解到科学研究的实施1-1:复杂的科学研究情景,软件工具的多样性,全新任务的长期周期以及介绍信息中的过程,“使用AI”为了完成真正的科学研究任务,而不是回答科学问题,例如模拟蛋白质结构。我包括星体轨迹,并在乳胶文档中自动订购结果。为了实现此功能,代理必须:软件操作功能:使用图形接口(GUI)和命令行(CLIS)控制复杂的科学工具。理解能力:了解任务背后的科学概念和知识。 Rintermodal经济和计划:图形接口,终端指令和科学数据之间的有效推理和行动。但是,大多数现有的多模式代理系统在一定程度上已经达到了一定的共同任务,例如网页,电子商务,编程等,但他们仍在学习在科学领域中行走。一个非常重要的原因是,它缺乏现实,系统的科学研究环境,并且评估点参考促进代理人“写”关于“可以说”的“可以做”。 1-2科学研究中的空白:缺乏双重环境和评估社区提出了许多对CUA(Webarena,Osworld等)代理的评估,但是这些任务中的大多数都集中在每日场景和一般软件上,其复杂性远非现实的科学研究工作。科学审查员的ScienceQA和科学的代表性任务仍然充满了质量控制和静态代码。在真正的科学探索过程中,软件工具通常需要非标准I/O流,复杂的接口逻辑,在执行和执行多个步骤之前的配置以实现目标。这给代理商带来了前所未有的挑战。因此,我们需要一个可靠的环境才能使代理人独立探索,并且(2)我们需要多场评估多模式参考点才能了解可以完成科学任务的自动化程度。在这种意义上E,我们提出了科学委员会。多模式代理的第一个评估环境,用于科学任务,实际互动和自动化评估。目的是从根本上促进“自动完成科学工作流”的“ AI”研究进展。文章标题:科学委员会:在现实科学工作的方向上对多模式自主代理人进行评估:https://qishisun.github.io/science-home/search机构:香港大学,上学的人工工学研究所,允许大学构建纽约大学的构建,并允许大学构建纽约大学,允许大学构建。通过双重CLI/GUI频道。整个系统具有以下特征:整合多个现场科学研究软件:作为可扩展的环境,将默认软件整合到六个科学学科中,包括生物化学,天文学模拟和地理信息系统。具有灵活选择相互作用方法的代理。自然化机制:每个工作场景都是设备,具有初始化脚本,配置文件和辅助数据,以允许代理从相同的起点开始实验,从而确保其评估的可重复性。可靠的自动化评估机制:作者编制了一组可扩展任务评估特征,这些特征允许数值巧合,范围间隔,状态比较和其他方法在复杂科学操作的绩效水平上实施评估。基于约会的评估)。 2-2行动空间允许代理商使用统一的接口和动作表示来完成多个任务,科学板根据CUA/编码代理的先前工作进行扩展,定义了代理的一般行动空间,涵盖以下类型的操作类型,GUI操作操作:单击[X,Y]等等。]获取GUI终端/软件:Octall_API:OCTALL_API:access atent:访问:访问:访问:访问:访问:访问:访问:访问:访问:访问:访问:访问权限:访问:访问:访问:访问AXT:访问AXT:质量控制。确实有“交叉软件,交叉模态”。 3科学委员会的资格集:高质量的科学研究任务集基于上述多模式科学探索环境的基础设施。 Scienceboard建立了系统性和挑战性的科学研究任务,作为评估AI代理的科学能力的标准参考点。该参考点不仅涵盖了各种科学研究软件,而且还完全考虑了任务的多样性,综合性和可行性。目的是促进其“理解”代理人“做得好”。 3-1建立科学探索问题需要评估代理是否真的有能力完成科学任务。关键不是只有在环境中,而且任务本身也是现实,复杂和可衡量的。为此,ScienceBoard使用混合手动设计注释过程 +程序验证。那些研究了相关领域的人将根据真实软件手册,具有自动初始化脚本和计划评估功能,并最终进行一项高度标准化的研究,并通过科学的科学评估来确保通过多个回合的交叉抛光保证明确的说明和合理的操作。多维评估参考委员会的当前版本3-2包括六个字段(以及相应的支持软件)涵盖的169个研究任务TIFICA。任务类型覆盖范围:基本软件和环境配置,模拟和科学计算,图形图和空间可视化,数据咨询和结果解释,科学研究文档的写作和整合,CombinED跨软件的工作流程,其他科学示例(Kalgebra)绘制了边缘地理模型(基础)的Bernauli分析和分析。该层的地形层计算极限区域定理(精益4)并使用诱导来构建科学正式测试研究(TexStudio)的撰写,从而概述了实验报告的概述,插入材料生成的图形和系统地检查了不同水平的患者能力。任务分为四类:简单(〜54%):单步,计算和编程配置和编程。操作接口的iios(〜28%):多SSE必须完成长期测量计划:包括指令,逻辑推理或监视层间状态和硬记忆和硬记忆(〜17%)。模型4 SOTA 4的实验和评估我们评估了使用评估参考点构建的代理商的代理商的业务代表业务模型(2)。结果表明,即使如今,最强大的多模型模型在实际的科学研究工作流程中并不成熟。 4-1主要实验在于任务的一般成功率。 1。大型商业模型(例如GPT-4O和Claude 3.5)领先开源模型,但平均成功率约为15%。 2。开源InternVL3和QWEN2.5-VL的性能超过了某些任务的业务模型,但是Revenuecrossfield的谎言仍然不稳定。 GUI动作模型专门设计为Os-Atlas和Ugrow。耦合系统很轻,但显然受到长期和跨模式任务的限制。从实验中,我们可以看到,完成科学工作流程的阈值要比网络浏览器或移动/桌面应用程序的任务相互作用要高得多。该模型需要基于对视觉,结构化数据和复杂指令之间域的知识进行多个长期推理和计划。更重要的是,我们的实验发现帽子许多失败是由于了解不适当的模型和不当实施策略所致。例如,该模型可以正确理解“导出蛋白质结构图”,但由于单击订单不正确,因此无法完成任务。对计划和分解行动的后续分析4-2也揭示了有趣的趋势。许多失败的代理实际上“知道该怎么做”,但“它不起作用”。由GPT-4O代表的模型在任务计划中表现出深刻的了解,但是当它面对实际接口时,由于单击不准确,通常无法执行(例如,无法单击正确的行星)和路线的偏差。这仍然是“清晰思考”和“做精度”之间的不便,这表明存在。为了更彻底地检查这种现象,我们尝试将实施计划分开并构建模块化代理系统。 GPT-4O负责高级一代。某些操作ARE由几种VLM Action或开源GUI型进行。实验结果表明,这种模块化设计可显着提高成功率,尤其是在科学研究软件任务中,复杂的界面和长时间的操作链,并且以更稳定的方式实现目标的能力将显着提高成功率。 5 Cienceboard实验表明,当前代理的瓶颈不仅是操作层,而且是对域的知识和通用剂功能的分离。许多模型可以正确执行点击或输入命令,但不了解科学任务背后的知识。因此,未来的关键方向是允许代理商真正“了解科学”。这包括将手册和教程等资源用于“与任务相关”或可以根据上下文调用外部知识的构建系统的资源。我们的实验表明,即使是简单的策略“劳动与合作部门”(例如负责计划计划的GPT-4O)可以提供大型宾夕法尼亚。这为未来的“研究团队”奠定了基础。该系统可以由具有强大逻辑推理技能的计划者组成,具有出色执行的GUI模型以及获得经验的域专家。根据要求,它们可以灵活地适应科学研究生命周期的几个阶段,从数据分析,图形生成到纸张抛光,并成为“可观且培养”的科学研究伙伴。从长远来看,科学委员会提出的框架为实验室一级智能探索的基础奠定了基础。从虚拟研究助理到物理实验机器人,从编码/QA模型到实验助理,AI科学家的未来不再仅仅是数字世界的概念,而是慢慢地迈向现实。 6个结论,例如Multimoda的第一个Marcor评估l专注于科学探索任务的代理商。 Scientoard是一个真正的比例,是一个互动的科学研究环境,仔细设计了代表性的科学研究任务,支持程序化评估机制,并系统地评估了科学任务中现有模型的性能。实验发现,即使是当今最强大的一般模型,复杂的科学研究工作流的成功率也明显低于人类。尽管代理自动化的科学研究仍然是一个长期目标,但这项工作提供了一个可重复的,可衡量的和可扩展的起点,从而阐明了成为完全自动化的AY科学家的第一条之路。