首页
大事记
友情链接
留言板
关于
Search
1
无界拷贝文件在线传输系统开始公测
911 阅读
2
宝塔BT面板PHP防CC
911 阅读
3
解决SSH登录卡在"Last login"问题
708 阅读
4
高考作文论证方法之“广深高铁”
396 阅读
5
Linux环境安装Dlib——以Centos7为例
384 阅读
默认分类
新鲜科技
时事热点
学无止境
Python
Arduino
作文素材
C语言
踩坑记录
机器学习
资源分享
站长杂谈
登录
Search
标签搜索
机器学习
Datawhale
C语言
git
python
组队学习
物联网
esp8266
PHP
云顶书院
Linux
建站
网站
宝塔
开学
清明节
VPS
Arduino
开源硬件
拟合
MoyiTech
累计撰写
54
篇文章
累计收到
37
条评论
首页
栏目
默认分类
新鲜科技
时事热点
学无止境
Python
Arduino
作文素材
C语言
踩坑记录
机器学习
资源分享
站长杂谈
页面
大事记
友情链接
留言板
关于
搜索到
5
篇与
的结果
2023-10-10
Mind2Web: Towards a Generalist Agent for the Web 论文解读
主页:https://osu-nlp-group.github.io/Mind2Web训练集:https://huggingface.co/datasets/osunlp/Mind2Web概要本文介绍了一个名为MIND2WEB的数据集,用于开发和评估Web通用代理,可以使用自然语言输入指令,使之可以在任何复杂的网站上执行操作。对比前人缺陷:现有的用于Web代理的数据集要么使用模拟网站,要么仅涵盖有限的网站和任务集,因此不适用于通用的Web代理。本文优势:MIND2WEB数据集包含来自137个网站、跨足31个领域的超过2,000个开放式任务,以及为这些任务收集的众包行动序列。MIND2WEB为构建通用Web代理提供了三个必要的要素:多样化的领域、网站和任务使用真实世界的网站而不是模拟和简化的网站广泛的用户交互模式。基于MIND2WEB,作者进行了首次尝试使用大型语言模型(LLMs)构建通用Web代理。由于真实世界网站的原始HTML通常元素过多无法直接输入LLM,本文的方案为:先通过小型LM进行筛选,再输入到LLM中,可以显著提升模型的效果和效率。MIND2WEB 数据集介绍来自于真实网站的捕捉涵盖领域广网站的快照和交互捕获完全任务定义该数据集旨在使代理通过一系列操作完成特定任务任务描述:是高级的,而不是避免了低级的、一步一步的指令。操作序列:(目标元素,操作)->(目标元素,操作)-> ... ->(目标元素,操作)三种常见操作:点击(包括悬停和按回车)、输入、选择操作序列通常跨越一个站点的多个网页。网页快照:HTML、DOM、HAR等过程信息执行方式:逐步预测、执行,input:当前网页、历史操作,output:接下来的操作 (有RNN的意思)数据收集数据通过亚马逊众包平台(Amazon Mechanical Turk)收集,主要分为三个阶段:第一阶段-任务提出:首先要求工作者提出可以在给定网站上执行的任务。作者会仔细审核提出的任务,并选择在第二阶段进行注释的可行且有趣的任务。第二阶段-任务演示:要求工作者演示如何在网站上执行任务。使用 Playwright 开发了一个注释工具,记录交互跟踪并在每个步骤中对网页进行快照。如图 2 所示,用红色标记的操作将导致转换到新网页。第三阶段-任务验证:作者验证所有任务,以确保所有操作都是正确的,任务描述正确地反映了注释的操作。与前人的比较 及 研究挑战采用真实的网页,更符合实际网页元素多、复杂度高,未进行人工简化任务等级高,更接近日常使用先前的研究通常提供逐步的指令,并主要关注测试代理将低级指令转化为操作的能力,例如,“在位置字段中输入纽约,单击搜索按钮并选择明天标签”本文数据集只提供高级目标,例如,“纽约明天的天气如何?”故这种数据集(Mind2Web)对于代理模型的训练及应用来说提出了很大的挑战。MindAct 框架为了使用Mind2Web数据集,引入了MindAct框架由于原始HTML过大,直接输入到LLM中消耗资源过大,MindAct将此分为二阶段过程(如图三)第一阶段:如图四,使用一个Small LM,从HTML中元素中筛选出几个候选元素第二阶段:将候选元素合并成HTML片段传入到LLM进行最后预测(元素 + 操作)Small LM 用于筛选;LLM用于预测通过Small LM生成小模型feature: Task Description + Previous Actionstarget: Top-k Elements通过LLM预测操作LLM用于判别 比 生成更有效率故LM被训练为从一系列选项中进行选择,而不是生成完整的目标元素Divide the top-k candidates into multiple clusters of five options. If more than one option is selected after a round,Form new groups with the selected ones. This process repeats until a single element is selected, or alloptions are rejected by the modeltest result:为什么MindAct和两个baseline不使用相同的LLM以控制变量?baseline1: Classfication,仅使用Debertab进行 元素 预测baseline2: Generation,使用Flan-T5直接进行 元素+操作 的预测实验实验步骤Test-Cross-Domain:使用不同的域名进行预测Test-Cross-Website:使用同域的网站预测TestCross-Task:使用相同的网站预测数据预处理和评估分别使用Element Accuracy、Operation F1、Step Success Rate、Success Rate对数据进行评估实验结果第一步候选生成使用了微调的DeBERTa 作为Small LM,用于第一步的候选生成(For efficiency, use the base version DeBERTaB with 86M parameters.)分别获得了88.9% / 85.3% / 85.7% 的recall取k=50,即top-50用于下一步预测。第二步操作预测使用Flan-T5作为生成模型尽管是大模型(220M for Flan-T5),但在元素选择方面表现先不佳使用上述MindAct中使用的multi-choice QA formulation方法很有效The best model achieves 52.0% step success rate under Cross-Task setting, and 38.9% / 39.6% when generalizing to unseen websites(Cross-Website) and domains(Cross-Domain).However, the overall task success rate remains low for all models, as the agent often commits at least one error step in most cases.Three Levels of Generalization模型均在Cross-Task表现最佳、但在Cross-Website、Cross-Domain中低于Cross-Task 10%以上。由此可见,对于未见过的环境进行预测是目前最大的问题。在图6中可见,Cross-Website、Cross-Domain中的表现很相近。就此可推断,首要问题在于网站的设计和交互逻辑、而不是域名特性。对于网站之间的一些共同的操作,预训练语言模型已经有了可以解析复杂任务的能力。在具体环境中,将这些知识转化为可操作的步骤仍然是一个相当大的挑战。In-context Learning with LLM分别使用MINDACT的方法在GPT-3.5和GPT-4进行了测试,结果如下:GPT-3.5表现不好,在元素选择正确率上仅有20%GPT-4要稍好一些,与微调过的Flan-T5不相上下,表明用大语言模型在此有很大的潜力但GPT-4运行成本很高,使用较小规模的模型是一个很好的发展方向
2023年10月10日
90 阅读
0 评论
1 点赞
2022-06-21
智慧报考系统开始公测
由于近日在学习LayUI前端框架,正赶上高考报考,遂开发之 现已收集河北物理组、河北历史组、天津3+3全部组合的2021年录取数据供参考 数据收集于网络,仅供参考,具体请以考试院报考书为准,本站仅供参考,如有谬误本站不负
2022年06月21日
359 阅读
0 评论
13 点赞
2020-11-14
无界拷贝文件在线传输系统开始公测
无界拷贝(全名:无界拷贝文件在线传输助手)——一款简洁小巧基于Web的在线拷贝神器,让你的拷贝没有界限!轻量级网页,无需下载客户端即可使用仅需记忆四位文件ID即可进行文件传输速度快,无需向某网盘一样忍受几KB的速度
2020年11月14日
911 阅读
3 评论
6 点赞
2020-08-01
我的世界连接现实世界
什么?在我的世界中按一下按钮居然可以打开现实中的灯???这是什么黑科技???先上效果看一下:{bilibili bvid="BV1FT4y17784" page=""/}
2020年08月01日
124 阅读
0 评论
0 点赞
2020-03-25
将AV号和BV号互相转换小工具(Web版)
3月23日,B站已使用bv代替av 更新:视频终于过审辣!av98921934(2020-03-25 06:34:44){bilibili bvid="BV13741127co" page=""/}昨天看到某乎大神已经把互转的加密解密算法弄出来了,GitHub链接:https://gist.github.com/abc1763613206/b8afbb88849835f064f74e652fdb16c5这个算法可以直接本地bv、av号互转。于是本人就站在巨人的肩膀上,利用Python+flask做了一个一键转化小工具 因为不是所有人都会用python、pip等工具,我就给他做成了web端 链接:https://bv2av.9998k.cn/感兴趣的朋友可以试试看,目前还没发现不能转化的情况,如有发现欢迎私信告诉我哈哈 后端的运算使用Python进行编写,具体算法思路引用了上述GitHub 现在网上大多数都是用bilibili官方的api进行的转化,如下: https://api.bilibili.com/x/web-interface/view?aid= 但是有一个弊端,B站既然已经使用bv代替av了,所以这个api迟早要凉。 我之前网站的算法也是采用了api的方式进行抓取,但是想到api不如dalao的本地化算法稳,就改成了本地算法版
2020年03月25日
193 阅读
0 评论
0 点赞