首页/新闻资讯/正文
喊话调教机器人:YAY技术如何提升复杂任务执行成功率

 2025年02月08日  阅读 2

摘要:项目地址:纸张地址:开源代码地址:智能机器人知识社区:那么,可以使用大喊调整的机器人可以采取什么样的动作?您可以大喊:在使用YAY技术进行训练之后,机器人挑战了三个复杂的任务:项目包装,水果混合和碗碟清洗,成功率更高。这三个任务的特征是,它们都需...

项目地址:

纸张地址:

开源代码地址:

智能机器人知识社区:

那么,可以使用大喊调整的机器人可以采取什么样的动作?

您可以大喊:

在使用YAY技术进行训练之后,机器人挑战了三个复杂的任务:项目包装,水果混合和碗碟清洗,成功率更高。

这三个任务的特征是,它们都需要两只手分别完成不同的动作。其中一个必须稳定地固定容器并根据需要调整姿势,另一方面需要准确定位目标位置并完成指令。而且它的过程也涉及软件,例如海绵,抓握力量也是一门科学。

以行李为例的任务,机器人将在完全自主执行的过程中遇到各种困难,但是通过大喊大叫,他们可以彼此互相打交道。

机器人在包装袋子的同时不小心放下了海绵,然后无法再次捡起海绵。

目前,开发人员直接向其大喊,命令只是“移动给我,然后走到左边”。

按照说明,第一次仍然没有成功,但是机器人记得命令“向左”,然后再次向左移动,并成功地捡起了海绵。

但是随后出现了一个新的困难 - 袋子的嘴被卡住了。

目前,只需告诉它再打开袋子,机器人将“理解”,调整一系列随后的操作,最后成功完成任务。

而且它不仅可以纠正错误,而且还可以通过喊叫实时调整任务的细节。例如,在加载糖的任务中,开发人员认为机器人有更多的糖果。只要他大喊“少”,机器人就会给一些糖果。倒带盒子。

00:56

是的糖果混合包装智能

69视图0弹幕

此外,这些人类发布的指示将由系统记录,并用作微调来改善机器人的后续性能。

例如,在刷板的任务中,机器人在微调后更剧烈地清洁,并且范围变大。

00:58

yay板清洁智能

36视图0弹幕

统计数据表明,在机器人经历了这种微调之后,平均任务成功率上升了20%,如果继续加入呼叫命令,它可以继续改善。

机器人家务_机器人家务_机器人家务

此外,可以迭代地进行这种微调指令过程,并且每次迭代时都可以提高机器人的性能。

那么,Yay到底是如何实施的?

人类的教义被“记住”

在建筑上,整个YAY系统主要由两个部分组成:高级政策和低级政策。

其中,高级政策负责产生指导低级政策的语言指令,而低级政策则用于执行特定的操作。

具体而言,高级策略编码相机捕获的视觉信息,将其与相关知识结合在一起,然后生成包括当前动作描述,未来动作预测等的指令。

收到语言说明后,低级策略将在这些说明中解析关键字,并将其映射到机器人关节的目标位置或运动轨迹。

同时,YAY系统引入了一种实时语言校正机制,人类的口头命令具有最高的优先级,在识别后,它们直接传递给了低级策略以执行。

在此过程中,系统将记录命令,并用于微调高级策略。通过学习人类提供的纠正反馈,逐渐减少对即时言语纠正的依赖,从而提高长期任务的自主成功率。

完成基本培训并已经在真实环境中部署后,系统可以继续收集指导信息,不断从反馈中学习并提高自身。

在一个句子的简介中:

对于实际的长期操作任务,这项工作提出了一种解决方案,使机器人能够(a)实时整合语言校正,(b),并基于这些反馈来持续改进计划策略,以实现房地机任务的持续改进,显着提高了最终任务的成功率。

句子的摘要:

面对现实世界,长期运营任务仍然面临着高失败率的挑战。例如,让一个机器人的手臂夹一个非常薄的速度密封袋,另一个机器人手臂有助于打开袋子,然后让机器人手臂夹住一个小铲子,转到盒子里拿起一堆坚果,然后转移按照不同的说明,螺母到快速密封袋并多次运输不同的坚果。这种任务只能在几行中描述。如果机器人学习它,这听起来很困难,但实际上更难做〜

对于这样的任务,该系统提供了一个有趣的解决方案:(yaya)。该解决方案本质上是一种分层策略。高级策略根据观察到的OBS的四个连续帧输出语言目标L_H;然后,基础策略根据图像 +目标L_H的四个帧输出基础动作(关节目标)。

网络培训都是通过有监督的培训进行的所有模仿学习,但是在实际部署期间,如果机器人操作失败,则有人可以在其旁边提供语言指导。目前,高级战略的目标L_H将被阻止,人类目标将直接采用。最后,将更正后的OSB-> L_H数据对添加到校正数据集,混合原始数据集并训练高级策略。当在线更新高级策略时,自主成功率将得到显着提高(该值非常奇怪,示例给出的论文的总和是不同的)。

与以前计划的差异:

LLM +技能库:使用LLM的内部和推理能力来输入当前任务 +技能库 +示例,并在当前任务下应调用哪些技能来实现“组合概括”。从2019年3月到2019年8月,这种类型的计划应该相对流行,但现在基本上已经过时了。由于LLM或VLM不能先验了解当前配置的机器人和技能库的实际效果,因此其组合只能是现有示例的组合概括。

语言校正 + LLM +:此解决方案不是本文提出的最早的解决方案。朱约克团队提出的OLAF方法23年使用了口服校正 + GPT4标记后 +数据合成 +网络后培训。实际上,这两部作品非常相似,它们都有范式(指数据集聚合,模仿,互动和更新。有关详细信息,您可以看到海洋:模仿学习:()。 OLAF和RT-H之间的主要区别应该是YAY输入和输出更加灵活,更实时。

:基于教学模仿学习,该算法是ACT,您可以学习一项大约50个轨迹样本的技能,但只有一项技能可用。

计划详细信息介绍

这是文章的主要图片,您可以检查右上角的详细信息。机器人首先使用高级策略来产生语言目标,然后在4200个步骤中进行更正,然后继续执行。在这些校正数据 +原始数据之后,成功率可以从原始的20%不断提高,并且三个迭代可以增加到65%。

在上图中,YAY系统是概述,我们在层次结构设置中运行,高级政策生成了低级政策的语言说明,以执行相应的技能。在部署期间,人类可以通过纠正式命令进行干预,暂时涵盖高级政策,并直接影响低级政策以进行即时适应,然后使用这些干预措施来微调高级政策,以提高其未来的表现。

这张照片主要着眼于输入和输出关系:高级的输入是图片的连续框架,输出是语言;基础层的输入是图形 +语言 +机器人身体状态,输出是目标关节。人干涉直接取代高级语言目标。

关于这三个更新,它们都是监督的模仿学习。

机器人家务_机器人家务_机器人家务

加强和建模这项长期任务难度吗?很明显,MDP已建立,但没有给出。拉勒说这是可惜的〜

没有RL,您将无法使用次优数据,因此作者将这些不良样本过滤以更好地模仿和学习。

数据采集​​详细信息:

数据收集成本是影响整个解决方案价值的关键。

在文本中,作者默认情况下在相应的任务中收集了整个空间的动作轨迹。为了使语言目标与基础动作相对应,请让教师首先查看麦克风,然后说出下一步该怎么做,然后将其转换为文本,然后教它,以便目标和控制可以对应。

在附录中,作者详细发布了培训数据:

基本数据集

概述了不同任务中的轨迹,轨迹长度,语言注释技能段和语言命令指标的数量。 “”是指数据集中唯一语言字符串的数量。

研究人员在论文中说,在本文中,YAY系统一次进行了20次试验,并衡量了子任务的成功率。 “我们的代码自动化数据采集和处理过程,已经是开源的。”

在线微调数据:

帖子:对于高级策略进行微调,我们使用上述USB麦克风设备仅收集IV中的语言干预数据,并描述了2-3次培训迭代后收集的汇总数据集。与基本数据集相比,培训后数据集的技能段明显较少。

培训后数据集

每个任务后培训数据集中的技能段和语言命令的数量摘要。训练后的数据集明显小于基本数据集 - 技能段的数量为基本数据集的4%-11%。

让我更加好奇的是,在纠正真实机器时需要大喊多少次。

好奇心:

如果您具有原始的数据集 +更正的数据集并完全对其进行重新训练,而不是使用 Post-post-,性能会有差异吗?

在自主互动中,高级策略的输入是连续的框架图片。它真的可以绘制一个准确的目标吗?如果未指定最终目标。我很好奇。那些奇怪的图片和高级策略确实可以实现合理的目标。如果拟合,则仅应针对特定任务。

如果您不使用LCBC而是LCRL,样品效率会更高吗?

该论文说,当处理类似的任务时,我会犯一些错误,但我没有仔细地看着它们。我个人认为,模型培训相对昂贵,并且调整API可能更适合像我这样的个别玩家。

总结:

这是一项非常有趣的工作。它将人类语言纠正良好地嵌入到机器人的长期任务决策中,并实现持续学习。该效果得到了显着改善,对机器人的实施具有重要意义。

我认为语言纠正是一条合理的道路,我也希望成为“听话”机器人。但是,我个人认为这种语言校正的频率不能太高。如果它是三个以上的纠正,它基本上会使人们失去耐心。如果它的增长不超过十倍,人们会觉得机器人不擅长大脑。

因此,我现在很好奇需要多少示例数据。

最后,基本技能 +一般大型模型 +语言校正 +在线互动 +有限的样本连续学习 +多任务应该是值得探索的道路。

让我们期待更多的开发人员基于此实现新的突破!呢呢

信息参考:

了解完整的智能机器人臂深度学习管家服务ROS开源实验平台高端复合机器人2机器人手臂

版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;

原文链接:http://wen.bjhwtx.com/post/2126.html

标签:

天狐多媒体CMS

Z-Blog既是博客程序,也是CMS建站系统,已走过十余年风雨的系统,一次购买,永久免费升级更新。
热门标签
关于我们
Zblog应用中心有大量的插件和模板,其功能强大,只要会一点HTML+CSS+JS,就可以轻而易举地制作出美观的模板。集成Z-Blog应用中心功能,可以简单地从后台下载你想要的主题模板和插件。
扫码关注
联系方式
全国服务热线:0755-888866601
Q Q:888866602
Email:wx888866603@qq.com
地址:深圳市南山区海雅缤纷国际大厦04
Copyright 云天市蓝天科技有限公司 版权所有 备案号:粤ICP备98989988号