波士顿动力的「大黄狗」Spot 可以说是网红机器人的典范。
Spot 诞生后会巡逻,会搬砖,还会跳舞,它吸引了全世界机器人爱好者的目光,谁能拒绝这样一条动作灵活、姿态憨厚且会卖萌的机器狗呢?
多年发展之后,卖萌不再是 Spot 的主要业务。据波士顿动力介绍,Spot 如今能够帮助人类在一些特定场景中完成工作,比如在跨洋轮船上对仪表进行检测,参与地势复杂的勘测工作或者救援工作等。
如果给 Spot 拥有这么灵活的身躯,再装上一个像这般聪明的大脑,那将会发生什么呢?
人工智能专家真的做出了拥有“最强大脑”的 Spot 。
用 大幅简化人机交互
在某平台分享了他和改造版 Spot 互动的视频,这条视频展示的可能是有史以来第一条既能讲话又能聊天的机器狗。
在演示视频里能够看到,Spot 并非只是装了个“ Siri ”这般简单。当它在回应人类的问题时,它的身体会依据语句的内容以及语调一同摆动,那模样就仿佛科幻片中的 Wall - E 步入了现实之中。
当你询问一些“是或否”的简单问题时,它会用“点头”“摇头”这类身体语言来代替语音回答你。由此可以看出,Spot 绝不是仅仅内置了一个智能音箱这么简单。
接入后,Spot 有一个很大的变化,那就是它能够听懂人的话语,而且还能够和使用者以自然语言的方式进行交流。
演示了一个场景,他对 Spot 说:“因为你太碍事,所以房间太拥挤了,你往后稍稍。”话音刚落,Spot 就理解了他的意思,然后往后退了几步。
怎么样,是不是已经有科幻电影中呼唤机器人工作那味了。
过去操作 Spot 需借助类似无人机的大型遥控器,或者通过电脑输入繁杂的指令。如今,(某种事物或技术)的加入赋予了 Spot 强大的自然语言理解能力,只需动动嘴,便可与机器人进行交互。
在这个过程里,它承担了人类与机器人之间的翻译工作,将人类输入的“人话”转化为机器能够理解的指令,同时把机器人的反馈以实际行为或者“人话”的形式表达出来。
他们将 Spot 的文件输入进去,接着向其说明了文件的结构以及怎样读取这个文件,通过这样的方式实现了与 Spot 进行语音对话和操作。
操作员与 Spot 之间的交互得到了很大程度的简化。人们能够直接询问:“你的电量还有多少?”接着,Spot 会以语音的形式进行回答。在这个过程中,运用了文字转语音的技术,然后将答复通过 Spot 的“口”传达出来。
Spot 会依据实际情况回答问题。比如你询问它接下来要完成的任务时,它会依照设定好的任务列表进行作答。这样很大程度上避免了编造事实的情况。
当操作者向 Spot 下达诸如转向 90 度、前进 1 米之类的命令时,Spot 会使内部的传感器和定位系统协同动作,能够精准地对这些命令作出响应,不会出现因“大脑过于发达”而导致失去控制的情况。
有趣的是,当你向它提出“你是谁?”这样的问题时,它会给出“我是 。”的回答,而不是“我是机器狗 Spot”。
这家公司与波士顿动力有合作,它是一家 AI 公司,专门为企业探索利用机器人解决实际问题的解决方案。
认为,给 Spot 装上具有最大的实际意义,这种意义在于将原本只有技术人员能够处理的复杂数据转化为任何人都能够看得懂并且听得懂的自然语言。
机器人执行任务前需输入冗长指令集;工作结束后会产生大量数据;只有最专业技术人员能从这些数据中分析出问题。
但现在通过 ,简单的两句话就能搞定。
机器人的操作门槛变低了,接着机器人的使用场景就会丰富起来。
AI 大模型的潜力不容小觑
“最强大脑”版的 Spot 并非是一下子就完成的。一个月前,曾发布了一个视频,在这个视频中介绍了一条能够“听懂人话”的 Spot,而用到的是另一个重要的 AI 模型。
这个“初版”智能 Spot 对其中的原理进行了更详细的介绍。
它能高效地将语音实时转化为文字,且转化的正确率与速度都颇为可观。把它与 Spot 的 SDK 相结合后,便可从人类话语中提取关键文字,接着通过 SDK 向 Spot 发送命令。
向它说句话,就能让 Spot 离开充电坞,接着起身去检查仪表是否有问题,这样大大降低了人类的操作成本。
实践从一个不错的角度回应了一个被广泛探讨的问题:一类的大语言模型究竟有何种意义?
人们一开始认为它只是一个单纯文本生成式 AI,它具备较强的自然语言理解能力,能够写文章、写报表,尽管不是特别靠谱,但也令人感到惊艳。
后来人们发现,只要给予恰当的指令,它就能够代替人类自动地去完成编程工作,能够代替人类自动地去完成文字处理等工作,犹如一台基于自然语言运转的计算机。
发布插件集功能之后,能够与众多互联网应用相融合,将诸多跨平台操作通过对话的方式整合起来,从而成为互联网的新入口。
微软发布的内容启发了人们对于下一阶段人机交互的想象。这表明图形操作界面不一定是永远合理的范式,并且许多我们习以为常的操作都能够被对话所代替。
回到 Spot 上之后,我们可以比较清晰地看出大语言模型的意义。其一,它能够简化人机交互;其二,它可以赋予机器人更高级的智能。
把它当作新的互联网入口,这本质上是把复杂的指令集变成自然语言,以降低操作成本;把它当作控制具备学习能力、问题分析能力和执行高精度操作能力的工业机器人的遥控器,本质上也是把复杂的指令集变成自然语言,降低操作成本。
这种赋能会让未来的工业机器人不再仅仅是执行指令的工具,还能够拥有和人类大脑相近的智能水平。
图形界面将复杂的命令行转化为一个个直观的图标。如今,点按不同图标的复杂操作又被简化为一句简单的话。人类正从图形用户界面迈向一个新的阶段,即自然语言用户界面。
大语言模型在这个阶段会成为工业机器人的关键技术。它能够简化人机交互。它还能提高生产效率。并且会进一步推动人类社会的科技发展。
在某些情形下,语言模型在理解语言方面甚至比人类还要表现得好。普林斯顿大学的那位教授在他的一篇博客里提到了他自身的一个案例。
给他快要四岁的女儿使用时接上了语音交互。他的女儿和所有孩子一样,充满好奇心,经常问各种问题。
他告知对方自己在和一位小朋友说话,对方变得很善于表达同理心,这让他感到意外。
女儿:「关灯后会发生什么事?」
关了灯之后,会变得很黑。并且,可能会让人有点害怕。不过,不用担心哦!有许多东西能够在黑暗中帮助你感到安全和舒适。
《彭博社》专栏作家指出,微软在忙着把大模型用在搜索引擎上,同时也在做其他相关事情;它没看到,与作为一个事实提供者相比,更适合做情感陪伴者。
让 去做了情商测试,结果比她自己和同事都要好。因为 是用网络上的文字素材训练的,所以数据中会有大量错误信息,不过这也使得它更擅长模仿共情。
大语言模型对自然语言的理解能力是有很大应用潜力的,这些案例就充分说明了这一点。
我们借助如此强大的理解能力,能够利用大语言模型,从而真正实现又一次的人机交互革新。同时,大语言模型的出现给机器人的发展带来了新的可能性。
大语言模型能让机器人更好地理解并处理指令,能让机器人更快地学习以及适应新的任务和环境。
《纽约客》在其封面文章《黑暗工厂》中提及,当下工业机器人存在一个共同的难题,即设计出一个如同人手般的“末端执行器”,从而使机器人能够凭借不同的力度抓取各种大小和形状不同的物体。
如果这个技术难题得以解决,那么机器人就能够完成更多精细的工作,并且很多领域的自动化程度也会有很大的提升。例如,各种水果的采摘能够实现自动化,富士康的流水线也不再需要如此多的工人了。
未来的工业机器人不应只是指令执行的工具,它还应具备与人类大脑相近的智能水平,拥有学习能力,具备问题分析能力,并且能够执行高精度操作。
在工业生产线上,工业机器人的肌肉较为发达,这使得它们更加灵活且高效,能够更好地去应对各种生产方面的问题,进而提高生产的效率和质量。比如在汽车制造领域,大语言模型能够给机器人赋予更强的智能以及认知能力,让其可以更好地完成多种多样的任务。
在医疗机器人领域,机器人能够利用自然语言处理技术去和医生以及病人展开交流,进而提供更为优质的医疗服务。
大语言模型给机器人行业带来了一个强劲的大脑,为机器人创设了更具普遍性的应用场景,这极有可能会成为第四次工业革命的技术核心。而“语音版”Spot 则是这场技术变革所迸发出的最初的一丝火花。
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-888866601
电子邮件
wx888866603@qq.com
扫码二维码
获取最新动态