全球最实用的IT互联网信息网站!

AI人工智能P2P分享&下载搜索网页发布信息网站地图

当前位置:诺佳网 > 互联网 > 探索 >

让机器人打乒乓球意义何在?

时间:2025-08-06 00:00

人气:

作者:admin

标签: 学习  研究    改进  机器人 

导读:让机器人打乒乓球意义何在?-科学家们在模拟环境中使用强化学习训练了一种机器人智能体,使它们彼此之间能够进行对打。...

  参考消息网8月6日报道 据西班牙《机密报》网站7月24日报道,研究人员开发了一种机器人自主学习技术,使机器人仅通过相互之间进行比赛就能学会打乒乓球。得益于自动捡球和远程监控,该系统无需人工干预即可持续运行数小时。这项技术进步的目的并非打造一个机器人乒乓球超级联赛。这些机器所学习的技能可以直接应用于工业领域,甚至应用于家庭环境。

  该研究团队之所以选择乒乓球,正是因为这项运动在有限但高度动态的环境中提出了机器人技术面临的诸多最严峻挑战。正如参与该研究的谷歌“深层思维”公司高级工程师潘纳格·桑克蒂和亚利桑那州立大学教授海尼·本·阿莫尔所解释的那样,这项运动需要机器人掌握多项复杂能力:卓越的感知能力、以正确角度和速度拦截乒乓球的精准控制能力,以及战胜对手的战略决策能力。

  “标准的机器学习方法往往难以实现持续自主学习。模仿学习,即机器人通过模仿专家进行学习,通常需要我们为每项技能或变化提供大量的人类演示。”这两位研究人员解释道,“而强化学习,即通过奖励或惩罚引导的反复试验来训练,通常需要精心设计复杂的数学奖励函数,以精确捕捉多重任务所需的预期行为,还要根据机器人改进或学习新技能的需要进行调整,这限制了可扩展性。”

  研究人员复制了谷歌“深层思维”著名的阿尔法围棋(AlphaGo)所使用的自主学习策略。阿尔法围棋曾击败了极其复杂的棋类游戏围棋的世界冠军。当一个机器人发现更好的策略时,它的对手就会被迫适应和改进,从而形成一个不断提升其技能水平的循环。科学家们在模拟环境中使用强化学习训练了一种机器人智能体,使它们彼此之间能够进行对打。在现实世界中经过几小时的调整后,他们成功地让机器人实现了多回合的对打。

  然而,当机器人之间开始比赛时,这种合作型智能体的表现并不理想。当机器人采取保守策略避免失误时,击球范围会局限在狭小区域内,从而限制了智能体击球动作的分布。该模型难以学习如何在不忘记旧击球的情况下处理新的击球,很快就达到了这样一种局面:在短暂的回合中,一方机器人总能轻松打出另一方无法接住的制胜球。

  于是,研究团队决定改变策略,让它们与人类进行对打训练。人类乒乓球选手能够持续对打,其多样化的击球方式为机器人提供了丰富的学习样本。

  研究人员还使用了像“双子座”人工智能模型这样的视觉语言模型。它们可以充当教练,观察机器人的动作并提供改进建议。研究人员开发了SAS提示词(总结、分析、综合),这是一种支持机器人行为迭代学习和自适应的指令框架。这是方法上的革命性变化。与当今的同类实践不同,它没有使用奖励函数,也不依赖人类。

  视觉语言模型能直接从任务描述的观察数据中推导奖励机制,就像持续评估学员表现并提供改进方案的教练一样。这些方法实现了自主改进,并减少了对传统机器人编程所需人力投入的依赖。

  但研究人员承认,这项技术仍需进一步发展才能正常运作。一个需要改进的方面是提升机器人对抗训练的稳定性,而扩展基于视觉语言模型的训练规模是另一项艰巨的任务。尽管如此,他们表示,这些方法为实现机器人在现实世界中安全运行提供了重要的机会。

  “我们乐观地认为,在这个方向上的持续研究将带来更强大、适应性更强的机器人,它们能够学习在我们这个非结构化世界中高效、安全地运作所需的各种技能。”阿莫尔表示,“这条道路很艰难,但获得真正智能且实用的机器人伙伴的潜在回报值得我们继续努力。”(编译/田策)

温馨提示:以上内容整理于网络,仅供参考,如果对您有帮助,留下您的阅读感言吧!
相关阅读
本类排行
相关标签
本类推荐

CPU | 内存 | 硬盘 | 显卡 | 显示器 | 主板 | 电源 | 键鼠 | 网站地图

Copyright © 2025-2035 诺佳网 版权所有 备案号:赣ICP备2025066733号
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信