纽约大学的一个研究团队开发了一种新技术,能够在短短18秒内教会一架无人机如何稳定飞行。
该程序可以在一台普通的MacBook Pro上运行。通过模拟飞行环境来训练无人机,让它学会如何保持空中悬停并按照指定路径飞行。
只需18秒钟就能实现这一切。
这种方法不仅限于简单的小型无人机——它几乎可以适用于任何无人机,包括更大、更昂贵的无人机,甚至是你自己从头开始建造的无人机。
工作原理:
1、端到端控制:通过深度强化学习(Deep RL)实现四旋翼无人机从感知到动作输出的直接映射,无需复杂的中间处理层,提高了控制策略的直接性和效率。
2、不对称演员-评论家架构:采用了一种新颖的基于RL的训练框架,其中演员直接从状态到动作的映射进行决策,而评论家则利用额外的信息(如仿真中的精确状态)来评估动作的好坏,帮助演员更快学习。
通过给予奖励和惩罚来教会模型执行某项任务。在这个项目中,无人机通过尝试不同的动作,根据其对任务成功率的影响获得反馈,从而学习如何飞行。
3、高度优化的仿真器:开发了一个能在消费级笔记本电脑上模拟约5个月飞行时间每秒的高性能仿真器,这个仿真器使得无人机的训练过程极为快速。这种方法允许无人机在没有任何风险的情况下进行无数次尝试和错误,快速学习飞行技能。
4、课程学习(Curriculum Learning):为了提高训练效率,研究者采用了课程学习策略,即从简单任务开始逐步过渡到更复杂的任务。这种方法让无人机先学习基本的飞行控制,然后逐渐学习执行更复杂的飞行动作。
5、调整奖励函数:训练过程中,研究者会调整奖励函数,即改变给予无人机的反馈,以鼓励它学习如何稳定飞行和执行特定的飞行路径。一开始,奖励机制较为宽松,随着训练的深入,会逐渐增加对飞行精确度和鲁棒性的要求。
6、Sim2Real转移策略:通过精心设计的训练范式和仿真环境,确保了无人机控制策略可以平滑地从仿真环境转移到真实环境,克服了仿真与现实之间的差距。
该项目利用高度优化的仿真器和有效的学习策略,实现了在仅18秒内完成无人机飞行控制策略的训练,大大减少了从理论到实践的时间。
项目将代码和仿真器已经开源。
论文:https://t.co/H4R7VCuiUU
GitHub:https://t.co/bUQICSraLH
视频介绍:https://t.co/IpInGneIjV