SCI论文丨基于强化学习的无人机协同最优编队跟踪控制：前馈-反馈设计架构

成功案例

加速工程及科技创新，让智能装备的设计研发更简单高效

2024-08-06 15:54:37 8058

一、基本信息：

研究方向：无人机智能控制与决策

发表于IEEE Transactions on Automation Science and Engineering

影响因子：5.6

二、论文内容简介

考虑到复杂飞行环境中多源干扰的影响，以及多元任务对时变编队和切换拓扑的需求，本文提出了基于强化学习算法的无人机协同编队控制方法。本文建立了反步控制方法与强化学习算法相结合的前馈-反馈控制结构。基于反步控制方法设计了反馈控制回路，将无人机协同编队控制问题转化为关于编队误差的最优控制问题。

微信截图_20240806150044.png

针对最优控制问题，本章采用 two-player 零和博弈策略，利用评价神经网络逼近得到最优控制输入以及最差干扰输入，并通过稳定性分析证明了评价神经网络的收敛性。该控制算法通过强化学习补偿控制提升了无人机协同编队的抗干扰性能，与此同时利用反步控制方法加快了强化学习算法的收敛速度。

控制框架.png

三、研究背景

复杂飞行环境和多元任务需求对无人机协同编队控制的挑战：在无人机协同编队飞行的过程中，考虑到复杂飞行环境中阵风扰动和电磁干扰等因素的存在，无人机制导系统会受到多源干扰的影响，将导致无人机协同编队控制的不稳定。此外，当无人机编队执行多个不同任务时，考虑到复杂地形和通信距离限制等因素的影响，多元任务需要与其任务相匹配的无人机时变编队及通信拓扑切换。例如：当无人机从高空侦察任务转向低空突防任务时，常要求多无人机由松散编队重构为紧密编队，并切换与之匹配的通信拓扑。上述因素为无人机协同编队控制带来了更大的挑战。

四、创新内容与工程应用价值

1.针对目前多数无人机编队控制方法不考虑性能优化的问题，本文采用了反步控制方法与强化学习算法相结合的前馈-反馈控制结构，可以在抵抗复杂干扰的同时，保证无人机编队跟踪性能的优化性；

2.对比传统基于模型的反步控制方法，本文引入强化学习算法提升编队控制的鲁棒性。采用 two-player 零和博弈策略，进一步优化编队控制性能；

3.与大多数强化学习控制方法不同，本文通过在回声状态网络更新律中引入补偿项消除持续激励条件，以及引入分段补偿项解决初始可控条件。上述细节改进极大提升了强化学习控制方法在实际无人机系统应用的适应性，不再依赖苛刻的限制条件。

五、基于灵思创奇设备

将无人机模型导入实时仿真机中，将编辑好的强化学习控制算法导入飞控板内，基于 Tacview 的仿真视景，将无人机编队跟踪控制仿真过程显示，验证了本文提出的强化学习控制算法的有效性。

微信截图_20240806102405.png

相较于数值仿真验证，基于灵思创奇的半实物仿真系统更贴近实际无人机飞行控制系统，对采样时间和信息传输量提出了更严格的要求，为推进控制算法在无人机实飞中的应用奠定了良好的基础，一定程度上验证了算法的可扩展性。对比大多数无人机编队控制方法文献中仅有的数值仿真验证，基于灵思创奇的半实物仿真验证是可行且必要的。

微信截图_20240806094224.png

下载附件：原文下载