好文档 - 专业文书写作范文服务资料分享网站

基于深度强化学习的无人船艇编队路径跟踪方法与制作流程

天下 分享 时间: 加入收藏 我要投稿 点赞

首先要构建航行水域环境信息获取方案,科学表征水域复杂环境信息;考虑无人船艇故障、调度、航行区域限制等问题,提出新的编队队形动态控制策略;引入人工智能领域前沿技术,构建面向无人船艇编队路径跟踪的深度强化学习模型;围绕深度强化学习模型训练关键点,考虑编队队形组成情况和路径跟踪误差设计奖励函数;采用无人船艇编队协同探测策略,加速深度强化学习模型。本技术通过协同探索策略加速训练无人船艇路径点跟踪模型,并将其与领导者-跟随者编队控制策略结合,形成一种无人船艇编队路径跟踪方法。

附图说明

图1是本技术实施例提供的一种基于深度强化学习的无人船艇编队跟踪方法的流程示意图;图2是本技术实施例提供的一种环境探索与经验数据收集;图3是本技术实施例提供的一种随机制动机制下的动作选择;图4是本技术实施例提供的一种编队队形保持控制流程;图5是本技术实施例提供的一种编队路径跟踪策略。具体实施方式

为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。此外,下面所描述的本技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本技术的目的在于提供一种基于深度强化学习的无人船艇编队路径跟踪方法,它将基于协同探索的深度强化学习算法应用于无人船艇编队路径跟踪,设计路径点跟踪奖励函数,并通过协同探索策略加速训练无人船艇路径点跟踪模型,将其与领导者-跟随者编队控制策略结合,形成一种新颖的无人船艇编队路径跟踪算法。本技术提供的一种基于深度强化学习的无人船艇编队路径跟踪方法区别于传统的无人艇编队路径跟踪方法的地方有以下三方面:提出了基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的多个无人船艇形成路径跟踪策略,以实现多无人船艇编队路径跟踪,利用神经网络训练替代数学推导与计算;编队中的无人船艇可以动态退出编队,以应对无人船艇故障或紧急调度;在DDPG训练中引入随机制动机制,多欠驱动无人船艇编队在编队保持和路径跟踪方面达到优异的性能。实施例一

如图1所示是本技术实施例提供的一种方法流程示意图,在图1所示的方法中包括以下步骤:

S1:构建决策神经网络模型;

在本技术的一个实施例中,决策神经网络包括输入层、卷积层、隐藏层和输出层,卷积层与隐藏层之间、隐藏层和输出层之间通过激活函数连接。

在本技术的一个实施例中,决策神经网络中的卷积层,通过卷积核降低输入特征的维度。

在本技术的一个实施例中,决策神经网络中的全连接层的激活函数均为Relu函数。

在本技术的一个实施例中,决策神经网络训练算法中的探索函数是按概率决定是否对未知状态探索,该概率初始值为0.9,最小值为0.01,并且该概率随训练过程减小。

在本技术的一个实施例中,决策神经网络训练算法中的状态观测方法观测到的状态包括水面无人艇与预设路径的位置偏差、方向偏差,与预设速度的偏差。

在本技术的一个实施例中,决策神经网络的训练结果的评估结果是由测试数据集的准确率决定的。

S2:设计奖励函数;

在本技术的一个实施例中,为使无人船艇快速形成编队并保持编队快速到达参考坐标点,在奖励函数的设计中考虑了无人船艇的速度Rv,最大化无人船艇向参考坐标点航行速度,最小化无人船艇横向偏差速度,可用公式表示为:

Rv=vicosβi-visinβi (1)

其中,vi=[ui,vi,ri]T,ui,vi,ri分别表示无人船艇的纵荡、横荡速度和艏摇角速度,无人船艇间夹角为βi。在本技术的一个实施例中,为避免出现编队控制模型陷入局部最优,将无人船艇与参考点的距离Rd作为奖励函数的设计因子,用公式表示为:

其中,ef是实际编队位置与预期编队位置之间的误差,ef-max表示允许的编队位置与预期编队位置之间的最大误差,若误差超过该值,则本次训练无效,开始下次训练。因此,奖励函数为:

R=kvRv+kdRd (3)

其中,kv和kd是速度和距离的权重。

S3:探索未知环境,储存经验数据;

在本技术的一个实施例中,未知环境下的探测问题是将深度强化学习模型应用于路径跟踪任务的关键,从路径跟踪的角度出发,无人船艇编队在航行中需避开水上构筑物、桥墩、岛屿、暗礁、浅滩等静态障碍物,还需应对渡船、来往船只、水上漂浮物等动态障碍物,此外,还要充分考虑水流扰动的影响。

在本技术的一个实施例中,在复杂的环境信息数据的基础上,快速训练路径跟踪决策下的无人船艇,确保无人船艇具备抵御水流扰动的能力,适应曲线、折线、直线等多种路径跟踪任务要求,使无人船艇编队在保持编队队形的条件下,以较小的位置偏差和航向偏差航行在预定路径上,高质量完成路径跟踪任务。

如图2所示,在本技术的一个实施例中,通过决策神经网络输出动作,将相关状态、动作、奖励保存到经验池中,然后从经验池中选择经验数据形成训练数据集,在训练决策神经网络时,无人船艇编队对环境进行探测,编队中每个无人船艇会从不同的初始状态开始探测,从而大大降低了环境探索经验的重复率,并更快地探索到不同的运动状态、更快地积累经验池中的训练数据集。

如图3所示,在本技术的一个实施例中,基于DDPG算法的决策神经网络训练中存在一种试错学习机制,将

Ornstein-Uhlenbeck(OU)过程引入到 DDPG中来探索环境,当决策神经网络做出决策和输出动作at=μ(st)时,由

随机过程产生的

噪声的均值回归,OU过程可以表示为:

噪声

的平均值为0,OU过程实际上是带有随机

dat=θ*(δ-at)dt+σdW (4)

其中,δ是加入噪声后动作的平均值,W是布朗运动产生的随机噪声,而且δ是W的权重,at表示神经网络输出的动作,θ和σ分别表示动作和随机噪声W的权重,μ(st)表示神经网络决策策略,st表示t时刻输入神经网络的状态输入,ano-brake表示神经网络输出的动作加入随机噪声后生成的动作。

S4:训练决策神经网络,获取无人船艇编队队形保持能力;

如图4所示,在本技术的一个实施例中,决策神经网络模型旨在学习共享决策,因此actor网络设计为近似策略,并采用梯度下降法更新actor 网络中的参数,梯度如下:

其中,ρ是概率分布,E表示的是

的期望值,表示策略梯

度,表示动作值函数对动作的偏导

数,表示决策网络输出对权值矩阵的偏导数,表示决策网络的

权值矩阵,μ表示神经网络决策策略,J(μ)表示目标策略函数。

在本技术的一个实施例中,通常随机抽取小批量样本作为训练数据,然后对梯度下降过程进行如下描述:

其中,N是小批量样本的大小,

是目标评价网络中的参数,表示动作值函

数,

表示第i次迭代的评价网络权值,表示第i次迭代的决策网络权值,si表示第i次迭代的神经

网络的状态输入,μ(si)表示神经网络决策策略。

在本技术的一个实施例中,假设C(s,a)可以连接状态向量s和动作向量 a,Q称为目标评价网络,如下述公式(7)所示:

其中,C(s,a)表示s和a的组合。

在本技术的一个实施例中,可以通过优化损失函数对公式(7)进行更新,更新后公式(8)如下所示:

其中,

是在线评价网络中的参数,s'是指在状态s处采取动作a后的下一个状态,a'是决策神经网络在s'处

采取的行动,r是奖励值,

表示训练的网络的输出值与期望值之间的损失值,表

示和

的集合,r(s,a) 表示奖励值,γ表示折扣因子,

表示目标评价网络的

目标评价值,表示在线评价网络的目标评价值。

在本技术的一个实施例中,在线评价网络中的参数通过随机梯度下降法进行更新,其中梯度如下:

其中,表示梯度。

在本技术的一个实施例中,在决策神经网络完成动作选择后引入随机制动,通过引入随机制动机制,无人水面艇(Unmanned Surface Vessel,USV) 在远离参考坐标点时可以快速加速,而在靠近参考坐标点时可以正确制动。在本技术的一个实施例中,无人船艇保持最大速度将获得最高回报,在通过决策神经网络训练无人船艇选择动作时会剔除减速运动,无人船艇到达参考坐标点后会保持最大速度围绕参考坐标点旋转,为避免这种情况的出现,通过引入随机制动机制,随机概率选择决策神经网络输出的动作和船舶减速动作,作为无人船艇最终的动作。

S5:路径跟踪方案;按照路径跟踪方案控制无人船艇编队保持预设队形移动,实现无人船艇编队路径跟踪。

在本技术的一个实施例中,为解决无人船艇编队路径跟踪问题,引入了领导者-跟随者编队控制策略,根据虚拟引导者的位置建立编队中各无人船艇的参考位置,虚拟引导者的位置代表了整个无人船艇编队的位置。如图5所示,在本技术的一个实施例中,无人船艇编队中心点为pc(xc,yc),其中,xc,yc分别表示无人船艇编队中心点的横坐标和纵坐标,ed表示pc与预设路径上的点pp(xp,yp)之间的交叉航迹误差,xp,yp表示pp(xp,yp)的横坐标和纵坐标,pv(xv,yv)表示虚拟引导者的预期位置,xv,yv表示虚拟引导者的横坐标和纵坐标。无人船艇编队路径跟踪要求无人船艇编队虚拟引导者沿参数化预设路径(xp(θ),yp(θ))移动,xp(θ),yp(θ)表示预设路径上的点,θ表示路径参数,路径可表示为含θ的函数,路径跟踪的交叉航迹误差ed可以表示为:

在本技术的一个实施例中,无人船艇编队路径跟踪过程中,无人船艇编队中心点pc的位置会不断变化,pc在预设路径上的投影pp也会发生变化,在预设路径上选择虚拟引导者pv以保持与pp点的距离。

在本技术的一个实施例中,虚拟引导者的更新与编队的中心点的位置有关,如图5所示,λ为固定值,当无人船艇编队中心点pc的位置会不断变化,虚拟引导者可以随着无人船艇编队的移动而不断更新,以确保无人船艇编队保持和路径跟踪效果。实施例二

在本技术所实施的实例中,无人船艇运动模型采用3自由度欠驱动船舶运动模型,船舶操作被离散化为“向前加速”、“向前减速”、“向左加速”、“向左减速”、“向右加速”、“向右减速”6个固定动作。

在构建决策神经网络模型时,决策神经网络包括输入层、卷积层、隐藏层和输出层,卷积层与隐藏层之间、隐藏层和输出层之间通过激活函数连接,由于无人船艇保持最大速度将获得最高回报,因此无人船艇无法学习减速,无人船艇会以最大速度前进到参考坐标点,并在到达参考坐标点时以最大速度围绕参考点旋转,所以在设计奖励函数时要考虑无人船艇的减速运动。

基于深度强化学习的无人船艇编队路径跟踪方法与制作流程

首先要构建航行水域环境信息获取方案,科学表征水域复杂环境信息;考虑无人船艇故障、调度、航行区域限制等问题,提出新的编队队形动态控制策略;引入人工智能领域前沿技术,构建面向无人船艇编队路径跟踪的深度强化学习模型;围绕深度强化学习模型训练关键点,考虑编队队形组成情况和路径跟踪误差设计奖励函数;采用无人船艇编队协同探测策略,加速深度强化学习模型。本技术通过协同探索策略加速训练无人船艇路径点跟踪模型
推荐度:
点击下载文档文档为doc格式
1g8wg6nuar2teb88j4i568ub00wtn200616
领取福利

微信扫码领取福利

微信扫码分享