1.一种购物动作决策方法,其特征在于,包括:检测到有目标实体进入设定区域的情况下,根据图像检测装置检测的信息,获取目标实体的人体特征和与所述目标实体相关的物品特征;
将所述人体特征和所述物品特征输入决策模型,得到所述目标实体的动作信息,所述决策模型是基于强化学习训练得到的模型;
根据所述动作信息得到回报信息;
利用所述回报信息对所述决策模型进行优化。
2.根据权利要求1所述的方法,其特征在于,将所述人体特征和所述物品特征输入决策模型,得到所述目标实体的动作信息,包括:将所述人体特征和所述物品特征输入第一神经网络,预测得到所述目标实体的交互信息,所述目标实体的交互信息包括:所述目标实体与其他实体进行交互的信息、所述目标实体拿取的物品信息、所述目标实体放回的物品信息以及结账信息中的至少一种;
将上一时刻与当前时刻的所述人体特征、上一时刻与当前时刻的所述物品特征和所述交互信息输入第二神经网络,得到所述目标实体在当前时刻的动作信息。
3.根据权利要求1所述的方法,其特征在于,将所述人体特征和所述物品特征输入决策模型,得到所述目标实体的动作信息之后,还包括:根据所述动作信息更新所述目标实体的状态信息,所述状态信息包括人体位置信息、购物车信息以及上一时刻的人体特征和物品特征;
所述更新后的目标实体的状态信息,用于计算最新时刻的动作信息。
4.根据权利要求3所述的方法,其特征在于,利用所述目标实体的动作信息,得到对应的回报信息,包括:
在所述动作信息为结账,且账单信息指示所述目标实体的动作实际上为结账的情况下,所述回报信息的公式为:R=n–m;其中,R为所述回报信息,n为购物车信息中正确的物品个数,m为购物车信息中错误的物品个数;
在所述动作信息为结账之外的其它动作信息且目标实体的实际动作为结账之外的其它动作的情况下,所述回报信息的公式为:R=0。
5.根据权利要求1所述的方法,其特征在于,获取目标实体的人体特征和与所述目标实体相关的物品特征,包括:
检测到所述目标实体进入检测区域,获取所述目标实体的图像信息;
将所述目标实体的图像信息输入卷积神经网络,得到所述目标实体的人体特征和与目标实体相关的物品特征。
6.一种购物动作决策装置,其特征在于,包括:特征获取模块:用于检测到有目标实体进入设定区域的情况下,根据图像检测装置检测的信息,获取目标实体的人体特征和与所述目标实体相关的物品特征;
决策模块:用于将所述人体特征和所述物品特征输入决策模型,得到所述目标实体的动作信息,所述决策模型是基于强化学习训练得到的模型;
回报模块:用于根据所述动作信息得到回报信息;
优化模块:用于利用所述回报信息对所述决策模型进行优化。
7.根据权利要求6所述的装置,其特征在于,将所述人体特征和所述物品特征输入决策模型,得到所述目标实体的动作信息,包括:第一预测模块:用于将所述人体特征和所述物品特征输入第一神经网络,预测得到所述目标实体的交互信息,所述目标实体的交互信息包括:所述目标实体与其他实体进行交互的信息、所述目标实体拿取的物品信息、所述目标实体放回的物品信息以及结账信息中的至少一种;
第二预测模块:用于将上一时刻与当前时刻的所述人体特征、上一时刻与当前时刻的所述物品特征和所述交互信息输入第二神经网络,得到所述目标实体在当前时刻的动作信息。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:更新模块:用于根据所述动作信息更新所述目标实体的状态信息,所述状态信息包括人体位置信息、购物车信息以及上一时刻的人体特征和物品特征;
所述更新后的目标实体的状态信息,用于计算最新时刻的动作信息。
9.根据权利要求8所述的装置,其特征在于,利用所述目标实体的动作信息,得到对应的回报信息,包括:
在所述动作信息为结账,且账单信息指示所述目标实体的动作实际上为结账的情况下,所述回报信息的公式为:R=n–m;其中,R为所述回报信息,n为购物车信息中正确的物品个数,m为购物车信息中错误的物品个数;
在所述动作信息为结账之外的其它动作信息且目标实体的实际动作为结账之外的其它动作的情况下,所述回报信息的公式为:R=0。
10.根据权利要求6所述的装置,其特征在于,所述特征获取模块包括:图像信息获取单元:用于检测到所述目标实体进入检测区域,获取所述目标实体的图像信息;
计算单元:用于将所述目标实体的图像信息输入卷积神经网络,得到所述目标实体的人体特征和与目标实体相关的物品特征。
11.一种购物动作决策设备,其特征在于,包括:一个或多个处理器;
存储装置,用于存储一个或多个程序;
摄像头,用于采集图像;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。
12.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。