我有一个想法,谁能帮我实现吗?
说明:用DQN算法,或者更新的增强算法,图片识别用Inception V4; 具体步骤:共计N关,一共N个图片,每个关卡N个图片, 分别在文件夹名为1、2、3、文件夹内,+1、0、-1用这个对应文件夹代表奖励值, 动作:第一关的图片随机打乱处理,一张一张循环输入,程序做出动作,可以选择或者不选择某个图片,如果不选择,图片继续循环输入,选择一个图片,反馈奖励为上面说的奖励(+1、0、-1),如果不选择也可以,图片循环完成,看奖励分数决定是否进入下一关;
每一关最多选择5个图片,可以不选择,也可以1个,2个等,不超过5个的图片,奖励值相大于等于0分,就能进入下一关;如果相加值为-5,则从第一关重新开始;
第二、每次通过所有关卡的最终价值,要记录,以便知道训练结果,最终训练使得所有的获得值相加最大;
第三、关卡可以扩展,每个关卡图片数量不固定;
第四、模型训练完成后目的:给一组图片,选出不超过5个图片,不选也可以的。