根据已知的知识找到最优的策略,同时还能发现是否有新的策略收益更大,这是典型的增强学习里的double E(exploitation and exploration)问题。定义N个策略集,μ1,..,μN是N个策略收益分布的均值,每轮t选择某一个策略It=i,都可以得到其收益g(i,Yt),因此,在T轮之后,定义损失函数ρ=Tμ∗−∑Tt=1g(i,Yt),μ∗是每轮最大收益的均值,即μ∗=maxn{μn}。如果每一轮都选择都是最优的,那么损失ρ就等于0。定义g(i,Yt)的无偏估计g˜(i,Yt),