行動調查

運籌學和分析專業人士,教育工作者和學生的問答

8
收斂速度值迭代
值迭代是解決馬爾可夫決策過程的最常用方法之一。它的收斂速度顯然取決於狀態和動作的數量。但是,收斂速度在狀態/動作數相似的不同MDP之間也存在很大差異。是否存在暗示收斂緩慢的特定特徵?我們是否可以對此類系統...
 

Next page