Zoo li kev ntsuam xyuas txoj cai, tus nqi iteration raug cai yuav tsum muaj tus lej tsis kawg ntawm kev rov ua dua kom sib haum raws nraim. Hauv kev xyaum, peb nres ib zaug tus nqi hloov pauv tsuas yog ib qho me me hauv cheb. … Tag nrho cov algorithms no converge rau ib txoj cai zoo rau luv nqi MDPs.
Puas yog tus nqi iteration txiav txim siab?
Txawm li cas los xij, tus nqi rov hais dua yog a ncaj nraim mus rau qhov dav dav ntawm rooj plaub txiav txim siab. Tej zaum nws yuav muaj zog dua hauv cov teeb meem dynamic, rau qhov tsis paub meej dua, lossis muaj zog randomness. Yog tias tsis muaj kev hloov pauv hauv txoj cai, xa rov qab raws li txoj cai zoo, ELSE mus rau 1.
Puas tus nqi iteration optimal?
3 Tus nqi Iteration. Tus nqi rov hais dua yog txoj hauv kev suav qhov kev pom zoo MDP txoj cai thiab nws tus nqiTxuag V array ua rau muaj kev cia tsawg dua, tab sis nws nyuaj dua los txiav txim siab qhov kev pom zoo, thiab yuav tsum muaj ib qho kev rov ua dua ntxiv los txiav txim seb qhov kev txiav txim twg ua rau tus nqi loj tshaj. …
Dab tsi yog qhov txawv ntawm txoj cai iteration thiab nqi iteration?
Nyob rau hauv txoj cai rov hais dua, peb pib nrog txoj cai ruaj khov. Conversely, nyob rau hauv tus nqi iteration, peb pib los ntawm xaiv tus nqi muaj nuj nqi. Tom qab ntawd, nyob rau hauv ob qho tib si algorithms, peb rov txhim kho kom txog thaum peb ncav cuag kev sib koom ua ke.
Tus nqi rov hais dua yog dab tsi?
Basically, tus nqi Iteration algorithm suav cov txiaj ntsig zoo hauv lub xeev los ntawm kev txhim kho qhov kwv yees ntawm V (s). Lub algorithm pib ua V(s) rau arbitrary random nqi. Nws rov hloov kho Q(s, a) thiab V(s) qhov tseem ceeb kom txog thaum lawv sib sau ua ke.