کمک اور اداکار کے درمیان کیا فرق ہے؟


جواب 1:

اصل فرق یہ ہے کہ اداکار اپنی پالیسی کو تبدیل کرنے کے لئے کیا تاثرات استعمال کرتا ہے۔

پالیسی میلان طریقہ کے بنیادی میلان کو ذیل میں دیکھا جاسکتا ہے۔

θJ(θ)=θlogπθ(s,a)G(s,a)\bigtriangledown_\theta J(\theta) = \bigtriangledown_\theta \log \pi_\theta(s, a) G(s,a)

کہاں

JJ

کوئی نقصان ہوسکتا ہے اور

GG

کارروائی کرنے کا طویل مدتی انعام ہے

aa

ریاست میں

ss

.

اب ہم کسی ایپیسوڈ کے لئے اپنے ایجنٹ کو چلانے ، انعامات جمع کرنے اور پھر مجموعی طور پر ہمارے طور پر جمع ہونے والے انعامات کو استعمال کرکے یہ طویل مدتی انعام حاصل کرسکتے ہیں۔

GG

. یہ REINFORCE [1] الگورتھم ہے۔

اس نقطہ نظر سے کچھ مسائل ہیں۔

  • چونکہ آپ کا ایجنٹ کسی واقعہ کے دوران بہت سارے اقدامات کرسکتا ہے ، لہذا صحیح کارروائی کا سہرا دینا مشکل ہے ، جس کا مطلب ہے کہ ان اپ ڈیٹس میں بہت زیادہ تغیر ہے۔ یہ آپ کی پالیسی کو بدلنے میں بہت زیادہ اپ ڈیٹ لے گا۔ طریقہ صرف ایپیسوڈک حکومتوں میں کام کرتا ہے۔ اگر آپ کا ایجنٹ ایک مہاکاوی ماحول میں کام نہیں کررہا ہے تو ، اسے کبھی بھی تازہ کاری نہیں ملے گی۔

لہذا ہم ان فوائد کو استعمال کرتے ہیں جو ٹی ڈی لرننگ [2] ہمیں فراہم کرتے ہیں ، اور ہم ایک نقاد کی تعریف کرتے ہیں ، جو ریاست کی طویل مدتی قیمت کی پیش گوئی کرنے کی کوشش کرتا ہے۔

ss

، یا ریاست ایکشن جوڑی

(s,a)(s, a)

. ہم اس قدر کو استعمال کرسکتے ہیں

Q(s,a)Q(s, a)

اس کے بجائے تجرباتی واپسی

G(s,a)G(s,a)

.

θJ(θ)=θlogπθ(s,a)Q(s,a)\bigtriangledown_\theta J(\theta) = \bigtriangledown_\theta \log \pi_\theta(s, a) Q(s,a)

اور ہم Q- سیکھنے یا کچھ اسی طرح کی ٹی ڈی لرننگ تکنیک کا استعمال کرکے Q- قدر سیکھتے ہیں

Q(s,a)Q(s,a)+α(r(s,a)+maxaγQ(s,a)Q(s,a))Q(s,a) \leftarrow Q(s,a) + \alpha (r(s,a) + \max_{a'}\gamma Q(s', a') - Q(s, a))

اس سے ہمیں کیا فوائد ملتے ہیں؟

  • کم تغیر ، کیونکہ اب ہم Q- اقدار کا استعمال کرتے ہوئے ہر قدم پر اپنے پیرامیٹرز کو اپ ڈیٹ کرسکتے ہیں۔ اس سے پالیسی میں تیزی سے ہم آہنگی کو بھی یقینی بنایا جاتا ہے ۔کیو-ویلیوز کی ہماری اپنی پیش گوئیاں ختم کردیں۔ غیر مہذب ڈومینز پر چلنا ممکن ہے۔

آپ یوٹیوب [3] اور اس کی سلائڈز پر ڈیوڈ سلور کے کورس میں مزید گہرائی سے وضاحتیں حاصل کرسکتے ہیں [4]۔

A2A کا شکریہ

فوٹ نوٹ

[1] HTTP: //www-anw.cs.umass.edu/~bar ...

[2] 6. دنیاوی فرق سیکھنا

[3] آر ایل کورس بذریعہ ڈیوڈ سلور۔ لیکچر 7: پالیسی تدریجی طریقے

[4] HTTP: //www0.cs.ucl.ac.uk/staff/d ...