必威主页贴贴Markov决策过程约束成本:分解方法++E3S会议网

开放存取

问题		E3S网页汇编卷积2292021 3组^华府计算机学和可再生能源国际会议


文章号		01047
页数		11
多尔市		https://doi.org/10.1051/e3sconf/202122901047
在线发布		2021年1月25日

必威主页 22901047(2021)

贴贴Markov决策过程约束成本:分解法

AbdellatifSemmouri^一号^*,MostafaJourhmane^一号并BahaEddine Elbaghazaoui²

^一号TIAD实验室科技学院Sultan MoulaySlimane大学Mugilla校园,摩洛哥贝尼梅拉尔
²计算机科学实验室,科学学院,Ibntofail大学,摩洛哥

^*对应作者 :abd_semmouri@yahoo.fr

抽象性

本文中我们考虑对离散时间Markov决策过程进行约束优化,并有有限状态和动作空间,在每个决策段累积奖赏和成本寻找政策最大化预期全贴现受约束, 期望总贴现成本不大于给定值研究状态空间分解法深入强通信类计算最优或近优静态策略减值标准在若干领域有许多应用,例如森林管理管理、能源消耗管理、金融、通信系统(移动网络)和人工智能

必威西汉姆赞助2021年EDP科学出版

开存文章分发创用CC授权4.0允许在任何介质上不受限制使用、分发和复制,只要原创作品正确引用

当前用法度量显示文章视图累积计数(全文文章视图包括HTML视图、PDF和ePub下载,根据可用数据)和Vision4Press平台摘要视图

数据对应2015年后板状使用当前使用量度自在线发布后48-96小时提供并按周日每日更新

初始下载度量器可能花点时间