模仿学习笔记

news/2025/6/21 16:33:06/

模仿学习总共分两类:

  1. 行为克隆:BC,Dagger
  2. 逆强化学习:又分为
    2.1基于最大边际逆强化学习 (无法主要歧义问题):学徒学习
    2.2 基于最大熵逆强化学习 (主要解决歧义问题):GAIL

学徒学习
在这里插入图片描述

在这里插入图片描述

基于最大熵逆强化学习: 思路 把熵函数加入在强化学习优化目标中,求最大期望汇报同时,熵最大的那个 来解决歧义问题
在这里插入图片描述
通过优化方法,求最大化的对数似然,解出w,然后R=w*状态-动作特征 近似奖励函数
在这里插入图片描述
在这里插入图片描述

GAIL
参考GAIL

在这里插入图片描述


http://www.ppmy.cn/news/1669684.html

相关文章

sizeof()运算符

在C语言中,sizeof 是一个非常重要的运算符,用于计算类型的大小,返回值为该类型所占用的字节数。以下是对 sizeof 的详细解释: 语法 sizeof 的语法有两种形式: sizeof(type):计算指定类型占用的字节数。s…

Added non-passive event listener to a scroll-blocking

解决 Added non-passive event listener to a scroll-blocking ‘wheel‘ event. Consider marking event handle警告 - 代码先锋网 其他 pm i default-passive-events -S npm WARN EBADENGINE Unsupported engine { npm WARN EBADENGINE package: achrinza/node-ipc9.2.2,…

C#语言中 (元,组) 的发展史

C# 中的元组(Tuple)详解 元组(Tuple)是 C# 中的一种数据结构,用于将多个不同类型的值组合成一个复合值。元组在 C# 7.0 中得到了重大改进,提供了更简洁的语法和更好的性能。 1. 元组的基本概念 元组允许你将多个值组合成一个单…

Cursor vs VS Code vs Zed

代码编辑器的世界已经迎来了创新的爆发。曾经由重量级IDE或基础文本编辑器主导的领域,如今开发者们发现自己正在探索全新一波聚焦于AI集成、协作和性能的工具。 在本文中,我们将深入探讨2025年三款流行的编辑器:Cursor、Visual Studio Code (VS Code)和Zed Code Editor。每…

软件设计师考试《综合知识》软件过程模型考点分析——求三连

软件设计师考试《综合知识》软件过程模型考点分析(2019-2023年) 1. 分值占比与考察趋势(75分制) 年份题量分值占总分比例核心考点2023222.67%敏捷开发 vs 瀑布模型2022111.33%增量模型特点2021222.67%原型法适用场景V模型测试对应…

牛客网NC22012:判断闰年问题详解

牛客网NC22012:判断闰年问题详解 📝 题目描述 题号:NC22012(牛客网) 时间限制:C/C/Rust/Pascal 1秒,其他语言2秒 空间限制:C/C/Rust/Pascal 32 M,其他语言64 M 判断一个…

ORACLE 11.2.0.4 数据库磁盘空间爆满导致GAP产生

前言 昨天晚上深夜接到客户电话,反应数据库无法正常使用,想进入服务器检查时,登录响应非常慢。等两分钟后进入服务器且通过sqlplus进入数据库也很慢。通过检查服务器磁盘空间发现数据库所在区已经爆满,导致数据库在运行期间新增审…

吴恩达机器学习笔记:特征与多项式回归

1.特征和多项式回归 如房价预测问题, ℎθ (x) θ0 θ1 frontage θ2 deptℎ x1 frontage(临街宽度),x2 deptℎ(纵向深度),x frontage ∗ deptℎ area (面积)…