强化学习笔记7——DDPG到TD3

news/2025/3/15 23:02:34/

前提:基于TD 的方法多少都会有高估问题,即Q值偏大。原因两个:一、TD目标是真实动作的高估。 二:自举法高估。
在这里插入图片描述

DDPG 属于AC方法:异策略,适合连续动作空间,因为他的策略网络直接输出的动作,是向量就表示执行的动作。
而之前的PPO是输出动作的均值和方差,DQN 等输出每个动作的概率

在这里插入图片描述在这里插入图片描述################## ### ###################相当于 TDerror 的两部分用两个网络预测 ###################### ########

TD3参考

TD3 相比DDPG 改进其实就是 针对不稳定、高估问题,加了两个策略网络和价值网络。即targetNet 和 mainNet ,和之前DQN的做法很像。
在这里插入图片描述
在这里插入图片描述

针对 Critic网络预测Q 偏大问题,设置两个Critic 同时估计Q ,然后选择小的那一个Q再做error


http://www.ppmy.cn/news/1573100.html

相关文章

滴水逆向_新增节

1 本人亲测过了,在win10,win11 下也是可以新增的 2 手动就不演示了, 能够准确地写程序完成新增节并且正常运行。 3 无论是内存对齐,文件对齐 相等还是说不相等都是可以实现的,测试过了。 附上代码: hea…

Python 高级特性

1. 装饰器(Decorators) 用途:动态修改函数/类的行为,常用于日志、权限、缓存等场景。示例:def timer(func):def wrapper(*args, **kwargs):start = time.time()result = func(*args, **kwargs)end = time.time()print(f"{func.__name__} executed in {end - start:.2…

括 号 问题

E-lz的括号问题_牛客小白月赛105 #include <bits/stdc.h> #define int long long using namespace std; string s; vector<vector<int>>f(1000000); signed main() {ios::sync_with_stdio(0);cin.tie(0),cout.tie(0);int n;cin>>n;cin>>s;queue…

Windows环境安装部署minimind步骤

Windows环境安装部署minimind步骤 必要的软件环境 git git&#xff0c;可下载安装版&#xff0c;本机中下载绿色版&#xff0c;解压到本地目录下&#xff08;如&#xff1a;c:\soft\git.win64&#xff09;&#xff0c;可将此路径添加到PATH环境变量中&#xff0c;供其他程序…

【线段树 二分查找】P3939 数颜色|普及+

本文涉及知识点 C线段树 C二分查找 P3939 数颜色 题目背景 大样例可在页面底部「附件」中下载。 题目描述 小 C 的兔子不是雪白的&#xff0c;而是五彩缤纷的。每只兔子都有一种颜色&#xff0c;不同的兔子可能有 相同的颜色。小 C 把她标号从 1 到 n n n 的 n n n 只兔…

利用Ollama搭建本地DeepSeek大模型

1. 下载安装ollama (1) 官网下载地址&#xff1a;https://github.com/ollama/ollama 这里以window版本为主&#xff0c;下载链接为&#xff1a;https://ollama.com/download/OllamaSetup.exe。 安装完毕后&#xff0c;桌面小图标有一个小图标&#xff0c;表示已安装成功&…

响应式布局学习笔记

什么是响应式布局&#xff1f; 响应式布局&#xff08;Responsive Web Design&#xff09;是一种网页设计方法&#xff0c;使网站能够根据设备屏幕尺寸&#xff08;如手机、平板、电脑&#xff09;自动调整内容和布局&#xff0c;提供最佳浏览体验。 如何调试响应式布局&…

JavaEE基础 Tomcat与Http (下)

目录 1.HTTP 协议 1.1 HTTP 协议概念 1.2. 无状态协议 1.3. HTTP1.0 和 HTTP1.1 1.4 请求协议和响应协议 ​编辑 1.5 请求协议 1.5.1 常见的请求协议 1.5.2 GET 请求 1.5.3 POST请求 1.5.4 响应协议 1.HTTP 协议 Http浏览器访问东西都是遵循的Http协议。 1.1 HTTP 协议…