(统计学习方法|李航)第一章统计学习方法概论-一二三节统计学习及统计学习种类,统计学习三要素

news/2023/12/4 21:58:20

目录

一·,统计学习

1.统计学习的特点

2.统计学习的对象

3.统计学习的目的

4.统计学习的方法

5.统计学习方法的研究

6.重要性

二,统计学习的基本种类

1.监督学习

(1)输入空间,输出空间和特征空间

(2)联合概率分布

(3)假设空间

(4)问题的形式化

2.无监督学习

3.强化学习

4.半监督学习与主动学习​编辑

三,统计学习方法三要素

1.模型

2.策略

(1)损失函数和风险函数

(2)经验风险最小化与结构风险最小化

3.算法


一·,统计学习

1.统计学习的特点

定义:统计学习(statistical learning)是一门计算机基于数据构建概率模型并运用模型对数据进行预测和分析的一门学科。

统计学习也称为统计机器学习。

  • 统计学习以计算机网络为平台
  • 统计学习以数据为研究对象
  • 统计学习的目的是对数据进行预测和分析
  • 统计学习以方法为中心
  • 统计学习是概率论,统计学,信息论,计算机理论,最优化理论及计算机科学等对各领域的交叉学科。

2.统计学习的对象

对象是数据(data)——数字,文字,图像,视频及其组合

过程:从数据出发,提取数据的特征,抽象出数据模型,发现数据的知识,又回到数据

的分析与预测上取,

3.统计学习的目的

考虑学习什么样的模型如何学习模型,以使模型能对数据准确的预测和分析

同时考虑尽可能地提高学习效率。

4.统计学习的方法

基于数据构建概率统计模型从而对数据进行预测和分析。

统计学习由监督学习无监督学习强化学习组成。

5.统计学习方法的研究

统计学习方法的研究一般包括统计学习方法统计学习理论统计学习应用三个方面

6.统计学习的重要性

二,统计学习的基本种类

统计学习(统计机器学习)一般包括监督学习,无监督学习,强化学习

有时还包括半监督学习和主动学习

1.监督学习

监督学习(supervised learning)是指从标注数据学习预测模型的机器学习问题。

标注数据表示输入输出的对应关系预测模型给定的输入产生相应的输出

监督学习的本质是学习输入到输出的映射的统计规律

(1)输入空间,输出空间和特征空间

(2)联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循

联合概率分布P(X,Y)

P(X,Y)表示分布函数和或分布密度函数

训练数据与测试数据被看作是依联合概率分布

P(X,Y)独立同分布产生的。

(3)假设空间

模型属于由输入空间输出空间映射的集合,这个集合就是假设空间

假设空间也即监督学习所要学习的范围

(4)问题的形式化

监督学习分为学习预测两个过程,由学习系统和预测系统共同完成。

预测形式:选择大的条件概率进行输出

y表示输出(like/dislike),x表示实例x的特征向量

2.无监督学习

        无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。

无标注数据是自然得到的数据,预测模型表示数据的类型,转换或概率。

无监督学习的本质是学习数据中的统计规律或潜在结构

无监督学习可用于对已有数据的分析,也可用于对未来数据的预测。流程与监督学习相同。

 

3.强化学习

        强化学习(reinforcement learning)是指智能系统与环境的连续互动中学习最优行为的机器学习问题。

强化学习的本质是学习最优的序贯决策。

强化学习过程中,智能系统不断地试错,以达到学习最优策略的目的。

4.半监督学习与主动学习

三,统计学习方法三要素

统计学习方法是由模型,策略和算法三要素构成

1.模型

统计学习首要考虑的问题是学习什么样的模型

在监督学习过程中,模型就是所要学习的条件概率分布决策函数

模型的假设空间包含所有可能的条件概率分布或决策函数

2.策略

有了模型的假设空间,接下来要考虑的就是按照什么样的准则学习或选择最优的模型

(1)损失函数和风险函数

损失函数:度量模型一次预测的好坏

风险函数:度量平均意义下模型预测的好坏

由于模型的输入,输出(X,Y)是随机变量,遵循联合分布P(X,Y)

所以损失函数的期望是:

 注意损失函数:

为Y(真实值)与f(x)预测值的不同方式的接近程度的比较。

(

  • 0-1损失函数针对的是分类问题
  • 平方损失函数和绝对损失函数针对的是回归问题
  • 对数损失函数针对的是概率模型

)

(2)经验风险最小化与结构风险最小化

根据大数定律,当N趋向于无穷大时:

经验损失(Remp)就会趋于 风险函数

经验风险:那每一个属性的值对应的损失函数的求一遍取平均值。取不同属性影响的最小值。

(经验风险越小,说明越拟合模型)

结构风险:

在后面加上了一个正则项,防止模型过拟合。

————过度的拟合数据,反而会使结果变差。

策略就是选取一个目标函数:(是经验风险还是结构风险)

从而达到优化模型的目的

 我们在训练集中发现拟合程度越来越好

但在dev(验证集)中有一个类似于二次函数的图像

(这就是一个过拟合的现象)

我们最终选择module2作为我们的模型,因为验证集下最贴近真实结果。

测试集下的73就是最终可以拿出来跟别人比较的分数。

3.算法

 


http://www.ppmy.cn/news/1021322.html

相关文章

[Python] 课时统计

废话不多说,直接上代码: import os from moviepy.editor import VideoFileClipdef calculate_total_duration(directory):total_duration 0for filename in os.listdir(directory):if filename.endswith((.mp4)): # 对该文件夹下的.mp4,.fl…

Day 26 C++ list容器(链表)

文章目录 list基本概念定义结构双向迭代器优点缺点List和vector区别存储结构内存管理迭代器稳定性随机访问效率 list构造函数——创建list容器函数原型示例 list 赋值和交换函数原型 list 大小操作函数原型示例 list 插入和删除函数原型示例 list 数据存取函数原型注意示例 lis…

Aviator这么丝滑,怎么实现的呢?

大家好,我是老三,在上期 里我们介绍了轻量级规则引擎AviatorScript的基本用法和一些使用案例,这期我们来研究一下,这么丝滑的规则脚本是怎么实现的。 概览 我们先来回顾一个简单的例子: Testpublic void test(){//表…

共享广告主项目:广告也能共享?全民广告时代来袭

科思创业汇 大家好,这里是科思创业汇,一个轻资产创业孵化平台。赚钱的方式有很多种,我希望在科思创业汇能够给你带来最快乐的那一种! 广告是我们日常生活中在衣食住行中可以看到的一种宣传方式。广告作为互联网社会的信息传播方…

公网环境Windows系统,远程桌面控制树莓派《内网穿透》

远程桌面控制树莓派,我们可以用xrdp协议来实现,它内部使用的是windows远程桌面的协议。我们只需要在树莓派上安装xrdp,就可以在同个局域网下远程桌面控制树莓派。 而如果需要在公网下远程桌面控制树莓派,可以通过cpolar内网穿透&a…

配置页面的路由

1.下载router npm i router 2.注册路由 文件路径 :src/router/index.js import Vue from "vue"; import VueRouter from "vue-router"; Vue.use(VueRouter); import Home from "../components/home.vue"; import Main from …

Python小白入门:文件、异常处理和json格式存储数据

这里写自定义目录标题 所用资料 一、从文件中读取数据1.1 读取整个文件1.2 文件路径1.3 逐行读取1.4 创建一个包含文件各行内容的列表1.5 使用文件的内容1.6 包含一百万位的大型文件1.7 圆周率值中包含你的生日吗练习题 二、写入文件2.1 写入空文件2.2 写入多行2.3 附加到文件练…

IO密集时epoll还高效吗?

io特别密集时为什么 epoll 效率不高。原因是: 连接密集(短连接特别多),使用epoll的话,每一次连接需要发生epoll_wait->accpet->epoll_ctl调用,而使用select只需要select->accpet,减少了…

探索前端动画之CSS魔法

引言 在现代网页设计中,动画已经成为了吸引用户注意力、提升用户体验的重要手段之一。而在前端开发中,CSS动画是一种常见且强大的实现方式。本篇博客将带你深入探索前端动画中的CSS魔法,通过清晰的思路和完整的示例代码,帮助你掌…

数字工厂管理系统能给企业管理者带来哪些好处

数字工厂管理系统是现代企业管理的神器,它能够以数字化方式管理企业的生产过程,实现生产过程的自动化、智能化和可视化。数字工厂管理系统解决方案不仅提高了生产效率,还给企业管理者带来了很多好处。下面就让我们来详细了解一下。 首先&…

基于2.4G RF开发的无线游戏手柄解决方案

平时喜欢玩游戏的朋友,肯定知道键鼠在某些类型的游戏适配和操作方面,不如手柄。作为一个游戏爱好者,还得配上一个游戏手柄才行。比如动作和格斗、体育游戏,由于手柄更合理的摇杆位置和按键布局,操作起来也是得心应手。…

使用luarocks安装cjson并使用cjson

1.luarocks安装 wget https://luarocks.org/releases/luarocks-3.3.1.tar.gz --no-check-certificatels -lrthtar -xvf luarocks-3.3.1.tar.gz mv luarocks-3.3.1 /usr/local/cd /usr/local/luarocks-3.3.1/./configure --prefix/usr/local/luarocks-3.3.1 vim /etc/profilePAT…

虹科方案 | 汽车总线协议转换解决方案

汽车总线: 汽车总线是一种用于在车辆电子系统中传输数据和控制信息的通信系统。它允许不同的电子控制单元(ECU)在车辆中相互通信,协调各个系统的操作,以实现功能的集成和协同工作。 在现代汽车中,综合通信…

Grafana Prometheus 通过JMX监控kafka

第三方kafka exporter方案 目前网上关于使用Prometheus 监控kafka的大部分资料都是使用一个第三方的 kafka exporter,他的原理大概就是启动一个kafka客户端,获取kafka服务器的信息,然后提供一些metric接口供Prometheus使用,随意它…

WordPress数据库一次性批量删除所有文章和删除指定分类文章技巧

在自己建网站时,有时需要将一个网站搬家到另一个空间里,只想保留网站的模板样式,而不需要里面的文章内容。这时我们可以在后台将已发布的文章删除掉。但如果文章很多时,我们就需要使用下面数据库操作进行一次性删除所有文章的方法。 wordpress批量删除文章步骤 进入网站空…

gpu-manager安装及测试

提示:GPU-manager安装为主部分内容做了升级开箱即用,有用请点收藏❤抱拳 文章目录 前言一、约束条件二、使用步骤1.下载镜像1.1 查看当前虚拟机的驱动类型: 2.部署gpu-manager3.部署gpu-admission4.修改kube-scheduler.yaml![在这里插入图片描…

外贸接单购物网站java开源搭建--内置客服系统+后台采集功能

搭建一个外贸接单购物网站是一个具有挑战的任务,需要考虑到用户界面设计、后端系统开发、客服系统和采集功能等多个方面。下面是一个大致的开发计划。 1. 用户界面设计 - 设计一个直观易用的用户界面,包括用户注册、登录、商品展示、下单等功能。 …

pir依赖编译记录

一、cmakegcc基础编译 windowscmakemingw 搭建c/c开发环境 - 知乎 (zhihu.com) 一定要安装mingw,不然会出现会出现编译出来的不存在makefile,无法进行下一步的make, 之后采用编译代码为 cmake -G"Unix Makefiles" ../ 二、ope…

菲律宾的区块链和NFT市场调研

菲律宾的区块链和NFT市场调研 基本介绍 参考: https://zh.wikipedia.org/wiki/%E8%8F%B2%E5%BE%8B%E5%AE%BE zheng治制度:Zongtong议会制 现任Zongtong: 小费迪南德马科斯, 是独裁者费迪南德马科斯之子,人称“小马科斯” 官方语言…

clion run qt 问题汇总

一、Error copying file “D:/soft/QT/5.15.2/mingw81_64/bin/Qt5Cored.dll” to “D:/work/Ccode/qtproject/cmake-build-debug-qtmingw”.报错 查看路径下确实没有Qt5Cored.dll,只有Qt5Core.dll 注释掉cmakelist中的这三行 重新执行后成功 二、使用CLion编辑u…
最新文章