K-Means 算法详解

news/2024/2/28 0:25:22

K-Means 算法详解

K-Means 是一种流行的聚类算法,用于将数据划分为预定数量的簇(clusters)。

K-Means 算法的基本步骤

1. 初始化

  • 随机选择 k k k 个数据点作为初始质心(centroids)。

2. 分配数据点

  • 将每个数据点分配到最近的质心,形成 k k k 个簇。

3. 更新质心

  • 对于每个簇,计算所有数据点的均值,并将该均值作为新的质心。

4. 迭代

  • 重复步骤 2 和 3 直到满足停止条件(如质心不再显著变化或达到最大迭代次数)。

数学原理

1. 距离度量

  • 通常使用欧氏距离来度量数据点与质心之间的距离:

    Distance = ∑ i = 1 n ( x i − y i ) 2 \text{Distance} = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} Distance=i=1n(xiyi)2

    其中 x i x_i xi y i y_i yi 是两点在第 i i i 维的坐标。

2. 目标函数

  • K-Means 的目标是最小化所有簇内数据点与其质心的距离之和:

    J = ∑ j = 1 k ∑ i = 1 n j ∣ ∣ x i ( j ) − c j ∣ ∣ 2 J = \sum_{j=1}^{k} \sum_{i=1}^{n_j} ||x_i^{(j)} - c_j||^2 J=j=1ki=1nj∣∣xi(j)cj2

    其中 n j n_j nj 是第 j j j 个簇中的数据点数, x i ( j ) x_i^{(j)} xi(j) 是簇 j j j 中的第 i i i 个数据点, c j c_j cj 是簇 j j j 的质心。

代码

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt# 生成模拟数据
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)# 创建KMeans实例
kmeans = KMeans(n_clusters=4)# 训练模型
kmeans.fit(X)# 预测簇标签
y_kmeans = kmeans.predict(X)# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5)
plt.title("K-Means Clustering")
plt.show()

在这个示例中,我们首先生成了一组模拟数据,然后创建了一个KMeans实例并指定簇的数量。接着,我们训练了模型并预测了每个数据点的簇标签。最后,我们使用Matplotlib可视化了聚类

K-Means 与 C-Means 的区别

K-Means

  • 硬聚类方法,每个数据点只属于一个簇。
  • 使用欧氏距离作为距离度量。
  • 更简单和快速。

C-Means(模糊C-Means)

  • 软聚类方法,每个数据点以一定程度属于所有簇。
  • 数据点对簇的隶属度是模糊的,由隶属函数给出。
  • 更适用于簇的边界不清晰的情况。

C-Means 为数据点提供了更多的灵活性,允许它们以不同程度属于多个簇,这在一些应用中可能更为合适。


http://www.ppmy.cn/news/1256705.html

相关文章

Vue3Element-plus编写一个简版的字典服务

之前公司有维护过一个内部的字典平台,基本步骤和页面如下 添加字典属性弹窗 添加枚举值弹窗 基本业务代码如下 核心代码 import { defineStore } from pinia export const useDictionary defineStore(dictionary, {state: () > ({dict: [],dictObj: {},}),actions: {s…

【Appium】解决搜索输入框无搜索按钮

问题:被测组件为搜索输入框,但是无搜索按钮,需要点击键盘的回车按钮,来进行搜索 使用环境:appium 、 python、 Android手机 操作背景 如果使用appium 输入中文字符,则需要设置’unicodeKeyboard’: True…

开箱即用!教你如何正确使用华为云CodeArts IDE for C/C++!

华为云CodeArts IDE 定位华为云开发者桌面,是华为云面向开发者提供的一款智能化桌面集成开发环境。CodeArts for C/C集成了华为自研的C/C语言服务,并将良好的C/C编码体验、方便的访问华为云资源、简单的引用华为云服务于一身。实现C/C开发者在个人研发作…

免费百度SEO优化工具,百度SEO优化排名工具

百度SEO关键词工具 让我们聚焦在百度SEO关键词工具上。对于任何想要在百度搜索引擎中脱颖而出的网站管理员而言,深入了解用户搜索习惯和关键词的选择是至关重要的。 百度SEO关键词工具不仅提供了免费的服务,而且功能强大。通过输入相关领域的关键词&…

python中的进制转换和原码,反码,补码

python中的进制转换和原码,反码,补码 计算机文件大小单位 b bit 位(比特) B Byte 字节 1Byte 8 bit #一个字节等于8位 可以简写成 1B 8b 1KB 1024B 1MB 1024KB 1GB 1024MB 1TB 1024GB 1PB 1024TB 1EB 1024PB 进制分类 二进制:由2个数字组成,有0 和 1 pyth…

LLM中损失函数解析

在GPT系列大语言模型中损失函数采用的是自回归语言建模任务,即根据前K-1个token预测第K个token,本质上都是交叉熵分类损失,在实现上预训练和监督微调稍有不同,本文分别进行介绍 预训练Pretrain 数据集 由于预训练数据集一般很大…

LeetCode [中等]98. 验证二叉搜索树

98. 验证二叉搜索树 - 力扣(LeetCode) 给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下: 节点的左子树只包含 小于 当前节点的数。节点的右子树只包含 大于 当前节点的数。所有左子…

npm上传发布自定义组件超详细流程

前言 vue3,vite,基于element Plus 的el-table二次封装表格并且上传到npm上,让别人可以通过npm安装你的插件。 一、创建一个新的vue 项目 npm create vuelatest 自己取一个名字,然后一直回车 完成以后进入项目npm i,有用到eleme…

WPS Office JS宏实现批量处理Word中的表格样式

由于本职工作原因,经常会用到office办公软件,经常很多内容审批后,需要统一修改内容或样式,如果Word文档中有上百页或上千页,则一个一个修改太麻烦了。 在接触到WPSJS宏后,发现工作效率大大提升;…

文字转语音、语音转文字! AI视频生成神器!

分享一波文字转语音、语音转文字!AI视频生成神器!让外国人说中文,口型自然,不限语言,感兴趣的同学可以试试~ 可以用Al生成视频,Whisper语音转文字 Whisper 开源项目: https://github.com/Const…

内存是如何工作的

一、什么是内存 从外观上辨识,它就是内存条;从硬件上讲,它叫RAM,翻译过来叫随机存储器。英文全称:Random Access Memory。它也叫主存,是与CPU直接交换数据的内部存储器。其特点是读写速度快,不…

网页文章采集工具-人工智能AI功能

简数采集器是一款支持人工智能AI功能的网页文章采集工具,它可以调用百度的文心一言AI对采集的数据进行分析,处理,内容创作等等,根据你的需求进行更加灵活的数据采集和处理。 文心一言人工智能AI功能使用方法: 1. 填写…

C语言面试之数组指针上篇

C语言数组是C语言中重要的数据结构之一,它用于存储一组相同类型的数据。数组在C语言中是以连续的内存空间来存储的,每个数组元素都是一个变量,占据一定的内存空间,数组元素之间是紧密相邻的。 一、数组的定义 在C语言中&#xff0…

C#基础与进阶扩展合集-进阶篇(持续更新)

目录 本文分两篇,基础篇点击:C#基础与进阶扩展合集-基础篇 一、进阶 1、Predicate 2、设置C#语言版本 3、ListCollectionView过滤集合 4、值类型与引用类型 5、程序设置当前项目工作目录 6、获取App.config配置文件中的值 7、Linq常用语句 8、…

[SHCTF 2023]——week1-week3 Web方向详细Writeup

Week1 babyRCE 源码如下 <?php$rce $_GET[rce]; if (isset($rce)) {if (!preg_match("/cat|more|less|head|tac|tail|nl|od|vi|vim|sort|flag| |\;|[0-9]|\*|\|\%|\>|\<|\|\"/i", $rce)) {system($rce);}else {echo "hhhhhhacker!!!".&…

【刷题日志】牛客 HJ73 计算日期到天数转换

计算日期到天数转换 阅读题目解题方案 及 解题思路方法一 . 手撕日期类方法二 . 分别直接算出平年和闰年每个月的时间 并对应下标存入数组中&#xff0c;判断该年份为平年还是闰年&#xff0c;再 for循环依次求和优化&#xff1a;也不用分别算出平年和闰年的每个月的时间&#…

设计模式 创建者模式

设计模式 创建者模式 前言原来代码使用设计模式总结Builder模式在源码中的应用&#xff1a;其他代码 前言 “对象创建”模式——绕开new 工厂模式 抽象工厂 原型模式 构建器 动机与背景 目前需要建造一个房子&#xff0c;建造房子需要一系列特定的步骤&#xff0c;但是房子的类…

java--接口概述

1.认识接口 ①java提供了一个关键字interface&#xff0c;用这个关键字我们可以定义出一个特殊的结构&#xff1a;接口。 ②注意&#xff1a;接口不能创建对象&#xff1b;接口是用来被类实现(implements)的&#xff0c;实现接口的类称为实现类。 ③一个类可以实现多个接口(接…

C++中rand()函数

rand()函数的使用 如果想要表示一个数是从0开始到最大值的&#xff0c;比如说&#xff0c;想要产生一个0-99之间的随机数&#xff0c;那么用法如下 int num rand() % 100; //产生0~99之间的随机数 如果想要产生一个数是从1开始到最大值的&#xff0c;比如说&#xff0c;…

回调函数初学习

1、回调函数是什么 回调函数是一种在编程中常用的概念&#xff0c;它是指将一个函数作为参数传递给另一个函数&#xff0c;并在特定事件发生时被调用执行的函数。回调函数通常用于异步编程中&#xff0c;当某个操作完成后&#xff0c;系统会调用预先定义好的回调函数来处理结果…
最新文章