别再死记硬背KMeans公式了！用Python从零实现，带你搞懂聚类算法的‘质心’到底怎么动

发布时间：2026/6/2 0:32:40

从零实现KMeans聚类用Python动态可视化质心迁移之谜当你第一次接触KMeans算法时是否曾被那些数学符号和公式吓到随机初始化的质心如何在迭代中逐渐找到最佳位置簇内平方和(Inertia)的下降过程究竟隐藏着什么规律本文将带你用Python从零实现KMeans核心算法并通过动态可视化揭开聚类过程中最关键的质心移动机制。不同于单纯记忆公式我们将通过代码直观感受算法如何自主发现数据中的自然分组。1. 理解KMeans的舞蹈质心与数据点的互动艺术想象一场精心编排的舞蹈质心就像领舞者数据点则是跟随者。每一轮迭代都是舞蹈动作的调整过程初始站位随机选择的质心就像不熟悉舞步的领舞者站在舞池的任意位置第一支舞每位跟随者(数据点)选择距离最近的领舞者(质心)组成临时舞群调整队形领舞者移动到当前舞群的中心位置形成更协调的队形循环优化重复选择与调整直到领舞者位置不再显著变化用Python实现这个过程时我们需要关注三个核心变量# 关键变量初始化示例 import numpy as np np.random.seed(42) # 确保可重复性 # 生成模拟数据300个二维点明显分为3个簇 data np.vstack([ np.random.normal(loc[0,0], scale0.5, size(100,2)), np.random.normal(loc[5,5], scale0.8, size(100,2)), np.random.normal(loc[8,1], scale0.3, size(100,2)) ]) k 3 # 预设簇数量 max_iter 100 # 最大迭代次数 tolerance 1e-4 # 收敛阈值提示在实际应用中k值的选择需要结合业务需求或肘部法则确定这里我们假设已知最佳簇数为32. 算法核心实现拆解KMeans的引擎部件2.1 初始化阶段的策略选择随机初始化质心看似简单却直接影响算法收敛速度def initialize_centroids(data, k): 改进的初始化方法避免质心过于接近 centroids [data[np.random.randint(len(data))]] for _ in range(1, k): # 计算每个点到最近质心的距离 dists np.array([min([np.linalg.norm(x-c) for c in centroids]) for x in data]) # 按距离加权概率选择下一个质心 probs dists / dists.sum() next_centroid data[np.random.choice(len(data), pprobs)] centroids.append(next_centroid) return np.array(centroids)这种方法相比完全随机初始化能显著减少后续迭代次数。2.2 分配阶段的距离计算优化传统实现中距离计算可能成为性能瓶颈。我们使用矩阵运算加速def assign_clusters(data, centroids): 向量化计算距离矩阵 # 扩展维度以便广播计算 expanded_data data[:, np.newaxis, :] expanded_centroids centroids[np.newaxis, :, :] # 计算欧式距离平方避免开方运算 distances np.sum((expanded_data - expanded_centroids)**2, axis2) # 返回每个点的最近质心索引 return np.argmin(distances, axis1)2.3 更新阶段的质心重计算质心更新需要处理可能的空簇情况def update_centroids(data, labels, k): 安全更新质心处理空簇 new_centroids [] for i in range(k): # 获取当前簇所有点 cluster_points data[labels i] if len(cluster_points) 0: new_centroids.append(cluster_points.mean(axis0)) else: # 若出现空簇随机重新初始化该质心 new_centroids.append(data[np.random.randint(len(data))]) return np.array(new_centroids)3. 可视化呈现让算法过程一目了然3.1 静态多帧对比法展示关键迭代步骤的质心位置变化import matplotlib.pyplot as plt def plot_kmeans_steps(data, all_centroids, labels_history): plt.figure(figsize(15,10)) for i, (centroids, labels) in enumerate(zip(all_centroids, labels_history)): plt.subplot(2, 3, i1) # 绘制数据点按簇着色 plt.scatter(data[:,0], data[:,1], clabels, cmapviridis, alpha0.5) # 绘制质心轨迹 plt.scatter(centroids[:,0], centroids[:,1], cred, markerX, s200) plt.title(fIteration {i1}) plt.tight_layout() plt.show()3.2 动态实时演示使用matplotlib动画功能展示质心移动过程from matplotlib.animation import FuncAnimation def animate_kmeans(data, all_centroids, labels_history): fig, ax plt.subplots(figsize(8,6)) def update(frame): ax.clear() centroids all_centroids[frame] labels labels_history[frame] # 绘制当前状态 scat ax.scatter(data[:,0], data[:,1], clabels, cmapviridis, alpha0.5) centroids_plot ax.scatter(centroids[:,0], centroids[:,1], cred, markerX, s200, edgecolorblack) # 绘制质心移动轨迹 for i in range(len(centroids)): path np.array([c[i] for c in all_centroids[:frame1]]) ax.plot(path[:,0], path[:,1], r--, alpha0.3) ax.set_title(fIteration {frame1}) return scat, centroids_plot ani FuncAnimation(fig, update, frameslen(all_centroids), interval800, blitFalse) plt.close() return ani4. 算法调优与实战技巧4.1 评估指标实现除了观察Inertia下降还需实现轮廓系数等评估指标from sklearn.metrics import silhouette_samples def calculate_metrics(data, labels, centroids): 计算多种评估指标 # 计算Inertia inertia sum(np.linalg.norm(data[i]-centroids[labels[i]])**2 for i in range(len(data))) # 计算轮廓系数 sil_samples silhouette_samples(data, labels) avg_silhouette np.mean(sil_samples) return { inertia: inertia, silhouette: avg_silhouette, cluster_sizes: np.bincount(labels) }4.2 常见问题解决方案实际实现中可能遇到的典型问题及对策问题现象可能原因解决方案质心震荡不收敛学习率过高/数据尺度不一数据标准化/设置收敛阈值空簇频繁出现K值过大/初始化不当改进初始化方法/合并相近簇局部最优解随机初始化敏感多次运行取最优解维度灾难高维数据距离失效特征选择/PCA降维4.3 进阶优化方向对于追求更高性能的场景可以考虑# 使用Numba加速距离计算 from numba import njit njit def euclidean_distance(x, y): return np.sqrt(np.sum((x - y)**2)) # GPU加速版本示例 import cupy as cp def gpu_kmeans(data, k, max_iter): data_gpu cp.asarray(data) centroids data_gpu[cp.random.choice(len(data), k, replaceFalse)] for _ in range(max_iter): # 在GPU上计算距离 distances cp.linalg.norm(data_gpu[:, None] - centroids, axis2) labels cp.argmin(distances, axis1) new_centroids cp.array([data_gpu[labelsi].mean(axis0) for i in range(k)]) if cp.allclose(centroids, new_centroids): break centroids new_centroids return cp.asnumpy(centroids), cp.asnumpy(labels)在完成基础实现后尝试用不同分布的数据集测试算法表现。例如创建非球形分布数据观察KMeans的局限性这会自然引出对DBSCAN等密度聚类算法的学习需求。

为什么要聚焦：不聚焦，必死

一、为什么要聚焦：不聚焦，必死AI领域太广了，从ChatGPT、Midjourney到Sora、AI编程、数字人……如果你什么都碰，会出现三个致命伤：1. 用户记不住你，算法也记不住平台的推荐算法靠的是“标签”。你今天讲AI写…

2026/6/2 0:32:40 阅读更多

青年公寓服务平台|基于springboot+vue的青年公寓服务平台(源码+数据库+文档)

民宿在线预定平台|青年公寓服务平台目录基于springbootvue的青年公寓服务平台一、前言二、系统设计三、系统功能设计四、数据库设计五、核心代码六、论文参考七、最新计算机毕设选题推荐八、源码获取： 博主介绍：✌️大厂码农|毕设布…

2026/6/2 0:32:20 阅读更多

毕业论文神器！2026年最火AI论文软件榜单，免费版也能写合规初稿

2026 年实测 10 款主流 AI 论文工具，千笔AI以全流程覆盖语义级降重免费查重领跑综合榜；ThouPen 稳坐留学生毕业全流程工具头把交椅；免费工具中DeepSeek Scholar、豆包学术版表现亮眼，30 分钟即可生成万字高质量初稿&#xff0…

2026/6/2 0:31:39 阅读更多

Sora 2色彩空间终极对照表：RGB/HSV/HSL/Lab/XYZ五维坐标系转换速查+自动校准脚本（附GitHub开源链接）

更多请点击： https://codechina.net 第一章：Sora 2色彩空间的核心定位与设计哲学 Sora 2色彩空间并非对传统RGB或YUV模型的简单扩展，而是面向生成式视频理解与重建任务重构的语义感知型表征体系。其核心定位在于弥合人类视觉感知连续性、物理…

2026/6/2 1:08:48 阅读更多

【AI图像生成工具采购决策框架】：技术负责人必读的5维评估模型（推理延迟/商用授权/私有化支持/微调成本/审计日志），已验证于8家A股上市公司

更多请点击： https://codechina.net 第一章：AI图像生成工具综合评测近年来，AI图像生成工具在创意设计、营销素材制作与原型开发等领域展现出强大生产力。本章聚焦主流开源与商业工具的实际表现，从生成质量、可控性、本地部署可行…

2026/6/2 1:08:48 阅读更多

如何在 iPad 上恢复已删除/丢失的日历？

您是否曾意外删除过 iPad 上的日历事件，现在正苦恼如何恢复它们？别慌，您并不孤单。许多用户会无意中删除重要的约会，或者遇到iOS故障导致日历数据丢失。幸运的是，有几种方法可以恢复 iPad 上已删除的日历。本指南将全面…

2026/6/2 1:08:48 阅读更多

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Reducing Credit-Assignment Variance Through这篇论文（IBPO: Implicit Behavior Policy Optimization）的核心是把 LLM 推理 RL 里的信用分配（credit assignment）问题重新表述成一个反事实比较问题。我按"它在讲一个什么样的…

2026/6/2 1:08:48 阅读更多

告别复制粘贴！用Postman Tests脚本实现API自动化测试的5个实战场景

告别复制粘贴！用Postman Tests脚本实现API自动化测试的5个实战场景在API开发和测试领域，手动验证每个接口的返回结果不仅耗时耗力，还容易出错。Postman作为一款强大的API测试工具，其Tests脚本功能能够将我们从重复劳动中解放出来&…

2026/6/2 1:08:07 阅读更多

实战OpenCV与Python：如何用代码获取和验证你的相机内参矩阵K？

实战OpenCV与Python：高精度相机标定全流程与结果验证指南棋盘格在桌面上微微颤动，你按下快门的手指悬在半空——这张照片会成为标定失败的第17个样本，还是解开三维重建精度谜题的关键？当SLAM系统在走廊尽头突然漂移，当…

2026/6/2 1:07:27 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/1 0:24:01 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/1 2:19:25 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/1 0:23:56 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/1 0:06:19 阅读更多

相关文章

为什么要聚焦：不聚焦，必死

青年公寓服务平台|基于springboot+vue的青年公寓服务平台(源码+数据库+文档)

毕业论文神器！2026年最火AI论文软件榜单，免费版也能写合规初稿

Sora 2色彩空间终极对照表：RGB/HSV/HSL/Lab/XYZ五维坐标系转换速查+自动校准脚本（附GitHub开源链接）

【AI图像生成工具采购决策框架】：技术负责人必读的5维评估模型（推理延迟/商用授权/私有化支持/微调成本/审计日志），已验证于8家A股上市公司

如何在 iPad 上恢复已删除/丢失的日历？

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

告别复制粘贴！用Postman Tests脚本实现API自动化测试的5个实战场景

实战OpenCV与Python：如何用代码获取和验证你的相机内参矩阵K？

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因