机器学习算法实践 K均值聚类的实用技巧 (机器学习)

文章编号：36897 资讯动态 2024-11-30 聚类分析 K均值无监督学习

机器学习算法实践 K均值聚类的实用技巧

编者按：本文作者为美国数据分析专家 Bilal Mahmood，他是用户数据分析平台 Bolt 的创始人之一。在本文中，他详细介绍了一种称为 K-Means Clustering（k均值聚类）的算法，其中包括如何衡量算法效果，以及如何确定你需要生成的数据段集数量。雷锋网编译整理，更多AI开发技术文章，关注AI研习社（微信号：okweiwu）。

Bilal Mahmood：我们最常做的分析之一,便是在数据中提取模式。比方说，某公司的客户可被划分入哪些细分市场？我们如何在用户网络中找到特定群体的聚类？

通过机器学习的方式，我们可以得到这些问题的答案。即使当我们不知道需要查找哪些特定数据段，亦或我们的数据格式是非结构化数据，我们都可以有这么一种技术手段，在算法上，分析出数据中合理的数据模式，合适的数据段和分类结果。

在本文中，我们将会详细介绍一种算法，K-Means Clustering(K均值聚类)，包括如何衡量其效果，以及如何确定我们要生成的数据段集数量。

监督VS无监督学习

机器学习算法实践 K均值聚类的实用技巧

在数据分类领域里，有两种有效的机器学习方式。

通过监督学习，如果你搞清楚哪些输入能映射到哪些离散数据段，便可以对结果的分类做预测。但在许多情况下，实际上不会有这些预定义好的标签，而只有非结构化数据——根本没有定义好的数据段。这时，您可能就需要借助无监督学习，从未标记的数据中推理出目标数据段。

为了更清楚一些，我们以分类T恤尺寸为例

如果我们拿到如图1A所示数据集，我们将有一组宽度（X1）和长度（X2）的输入，以及他们对应的T恤衫尺寸（S（蓝色）L（绿色））。在这种情况下，我们就可以通过监督学习的技术，如逻辑回归，来绘制一个明确的决策边界，并分离出各类T恤。

但如果我们得到一个如图1B所示的数据集，我们得到一组宽度（X1）和长度（X2）的输入，但没有对应的T恤衫尺寸标签。在这种情况下，我们就需要使用K均值聚类等无监督式学习技术，来找到相似的T恤衫，并将它们聚集到小（蓝色圆圈）和大（绿色圆圈）的各个类中。

在现实世界的许多应用中，你将面临如图2A所示的情况，因此搞明白如何从非结构化的数据中提取出结构，会有很大的用处。

K均值聚类

K均值聚类给无监督机器学习提供了一个非常直观的应用，在非结构化的数据中归纳出结构，

K均值聚类，正如其名，会将您的数据中相似的观察结果，分配到同组簇中。它包括4个简单重复的步骤，迭代地评估对每个观察值有最近（平均）距离的簇。因此，如果一组观察结果彼此接近，它们可能属于一组簇。

让我们逐步细细了解该算法。第一步，随机初始化一组聚类中心（上面图2A中的X），或者说，是各组簇的中心。在开始之前，你可以将这些聚类中心设置在任何地方，但我们建议，在你对其初始化的时候，用与你设定的观察值相匹配的随机点。您将依次利用这些类中心，来对你的观察值进行分组，将那些与类中心平均距离最近的观察值（图2B中的蓝色和绿色圆圈）确定一个聚类归属。

该步骤会将数据初始化成几组簇，将你的数据中与类中心最接近的观察值聚集到一起。但是这些第一次分配后的数据簇，可能不是十分合适的。所以下一步，你会将你的聚类好的数据簇移动到一个更接近，更合适的位置。即在每个当前已有的各个簇中找到它们的平均观察值，然后你的聚类中心移动到该位置来（图2C）。然后，以新的聚类中心为基准，找到的平均距离最近的观察值，并将其分配到新的簇（图2D）

您可以重复进行此过程：簇分配-查找平均距离-移动聚类中心，直到达到收敛。一旦你找到了一组簇，而且其中所有的观察值都能找到最接近的聚类中心，那就不需要再继续评估最近的平均距离和移动了。那些分组在一起的观察值将被聚类，这样的话它们可以在输入中共享相似性（如由它们对同一聚类中心所表现出的接近度），你也为你的数据找到了一组合适的聚类方式。

你使用了多少组簇？

机器学习算法实践 K均值聚类的实用技巧

K均值聚类是一种有效的方法，可以为你的数据找到一个良好的聚类方式。但仍然有一个问题，一开始你如何决定要使用多少组簇？

当你不清楚非结构化数据集的标签或者分类时，需要无监督学习的方式（如K均值聚类）来辅助。因此，数据本身不会告诉你，簇的正确数量（或标签）是多少。

那么，你该如何衡量自己数据用多少组簇呢？最简单的方法是利用测量簇的误差，具体如下：

机器学习算法实践 K均值聚类的实用技巧

此函数通过比较观察值（X）与其指定的聚类中心（μ）之间的距离来评估簇的误差。如果每个对应的聚类中心均呈现最低距离，或者最低总体误差最低，那么这些聚类中心就是与数据最符合的聚类结果。

回到我们T恤衫尺寸的示例，我们如何使用该误差函数来确定正确的簇的数目？一种方法是“肘部法则”，如上图3所示。通过绘制数据相对于你初始化的簇的数量的误差，你可以发现误差变化率最尖锐的点。图3中似乎是在两个簇的地方，表明我们应该可能去划分为小和大两种。

雷锋网提醒，该方法需要注意：通常在你的误差曲线中没有明显的拐点。因此，不可能总是使用肘部法则来确定合适数量的簇。

在这种情况下，建议依靠你的直觉或者待解决的问题的上下文。例如，在T恤尺寸案例中，你可能很清楚你想将T恤分为5种尺寸 - 超小型，小型，中型，大型和超大型。但这并不是数据给你提示清楚的，但基于你的直觉，你可以初始化为五个簇数量，并得到合适的聚类。

总而言之，对于到一个聚类问题，K均值聚类提供了一种可迭代的并且有效的算法来发掘数据中的结构。

雷锋网注：这篇博文是基于吴恩达在 Coursera 机器学习课程 中教授的概念。

版权文章，未经授权禁止转载。详情见转载须知。

机器学习算法实践 K均值聚类的实用技巧

本文地址： https://www.gpxz.com/article/d9d08c8d0b66a27a13aa.html

上一篇：周志华撰文介绍机器学习两大派别；机器学习中

下一篇：维基百科和谷歌联合开发机器学习算法如何揪

USB数据线

江涵电子成立于2008年，是一家专业的线束加工厂家，产品涵盖：新能源汽车线束、工业线束、光伏线束、医疗线束、USB数据线、端子线、无线充电器、数码周边配件等，提供OEM&ODM服务。热线：0769-87935676

硬件数码 2026-01-24 21:28:15

慧见视界网

慧见视界网，是一家致力于打造高质量作文范文的学习与交流平台。我们深知，在文字的海洋里，每一篇优秀的作文都是思想的火花与语言艺术的结晶。因此，本网站精心汇聚了广泛题材的作文范例，覆盖从小学到高中乃至大学各阶段的教育需求，旨在为学生、教师及写作爱好者提供丰富的灵感源泉和学习资源。

编程开发 2026-01-24 23:30:54

超巴云

超巴云计算的IDC业务包括核心电商、云计算、云服务器、云空间、云桌面服务器以及创新项目和其他业务。

游戏网游 2026-01-25 19:02:17

haotl天龙八部私服发布网

haotl天龙八部私服发布网,国内知名天龙八部最新开服sf,下设天龙sf教育,免费天龙八部公益服发布网时尚,购物,科技,娱乐,生活,天龙八部私服发布网互动等天龙八部发布网频道。

明星娱乐 2026-01-25 21:23:29

中能石油工程有限公司

中能石油工程有限公司--中能石油工程（天津）有限公司是一家拥有海外施工经验的石油化工安装公司

电影视频 2026-01-25 21:49:04

房车房舱锁

斯科企业成立于2009年,匠心经营十四载,是一家集自主研发、生产、销售和服务于一体的高新技术企业,是国内领先的五金智能集成系统解决方案提供商。拥有30多个牌号的合金新材料,同时也可以根据客户的需求来定制相关产品,满足客户多样需求。

商业服务 2026-01-26 00:00:28

成都装修设计公司

四川岚庭家居有限公司17500㎡居家体验，是一个集团化、专业化和工厂化的大型家居企业，成都装修公司口碑，岚庭提供各类风格装修效果图，成都房子基础装修大概多少钱，成都装修公司哪家好，就找【岚庭集团】

设计美化 2026-01-28 16:45:01

知方石投资有限公司

投资理财 2026-01-28 20:57:48

夜店网

夜店网是一个关注中国电子音乐产业以及夜店Club发展的社区平台，用新视角解读现代夜店Club的价值和酒吧文化，夜店网致力于维护和推广中国电子音乐的发展，挖掘国内潜在的DJ电子音乐创作人。

音乐歌曲 2026-01-28 22:02:55

冲孔桩机厂家

南通永威机械有限公司最早成立于1969年，位于江苏省南通市。是一家专业生产销售冲孔打桩机、冲击钻机、手拉锤钻机、卷扬机、打桩机的厂家。另外公司还有卷扬机租赁，打桩机锤头租赁服务，南通永威拥有高大宽敞的生产环境，精密的生产设备，严谨的检测手段，过硬的专业队伍，高效的管理团队，铸就了公司的生产基础和一日千里的发展势头。欢迎致电：13376111949

行业信息 2026-01-29 15:39:18

上海碳博会

上海国际碳中和科技展览会简称「COExpo上海碳科展」以“中和科技，碳索未来”为主题,以广大的市场需求导向配套同期高端产业论坛交流,促进产业链与创新链深度融合,充分发挥科技创新对绿色低碳转型的关键支撑作用,促进培育绿色低碳产业发展的新动能！

科技创新 2026-01-29 17:39:42

智能logo设计

小威logo智能设计为您在线提供logo制作服务，从logo设计，企业VI，到商标注册版权保护，满足各行业品牌设计需求。简单便捷，便宜好用！

设计美化 2026-01-20 20:56:33

最好玩的农场游戏推荐经营种植游戏排行 (最好玩的农场游戏)

繁华忙碌的都市生活让人们身心疲惫，每个人都曾想过要远离这种喧嚣，有这么一种游戏就能让你片刻间感受田园生活的乐趣，在这些2022最好玩的农场游戏中，一定有你想要体验的田间生活，让玩家即使不用出门也能感受到单纯的轻松快乐，快来让这片浓郁的绿色洗涤你的心灵吧，这款游戏的画面清新Q萌，操作简单有趣，是经典款的经营类型，玩家在游戏中作为继承父业...。

2025-02-11 23:23:51

摘下齿科行业的后疫情时代牙科机构如何霸市场口罩 (齿科行业怎样)

赚钱，快、准、狠，私域流量如何在齿科行业变现，我国口腔行业增长迅速，看牙已经不再是中老年的专属，随着人们对口腔健康的认识提高，90、00后的初次看牙年龄不断降低，虽然儿童首次口腔消费不高，但是却为家长以及儿童本人对口腔健康的认识不断加深，从而养成了齿科消费习惯，有数据表明中国口腔服务行业市场规模已经超过1500亿元，预计到2024年，...。

2024-12-03 17:36:25

宠物店的宠物从哪进货 (宠物店的宠物都是哪里来的)

说起宠物，大家都知道，现在的宠物地位在不断的上升，有些宠物爱好者，让自己的宠物有着和孩子的同等待遇，在家庭中的地位是较高的，宠物的地位高了，一些有商业头脑的人就会宠物来发财，这也是比较好的创业项目，也有一些人开起了宠物店，那么宠物店的宠物从哪进货，这是对没有经验的智慧之选商面临很大的问题，下面一起来看看宠物的进货渠道吧，购买私人饲养的...。

2024-12-02 21:19:42

记录四大顶级专家谈AlphaFold2 上篇风向与学术思考 (四大纪录)

尽管，距离Deepmind公司AlphaFold2的横空出世，已经过去了两周的时间，但是围绕AlphaFold2的讨论热度依然不减，AlphaFold2是否是完美无缺，如果不是，它的，胜利，具体体现在哪些项目上，AlphaFold2对结构生物学的影响有哪些，哪些方向能受益而加速突破，哪些方向会受到影响而淡出，学术研究者与企业工程人员该...。

2024-11-30 21:42:38

广西巴马地震 (广西巴马地震刚刚最新)

有确定时间的都是谣言，不可信的，西藏那曲6.6级地震严重吗西藏那曲6.6级地震来的也太突然了！这是今年有史以来，中国发生的最大地震，还是比较严重的，好在这个地方比较偏僻，没多少人，震感强烈，但暂无人员伤亡，具体西藏那曲6.6级地震情况如何可以看看本站提供的介绍，西藏那曲6.6级地震严重吗07月23日04时07分在西藏那曲市尼玛县，北纬...。

2024-11-29 19:46:45

坚果微果C1投影仪评测实测分析坚果微果C1性价比怎么样 (坚果微果c1参数)

发表在坚果投影仪2022，6，813，38坚果微果C1是近期上市的新品便携式投影仪，整机有着不错的性能配置，看上去性价比较高，但是实际的使用效果真的有那么理想吗，下面就通过实际的使用体验了解这款投影仪，看看坚果微果C1的性价比究竟如何，1.坚果微果C1外观评测坚果微果C1的整机相对小巧轻便，整个设备的占地面积较小，不过机身有一定的高度...。

2024-11-28 23:20:02

3个人的意思读音是什么位比如3位日语初级问题 (三个人指什么)

这个时候用的量词是——名，めい、mei，位的读音是，位くらい、位い，くらい，表示皇位，地位，还能表示程度数量的多少左右，以及数学中表示，个十百千万的数位，的，位，い；组词有，位置，いち，表示位置，表示顺序位，如组词有，冠军位，等所谓的单相一位开关是什么意思，单相二位、三位，双控分别是什么单相一位开关，适用于单向交流电220V电压，开...。

2024-11-24 17:45:07

菲律宾向合法滞留中国仙宾礁的菲海警船空投物资中国海警发声 (菲律宾违法)

新京报讯据中国海警官微信息，中国海警局资讯发言人甘羽示意，8月28日，菲律宾1架H，145型直升机向合法滞留中国仙宾礁的菲海警9701号船空投物资，中方全程跟监、依规处理，菲方冒险行径，极易形成海空不测事情，近期，菲方屡次希图经过海警船、公务船、渔船等，对9701号船实施运补均遭失败，菲9701号船可以机动、自行撤退，关系疑问即能迎刃...。

2024-11-13 16:34:58

innovation是什么意思 (innovation)

innovation英[ˌɪnəˈveɪʃn]美[ˌɪnəˈveʃən]n.革新，翻新，新观点，新发明，新设备，[网络]新息，方法翻新，翻新产品，[例句]ThevegetarianburgerwasaninnovationwhichwasrapidlyexportedtoBritain.素食汉堡是一种迅速传到了英国的新开发食品，[其余...。

2024-07-16 05:10:14

恋情姓名配对测试情侣名字速配对对碰快来看看吧 (恋情姓名配对大全)

情侣姓名配对方法，就是把你们两团体的姓名笔划总数相加，得数是几，就到上方的表格里去找，点击数字检查结果，例如，王大明王4划、大3划，明8划，合计，15划李小美李7划、小3划，美9划，合计，19划结果，15，19=34示意两情相悦，情侣姓名配对测试结果，两人有默契他十分关心你你和他只能做好友兴味不合男生被动第三者参加他十分厌恶你早点离别...。

2024-07-09 18:08:56

华为手机中360清算巨匠的通信录权限怎样开启 (华为手机中36o助手可删除吗?)

想要给华为手机中的360清算巨匠开启通信录权限，该怎样操作呢，当天就跟大家引见一下华为手机中360清算巨匠的通信录权限怎样开启的详细操作步骤，1.解锁手机后，找到桌面上的设置图标，关上，2.进入设置页面后，选用，运行和通知，选项，关上，3.在关上的运行和通知页面，找到，权限治理，选项，关上，4.在关上的权限治理页面，找到，360清算巨...。

2024-07-05 18:44:05

【SQL数据库备份恢复助手下载】2022年最新官方正式版SQL数据库备份恢复助手免费下载

腾讯软件中心提供2022年最新2.9.1官方正式版SQL数据库备份恢复助手高速下载，本正式版SQL数据库备份恢复助手软件安全认证，免费无插件。

2023-09-19 01:32:05

文章推荐

采用7nm工艺对打英伟达4nm性能壁仞科技三年造出首款通用GPU (采用7nm工艺的手机处理器有哪些)

消息，GPU明星初创公司壁仞科技，选在公司创立即将三年之际正式发布首款通用GPU芯片BR100，BR100采用7nm工艺，集成770亿晶体管，使用Chiplet，芯粒，技术，2.5DCoWos封装技术，芯片面积达到1000平方毫米，BR100通用GPU16位浮点算力达到1000T以上、8位定点算力达到2000T以上，单芯片峰值算...。

2024-12-09 19:19:09

资讯动态

AITO问界M7如何炼成满级功力解构智能座舱娱乐体验 (aito问界m7)

智能座舱的，智能，体现在哪，是高大上的设计风格，是硕大的中控屏幕，还是系统中寥寥无几的自带应用，如今，人们对于一辆车的期待早已不止于传统的，三大件，，是否在出行途中的每一刻给自己带来愉悦享受，才是用户更为关注的，7月4日，华为nova10及全场景新品夏季发布会正式举办，AITO问界M7豪华智慧大型电动SUV惊艳亮相，而在如何给用户带来...。

2024-12-03 23:32:00

资讯动态

正式出道我金小蝶练习时长五年 (正式出道是什么意思)

小蝶，请对今年企业销售事业部的业绩进行分析，小蝶我看到风华科技园是预警状态，具体是什么原因呢，小蝶，‘资金占用额度过高，的风险有没有什么建议，在11月11日的全球创见者大会上，一名企业管理者不断向财务BP，金小蝶，发问，而，金小蝶，的反应也十分迅速，分分钟就对企业业绩、预警情况进行了全面分析，并针对资金异常情况，立马给出许...。

2024-11-30 18:55:56

资讯动态

或许不是最佳的深度学习优化器假设！Adam 新奇 (或许不是最佳的英文)

译者，AI研习社，Bornalone°，双语原文链接，NEURALNETWORKS，MAYBE，EVOLVEDTOMAKEADAMTHEBESTOPTIMIZER免责声明，这篇文章和我平时的有些不同，事实上，我不会证明任何东西，我只是简单地解释一下我关于深度神经网络优化的一些猜想，和我平时的帖子不同，我写的东西完全有可能是错的，我已经...。

2024-11-30 18:26:59

资讯动态

极米投影仪怎么下载app (极米投影仪怎么看电视台节目)

发表在专业问答2022，4，2917，18展示机型信息，品牌型号，极米H3S、华硕飞行堡垒7系统版本，当贝OS3.0、Windows10软件版本，当贝市场4.3.6极米投影仪可以通过自带应用商城或第三方的应用商城下载软件，以下是具体下载app的操作步骤，极米投影仪怎么下载app方法一，自带应用商城1.进入应用板块先进入到极米投影仪的应...。

2024-11-28 22:49:16

网络百科

机器学习算法实践 K均值聚类的实用技巧 (机器学习)

监督VS无监督学习

K均值聚类

你使用了多少组簇？

相关文章

文章推荐