机器学习算法实践 K均值聚类的实用技巧 (机器学习)

文章编号:36897 资讯动态 2024-11-30 聚类分析 K均值 无监督学习

机器学习算法实践 K均值聚类的实用技巧

编者按:本文作者为美国数据分析专家 Bilal Mahmood,他是用户数据分析平台 Bolt 的创始人之一。在本文中,他详细介绍了一种称为 K-Means Clustering(k均值聚类)的算法,其中包括如何衡量算法效果,以及如何确定你需要生成的数据段集数量。雷锋网编译整理,更多AI开发技术文章,关注AI研习社(微信号:okweiwu)。

Bilal Mahmood:我们最常做的分析之一,便是在数据中提取模式。 比方说,某公司的客户可被划分入哪些细分市场? 我们如何在用户网络中找到特定群体的聚类?

通过机器学习的方式,我们可以得到这些问题的答案。 即使当我们不知道需要查找哪些特定数据段,亦或我们的数据格式是非结构化数据,我们都可以有这么一种技术手段,在算法上,分析出数据中合理的数据模式,合适的数据段和分类结果。

在本文中,我们将会详细介绍一种算法,K-Means Clustering(K均值聚类),包括如何衡量其效果,以及如何确定我们要生成的数据段集数量。

监督VS无监督学习

机器学习算法实践 K均值聚类的实用技巧

在数据分类领域里,有两种有效的机器学习方式。

通过监督学习,如果你搞清楚哪些输入能映射到哪些离散数据段,便可以对结果的分类做预测。 但在许多情况下,实际上不会有这些预定义好的标签,而只有非结构化数据——根本没有定义好的数据段。这时,您可能就需要借助无监督学习,从未标记的数据中推理出目标数据段。

为了更清楚一些,我们以分类T恤尺寸为例

如果我们拿到如图1A所示数据集,我们将有一组宽度(X1)和长度(X2)的输入,以及他们对应的T恤衫尺寸(S(蓝色)L(绿色)) 。 在这种情况下,我们就可以通过监督学习的技术,如逻辑回归,来绘制一个明确的决策边界,并分离出各类T恤。

但如果我们得到一个如图1B所示的数据集,我们得到一组宽度(X1)和长度(X2)的输入,但没有对应的T恤衫尺寸标签。 在这种情况下,我们就需要使用K均值聚类等无监督式学习技术,来找到相似的T恤衫,并将它们聚集到小(蓝色圆圈)和大(绿色圆圈)的各个类中。

在现实世界的许多应用中,你将面临如图2A所示的情况,因此搞明白如何从非结构化的数据中提取出结构,会有很大的用处。

K均值聚类 机器学习算法实践 K均值聚类的实用技巧

K均值聚类给无监督机器学习提供了一个非常直观的应用,在非结构化的数据中归纳出结构,

K均值聚类,正如其名,会将您的数据中相似的观察结果,分配到同组簇中。 它包括4个简单重复的步骤,迭代地评估对每个观察值有最近(平均)距离的簇。 因此,如果一组观察结果彼此接近,它们可能属于一组簇。

让我们逐步细细了解该算法。 第一步,随机初始化一组聚类中心(上面图2A中的X),或者说,是各组簇的中心。在开始之前,你可以将这些聚类中心设置在任何地方,但我们建议,在你对其初始化的时候,用与你设定的观察值相匹配的随机点。您将依次利用这些类中心,来对你的观察值进行分组,将那些与类中心平均距离最近的观察值(图2B中的蓝色和绿色圆圈)确定一个聚类归属。

该步骤会将数据初始化成几组簇,将你的数据中与类中心最接近的观察值聚集到一起。 但是这些第一次分配后的数据簇,可能不是十分合适的。 所以下一步,你会将你的聚类好的数据簇移动到一个更接近,更合适的位置。即在每个当前已有的各个簇中 找到它们的平均观察值,然后你的聚类中心移动到该位置来(图2C)。 然后,以新的聚类中心为基准,找到的平均距离最近的观察值,并将其分配到新的簇(图2D)

您可以重复进行此过程:簇分配-查找平均距离-移动聚类中心,直到达到收敛。 一旦你找到了一组簇,而且其中所有的观察值都能找到最接近的聚类中心,那就不需要再继续评估最近的平均距离和移动了。 那些分组在一起的观察值将被聚类,这样的话它们可以在输入中共享相似性(如由它们对同一聚类中心所表现出的接近度),你也为你的数据找到了一组合适的聚类方式。

你使用了多少组簇?

机器学习算法实践 K均值聚类的实用技巧

K均值聚类是一种有效的方法,可以为你的数据找到一个良好的聚类方式。 但仍然有一个问题,一开始你如何决定要使用多少组簇?

当你不清楚非结构化数据集的标签或者分类时,需要无监督学习的方式(如K均值聚类)来辅助。 因此,数据本身不会告诉你,簇的正确数量(或标签)是多少。

那么,你该如何衡量自己数据用多少组簇呢? 最简单的方法是利用测量簇的误差,具体如下:

机器学习算法实践 K均值聚类的实用技巧

此函数通过比较观察值(X)与其指定的聚类中心(μ)之间的距离来评估簇的误差。 如果每个对应的聚类中心均呈现最低距离,或者最低总体误差最低,那么这些聚类中心就是与数据最符合的聚类结果。

回到我们T恤衫尺寸的示例,我们如何使用该误差函数来确定正确的簇的数目? 一种方法是“肘部法则”,如上图3所示。 通过绘制数据相对于你初始化的簇的数量的误差,你可以发现误差变化率最尖锐的点。 图3中似乎是在两个簇的地方,表明我们应该可能去划分为小和大两种。

雷锋网提醒,该方法需要注意:通常在你的误差曲线中没有明显的拐点。 因此,不可能总是使用肘部法则来确定合适数量的簇。

在这种情况下,建议依靠你的直觉或者待解决的问题的上下文。 例如,在T恤尺寸案例中,你可能很清楚你想将T恤分为5种尺寸 - 超小型,小型,中型,大型和超大型。但这并不是数据给你提示清楚的,但基于你的直觉,你可以初始化为五个簇数量,并得到合适的聚类。

总而言之,对于到一个聚类问题,K均值聚类提供了一种可迭代的并且有效的算法来发掘数据中的结构。

雷锋网注:这篇博文是基于吴恩达在 Coursera 机器学习课程 中教授的概念。

版权文章,未经授权禁止转载。详情见 转载须知 。

机器学习算法实践 K均值聚类的实用技巧


本文地址: https://www.gpxz.com/article/d9d08c8d0b66a27a13aa.html
全局中部横幅
全局中部横幅
USB数据线

江涵电子成立于2008年,是一家专业的线束加工厂家,产品涵盖:新能源汽车线束、工业线束、光伏线束、医疗线束、USB数据线、端子线、无线充电器、数码周边配件等,提供OEM&ODM服务。热线:0769-87935676

慧见视界网

慧见视界网,是一家致力于打造高质量作文范文的学习与交流平台。我们深知,在文字的海洋里,每一篇优秀的作文都是思想的火花与语言艺术的结晶。因此,本网站精心汇聚了广泛题材的作文范例,覆盖从小学到高中乃至大学各阶段的教育需求,旨在为学生、教师及写作爱好者提供丰富的灵感源泉和学习资源。

超巴云

超巴云计算的IDC业务包括核心电商、云计算、云服务器、云空间、云桌面服务器以及创新项目和其他业务。

haotl天龙八部私服发布网

haotl天龙八部私服发布网,国内知名天龙八部最新开服sf,下设天龙sf教育,免费天龙八部公益服发布网时尚,购物,科技,娱乐,生活,天龙八部私服发布网互动等天龙八部发布网频道。

中能石油工程有限公司

中能石油工程有限公司--中能石油工程(天津)有限公司是一家拥有海外施工经验的石油化工安装公司

房车房舱锁

斯科企业成立于2009年,匠心经营十四载,是一家集自主研发、生产、销售和服务于一体的高新技术企业,是国内领先的五金智能集成系统解决方案提供商。拥有30多个牌号的合金新材料,同时也可以根据客户的需求来定制相关产品,满足客户多样需求。

成都装修设计公司

四川岚庭家居有限公司17500㎡居家体验,是一个集团化、专业化和工厂化的大型家居企业,成都装修公司口碑,岚庭提供各类风格装修效果图,成都房子基础装修大概多少钱,成都装修公司哪家好,就找【岚庭集团】

夜店网

夜店网是一个关注中国电子音乐产业以及夜店Club发展的社区平台,用新视角解读现代夜店Club的价值和酒吧文化,夜店网致力于维护和推广中国电子音乐的发展,挖掘国内潜在的DJ电子音乐创作人。

冲孔桩机厂家

南通永威机械有限公司最早成立于1969年,位于江苏省南通市。是一家专业生产销售冲孔打桩机、冲击钻机、手拉锤钻机、卷扬机、打桩机的厂家。另外公司还有卷扬机租赁,打桩机锤头租赁服务,南通永威拥有高大宽敞的生产环境,精密的生产设备,严谨的检测手段,过硬的专业队伍,高效的管理团队,铸就了公司的生产基础和一日千里的发展势头。欢迎致电:13376111949

上海碳博会

上海国际碳中和科技展览会简称「COExpo上海碳科展」以“中和科技,碳索未来”为主题,以广大的市场需求导向配套同期高端产业论坛交流,促进产业链与创新链深度融合,充分发挥科技创新对绿色低碳转型的关键支撑作用,促进培育绿色低碳产业发展的新动能!

智能logo设计

小威logo智能设计为您在线提供logo制作服务,从logo设计,企业VI,到商标注册版权保护,满足各行业品牌设计需求。简单便捷,便宜好用!


全局底部横幅