非监督学习

从无标签数据中恢复世界结构的学习范式

一、第一性原理：非监督学习到底在学什么？

非监督学习的本质不是“没有标签的监督学习”，而是：

在缺乏外部语义标注的前提下，假设数据本身蕴含某种内在结构，并试图恢复这种结构。

这些“结构”不是算法决定的，而是建模假设决定的。

从稳定、跨算法的视角，可以将非监督学习统一抽象为三类结构学习问题：

结构类型	学习对象	核心问题
共现 / 频率结构	事件是否经常同时出现	世界中哪些因素彼此相关
几何 / 拓扑结构	数据在空间中如何聚集	世界是如何被自然分组的
概率 / 支持域结构	什么是“正常范围”	世界的常态边界在哪里

对应形成三大方法族：

**关联规则挖掘** → 频率结构
**聚类** → 几何 / 分布结构
**异常检测** → 概率支持域结构

后续所有算法，都是对这些结构假设的不同工程实现。

二、关联规则挖掘：学习“共现结构”

1. 建模哲学

关联规则挖掘假设：

如果两个事件在数据中经常同时出现，那么它们之间可能存在某种潜在关系。

它不关心因果，只关心统计共现。

2. 核心度量：频率与条件关系

支持度（Support）

描述某个事件组合在整体中的出现频率

[ Support(X,Y)=P(X,Y)=\frac{count(X,Y)}{N} ]

是**全局频率指标**
决定“是否值得关注”

置信度（Confidence）

描述在 Y 已发生的条件下，X 发生的可能性

[ Confidence(X\Leftarrow Y)=P(X|Y)=\frac{P(X,Y)}{P(Y)} ]

是**条件概率**
容易被高频项误导

提升度（Lift）

衡量条件关系是否“超出随机独立假设”

[ Lift(X\rightarrow Y)=\frac{P(Y|X)}{P(Y)} ]

Lift > 1：正相关
Lift = 1：独立
Lift < 1：负相关

👉 提升度才是真正的“相关性校正指标”

3. 频繁项集挖掘的核心不变量

Apriori 原理（反单调性）

若项集是频繁的，其所有子集必然频繁
若项集非频繁，其所有超集必然非频繁

这是：

搜索空间剪枝的数学基础

4. 算法演进逻辑

算法	核心思想	演进动因
Apriori	广度优先 + 候选剪枝	频繁扫描数据集
FP-Growth	压缩表示 + 条件模式基	减少扫描次数

FP-Growth 的本质不是“更聪明”，而是：

用结构换时间，用内存换扫描成本

三、聚类：学习“空间与分布结构”

1. 聚类的统一建模假设

所有聚类算法都隐含一个前提：

相似的样本在某种空间或分布中应当彼此接近。

不同算法的差异在于：

“相似”如何定义？
“簇”被假设成什么形态？

2. 稳定的聚类分类维度（而非算法记忆）

维度	关键问题
距离 vs 分布	是否显式建模概率？
参数依赖	是否需要预设 K？
簇形状假设	是否只支持凸簇？
噪声鲁棒性	是否能识别离群点？

3. 聚类方法族

（1）层次聚类 —— 结构优先

通过逐步合并 / 分裂构建树状结构
不需要预设簇数
适合探索性分析

👉 输出的是层次关系本身

（2）原型聚类（K-means）—— 几何均值假设

建模假设：

簇是凸的
簇中心可用均值表示

目标函数： [ J=\frac1m\sum_{i=1}^{m}|x^{(i)}-\mu_{c^{(i)}}|^2 ]

算法不变量：

每次迭代目标函数**单调不增**
若上升 → 实现或数值错误

工程代价：

依赖初始点
易陷入局部最优

（3）分布聚类（EM / GMM）—— 概率生成模型

核心思想：

数据来自多个隐含分布的混合

EM 是一个优化框架：

E-step：估计隐变量
M-step：最大化参数

👉 聚类结果是概率归属，而非硬划分

（4）密度聚类（DBSCAN）—— 支持域假设

高密度区域是簇
低密度区域是分隔或噪声

优点：

无需 K
可识别任意形状簇

代价：

对参数和尺度敏感

四、异常检测：学习“正常性的边界”

1. 异常检测的核心哲学

异常检测的关键假设是：

正常数据有稳定结构，异常是对该结构的偏离。

因此：

不直接学习异常
而是**建模正常性**

2. 密度估计范式

判定规则

[ p(x)\begin{cases} <\varepsilon & anomaly
\ge\varepsilon & normal \end{cases} ]

这是一个支持域判定问题。

3. 高斯异常检测模型

假设各特征独立且服从高斯分布：

[ \mu_j=\frac{1}{m}\sum x_j^{(i)},\quad \sigma_j^2=\frac{1}{m}\sum(x_j^{(i)}-\mu_j)^2 ]

联合概率： [ p(\vec{x})=\prod_{j=1}^np(x_j;\mu_j,\sigma_j^2) ]

4. 阈值选择与数据现实

阈值 ε 通过验证集选择
异常样本稀少、分布多样
本质上是**开放世界问题**

5. 异常检测 vs 监督学习（本质对比）

维度	异常检测	监督分类
建模对象	正常分布	类边界
对异常假设	未知、多样	稳定、可见
适用场景	欺诈、设备监控	分类、识别

五、方法演进与稳定认知

非监督学习的演进不是“算法更新”，而是：

数据规模、维度与分布复杂度的变化

频率结构 → 从扫描到压缩
几何结构 → 从均值到密度
正常性模型 → 从参数分布到表征学习

六、最终总结：稳定知识视角

非监督学习 ≠ 算法集合
非监督学习 = 结构学习范式
算法只是：

假设 × 数据 × 计算资源的交点

关联内容（自动生成）

[/数据技术/机器学习.html](/数据技术/机器学习.html) 机器学习是监督学习和非监督学习的上层概念，非监督学习是机器学习的重要范式之一，两者在模型优化、泛化能力等方面有密切关系
[/数据技术/监督学习.html](/数据技术/监督学习.html) 监督学习与非监督学习是机器学习的两大范式，对比理解有助于深入掌握非监督学习的特点
[/数据技术/深度学习.html](/数据技术/深度学习.html) 深度学习在非监督学习领域有重要应用，如自编码器和生成模型
[/数据技术/特征工程.html](/数据技术/特征工程.html) 非监督学习中的聚类、降维等方法常用于特征工程中的特征变换和降维处理，提升特征质量
[/数学/线性代数.html](/数学/线性代数.html) 线性代数是机器学习的数学基础，特别是矩阵与向量运算在数据建模中的应用
[/数学/概率论与数理统计.html](/数学/概率论与数理统计.html) 概率论为非监督学习中的概率图模型、贝叶斯方法等提供理论基础