KL-Divergence,一般中文叫 KL 散度,全名是 Kullback–Leibler Divergence,也常叫 相对熵。 它是用来衡量:“一个概率分布 A 和另一个概率分布 B 到底差了多少。”

你可以把它想成:

你对一件事有一个“真实的看法”,世界本身也有一个“真实分布”;

你又拿另一个“你以为的分布”去近似它。

KL 散度就在衡量:你用错了这个近似之后,平均会多吃多少亏。


先用直觉理解

假设明天会下雨还是晴天。

真实情况的概率分布是:

但你心里以为是:

那你这个“以为”的分布,和真实分布就差得挺远。

KL 散度就是在说:

如果真实世界其实按第一个分布在发生,而你却按第二个分布去理解、编码、预测,那么你平均会多损失多少信息。


一个很重要的点:它不对称

KL 散度写作: