NLP-Chp2-数学基础

2018-02-02 NLP 0 Word Count: 667(words) Read Count: 2(minutes)

在自然语言处理中，以句子为处理单位时一般假设句子独立于它前面的其它语句，句子的概率分布近似地符合二项式分布。

$X离散，p(x)=p(X=x)$

$H(X)=-\sum\limits_{x\in X}P(x)\log_2p(x)$

单位是二进制比特位

自信息

描述一个随机变量的不确定性。

一个随机变量的熵越大，它的不确定性越大，正确估计其值的可能性就越小。

联合熵

条件熵

$H(x, y)=H(x)+H(y|x)$

相对熵/KL散度

$D(p||q)=\sum\limits_{x\in X}p(x)\frac{p(x)}{q(x)}$

交叉熵

$q(x)用来拟合p(x)，x和q(x)之间的交叉熵为H(X,q)=H(X)+D(p||q)=-\sum\limits_xp(x)\log q(x)$

交叉熵的概念用以衡量估计模型与真实概率分布之间
的差异

困惑度

$2^{H(l,q)}$

互信息

$I(x,y)=H(x)-H(x|y)=\log \frac{p(x,y)}{p(x)p(y)}$

互信息 I (X; Y) 是在知道了 Y 的值以后 X 的不确定性的减少量，即Y 的值透露了多少关于 X 的信息量。

互信息值越大，表示两个汉字之间的结合越紧密，越可能成词。反之，断开的可能性越大。

噪声信道模型

如果我们能够设计一个输入编码 X，其概率分布为 p(X)，使其输入与输出之间的互信息达到最大值，那么，我们的设计就达到了信道的最大传输容量

词义消歧

本文链接： http://example.com/2018/02/02/NLP-Chp2-%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

xmz