基础知识准备

基础概念

因为笔者太垃圾，补充的一些譬如《线性代数》、《概率论与数理统计》等的知识

正定矩阵：

熵（Entropy）：

热力学中的概念，由香农引入到信息论中；
设 $$X \in {x_1, x_2, \cdots, x_n}$$ 为一个离散随机变量，其概率分布为 $$p(X = x_i) = p_i, i = 1,2,\cdots, n$$，则 X 的熵为： $$\displaystyle H(X) = - \sum_{i = 1}^n p_i log p_i, \text{ where when pi = 0, define } H(X) = 0$$

极大似然估计：

先验概率、后验概率：

边缘概率：

马尔可夫链蒙特卡洛（Markov chain Monte Carlo，MCMC）方法：

倒排索引（inverted index）：

向量空间模型（Vector Space Model, VSM）：文档相似度度量方法之一，它有两个核心技术：

文档表示方式用”词袋假设“（Bags of words, BoW）：
- 用各个关键词在文档中的“强度”组成的向量表示这个文档：$$d = (x_1, x_2, \cdots, x_M)^T$$
- 其中“强度”一般用 TF-IDF 方式计算，即 $$TF * IDF$$。
- TF 为该词在文档中出现的次数；
- IDF 是倒数文档频率，表示一个词在所有文档中出现的频繁程度，最常见的计算形式为 $$\displaystyle IDF(m) = log(\frac{N}{DF(m)})$$，其中 DF 为这个出现了这个词的文档总个数；
计算两个文档的相似度一般使用矢量的余弦距离：$$\displaystyle cos(d_1, d_2) = \frac{d_1^T d_2}{|d_1||d_2|}$$

虽然 VSM 不是实际系统中使用的方法，不过这是一种简单、无训练的基线方法，在探索更精细模型时，必须首先与 VSM 做比较。

最优化问题：

参考：https://www.cxybb.com/article/Emma_Love/85146800

目标：

基本思想：

具体实现：

将一般的带约束优化问题：$$\min{f(\vec{x})}, \text{s.t.} g(\vec{x}) \le 0, h(\vec{x}) = 0$$
转化为如下不带约束的拉格朗日对偶函数（Lagrange Dual Function）：$$L(\vec{\lambda}, \vec{v}) = \inf_x{f(\vec{x}) + \vec{\lambda}^Tg(\vec{x}) + \vec{v}^T h(\vec{x})}$$，其中 Inf 为下确界函数、$$\vec{\lambda}, \vec{v}$$ 为拉格朗日乘子。
可以证明，对偶问题的最优值为原问题最优值的下界，两者完全一致时称为“强对偶”；可以证明，原问题时凸优化问题时，各个约束函数可行域的解也是凸的话，强对偶总是被满足的。

KKT 条件，设最优解是 $$\vec{x}^*$$

在自变量为一维的情况下，给定一个初始区间，假设区间内有唯一的最小值，可以按照分割的方法不断缩小区间以得到最小值；

上面的方法推广到高维的情形对应的算法被称为“下降单纯形法”（Downhill Simplex Method），或者将阿米巴（Ameba）变形虫法。

当目标函数 f 比较容易进行求导时，基于梯度的方法是首要选择，就是每次沿着梯度相反的方向前进一小步，迭代得到最优解，这种方法称为“梯度下降法”（Gradient Descent），其更新公式为：

$$x \leftarrow x - \epsilon \cdot \nabla{f(x)}$$，其中 $$\epsilon$$ 控制着下降速度，被称为学习率；

梯度下降的另一种变形是“随机梯度下降法”（Stochastic Gradient Descent, SGD）：

更新公式：$$x \leftarrow x - \epsilon \cdot \nabla{f^i(x)}$$，区别在于其中 $$\nabla{f^i(x)}$$ 是基于少量样本构成的样本组计算出的梯度；
解决的问题：SGD 相对于 GD 解决了收敛速度慢和陷入局部最优的问题；