特征组合

对非线性规律进行组合

特征组合是指通过将两个或多个输入特征相乘来对特征空间中的非线性规律进行编码的合成特征。“cross”(组合)这一术语来自 cross product(向量积)。

我们通过将 $$x_1$$ 与 $$x_2$$ 组合来创建一个名为 $$x_3$$ 的特征组合:$$x_3 = x_1 x_2$$

我们像处理其他特征一样来处理这个新建的 $$x_3$$ 特征组合。线性公式变为:$$y = b + w_1x_1 + w_2x_2 + w_3x_3$$

线性算法可以算出 $$w_3$$ 的权重,就像算出 $$w_1$$ 和 $$w_2$$ 的权重一样。换言之,虽然 $$w_3$$ 表示非线性信息,但您不需要改变线性模型的训练方式来确定 $$w_3$$ 的值。

我们可以创建很多不同种类的特征组合。例如:

  • [A X B]:将两个特征的值相乘形成的特征组合;
  • [A X B X C X D X E]:将五个特征值相乘形成的特征组合;
  • [A X A]:对单个特征的值求平方形成的特征组合。

关键字词:特征组合合成特征

组合独热矢量

笛卡儿积