
上QQ阅读APP看书,第一时间看更新
第2章 数据预处理与特征工程
特征是原始数据的数学表示,在机器学习流水线中位于数据和模型之间。一些模型更适合某些类型的特征,反之亦然。因此,合适的特征应该与当前的机器学习任务相关并且容易被模型获取。特征工程指的是从数据中提取特征,将原始数据转换为适合机器学习模型的格式,并为模型和任务制定最佳特征的过程。特征工程是机器学习流水线中关键的一步,因为合适的特征可以降低建模的复杂度,并使机器学习流水线产出更高质量的预测结果。
机器学习领域有一句格言:“数据与特征工程决定了模型的上限,改进算法只不过是逼近这个上限而已。”然而,尽管数据的预处理与特征工程很重要,却也很少有对这个话题的单独讨论。因为正确且适合的特征的确定是与模型和数据的背景息息相关的,而且数据和模型如此多样化,所以很难概括出通用的机器学习流水线中的特征工程实践。