1.5 人工智能相关概念
无论使用机器学习研究人工智能,还是使用深度学习研究人工智能,都涉及一些概念,在这里做一下介绍。
1.5.1 训练数据集
机器学习和深度学习都离不开训练数据集。训练,即有计划、有步骤地锻炼某种技能,运动员在大型比赛之前都有一个集中训练的过程,要想在比赛中取得好成绩,必须要训练,数据也是如此。那些已知的用于模型拟合的数据样本,专业名称为训练数据集。
“指鹿为马”中已知的鹿和马的照片就是训练数据集,手写数字识别中每个已知的手写数字也是训练数据集。
1.5.2 验证数据集
机器学习和深度学习中的“学习”跟我们的上学其实是差不多的,学习了很多的知识,需要做家庭作业来检验学习成果,机器学习和深度学习也要做家庭作业。作业相当于验证数据集,用来验证机器学习和深度学习的学习效果,是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和对模型的能力进行初步评估。
对于家庭作业来讲,是有一个分数作为参考的,对应于机器学习和深度学习,分数就是验证数据集的准确率。如果机器学习和深度学习验证集的准确率达到95%以上,就能产生很好的验证效果。不过很多时候,由于数据不典型、模型使用不当等问题,致使验证集的准确率达不到95%以上,这就需要去找原因、找方法,就像你的作业总是不及格,就要从学习方法等方面去找原因是一样的。
1.5.3 测试数据集
机器学习和深度学习的学习成果就是使研究的问题得以解决。测试就相当于机器学习和深度学习的大考,用机器学习和深度学习在学习过程中从未接触过的数据来对模型进行测试,考察模型的泛化能力。
1.5.4 过拟合和欠拟合
机器学习和深度学习是用训练数据集进行学习,用验证数据集进行验证,再用测试数据集进行测试。这就存在训练数据集、验证数据集、测试数据集三者的逻辑关系,如果训练数据集训练的效果非常好,验证数据集也表现得不错,但在测试数据集中表现得很差劲,这就是出现了过拟合的情况,是由于过分依赖现有训练数据集的特征造成的,如图1.14所示。
如果训练数据集训练出来的模型过于简单,无法拟合或区分样本,没有识别测试数据集的特性,又会出现欠拟合的情况,如图1.15所示。
图1.14 树模型的过拟合
图1.15 黄瓜模型的欠拟合
例如,只从形状和部分颜色上来区别黄瓜与苦瓜,就会出现欠拟合的现象,无法分辨清楚黄瓜和苦瓜。
欠拟合、拟合和过拟合都是对训练数据集中数据点的拟合情况,三者的比较如图1.16所示。
图1.16 欠拟合、拟合、过拟合图像对比
训练数据集、测试数据集、验证数据集、欠拟合、过拟合等概念一直都是人工智能中深度学习和机器学习研究问题的关键元素。