1.有监督和无监督 2.误差极其来源 (1)系统误差和随机误差 (2) 因变量误差 (3) 自变量误差 3.数据划分和再抽样 数据划分:将一部分数据预留出来用于模型测试,只用另外的部分数据进行模型训练。 再抽样:重复从数据集中抽取样本并且在不同样本上拟合模型 ,以此得到关于拟合模型的信息。 为什么要对数据进行划分和再抽样? 为了避免过度拟合。 过程: (1)将样本划分成训练集合测试集 (2)使用训练集拟合模型 (3)将拟合模型用于测试集,评估模型表现 数据划分方法: (1)按照结果变量划分数据 (2)按照预测变量划分数据 (3)按照实际序列划分数据 再抽样方法:bootstrp和交互校验 4.划分训练集合测试集 为什么要划分训练集? 数据科学家要解决预测问题,从预测模型中得到相应指导决策的推断。 多少比例的数据用于训练集? 通常需要考虑两个因素 (1)样本量 (2)计算速度 建议(60%,70%,80%这三个比例) 具体如何划分? (1)按照结果变量划分数据 (2)按照自变量划分 (3)按时间序列划分 划分缺陷: 1.由于训练集合测试集划分是随机的,重复这一过程误差会有波动 2.由于训练集中只包含原始观测的一个子集,拟合模型使用的是部分数据。这意味着该过程可能过度估计模型误差。 重抽样: 目的: (1)对于有调优参数的模型,能够找到优化该度量的调优参数 (2)对于不含有调优参数 模型,可以通过重抽样考察模型拟合结果的稳定性,也可以用于检验模型在和训练集无关的样本上的表现。 重抽样方法:(详解会有单独篇章介绍) (1)K折交叉验证 (2)Bootstrap方法