R笔记之基础建模技术

xiaoxiao2021-02-28 68

1.有监督和无监督 2.误差极其来源（1）系统误差和随机误差（2）因变量误差（3）自变量误差 3.数据划分和再抽样数据划分：将一部分数据预留出来用于模型测试，只用另外的部分数据进行模型训练。再抽样：重复从数据集中抽取样本并且在不同样本上拟合模型，以此得到关于拟合模型的信息。为什么要对数据进行划分和再抽样？为了避免过度拟合。过程：（1）将样本划分成训练集合测试集（2）使用训练集拟合模型（3）将拟合模型用于测试集，评估模型表现数据划分方法：（1）按照结果变量划分数据（2）按照预测变量划分数据（3）按照实际序列划分数据再抽样方法：bootstrp和交互校验 4.划分训练集合测试集为什么要划分训练集？数据科学家要解决预测问题，从预测模型中得到相应指导决策的推断。多少比例的数据用于训练集？通常需要考虑两个因素（1）样本量（2）计算速度建议（60%，70%，80%这三个比例）具体如何划分？（1）按照结果变量划分数据（2）按照自变量划分（3）按时间序列划分划分缺陷： 1.由于训练集合测试集划分是随机的，重复这一过程误差会有波动 2.由于训练集中只包含原始观测的一个子集，拟合模型使用的是部分数据。这意味着该过程可能过度估计模型误差。重抽样：目的：（1）对于有调优参数的模型，能够找到优化该度量的调优参数（2）对于不含有调优参数模型，可以通过重抽样考察模型拟合结果的稳定性，也可以用于检验模型在和训练集无关的样本上的表现。重抽样方法：（详解会有单独篇章介绍）（1）K折交叉验证（2）Bootstrap方法

转载请注明原文地址: https://www.6miu.com/read-1600345.html

技术

最新回复(0)