K-foldsklearn

xiaoxiao2021-02-28 27

在机器学习中，将数据集A 分为训练集（training set）B和测试集（testset）C，在样本量不充足的情况下，为了充分利用数据集对算法效果进行测试，将数据集A随机分为k个包，每次将其中一个包作为测试集，剩下k-1个包作为训练集进行训练。在matlab中，可以利用：indices=crossvalind('Kfold',x,k);来实现随机分包的操作，其中x为一个N维列向量（N为数据集A的元素个数，与x具体内容无关，只需要能够表示数据集的规模），k为要分成的包的总个数，输出的结果indices是一个N维列向量，每个元素对应的值为该单元所属的包的编号（即该列向量中元素是1~k的整随机数），利用这个向量即可通过循环控制来对数据集进行划分。例：

[M,N]=size(data);//数据集为一个M*N的矩阵，其中每一行代表一个样本indices=crossvalind('Kfold',data(1:M,N),10);//进行随机分包fork=1:10//交叉验证k=10，10个包轮流作为测试集test = (indices == k); //获得test集元素在数据集中对应的单元编号train = ~test;//train集元素的编号为非test元素的编号train_data=data(train,:);//从数据集中划分出train样本的数据train_target=target(:,train);//获得样本集的测试目标，在本例中是实际分类情况test_data=data(test,:);//test样本集test_target=target(:,test);

今天用到crossvalind. 这个适用于Cross validation。中文应该叫做交叉验证。我主要想说说这个函数怎么用的。举个简单的例子；

P_train=[1 2 3 4 5 6 7 8 ]' P_train = 1 2 3 4 5 6 7 8 Indices=crossvalind('Kfold',8,4) Indices = 2 3 4 1 4 1 3 2 看到Incides了吗，这个是问题的关键，他把所有的点分成4类。数字一样的是一类，Indices=crossvalind('Kfold',8,4)中‘8’代表元素的个数，‘4’代表分成几类，因为有四类，每类应该有8/4两个元素，看indices中，每个相同的数字有两个元素，这样就能完成分类了。正常都是需要循环4次，这里的‘4’和crossvalind中的参数‘4’是一样的。比如第一次循环令i=1；得到indicies中是‘1’的，把其中的相应的设置为‘1’，其余的为零。 val_set_index=(Indices==1) 这个是对于test的（validation）验证 val_set_index = 0 0 0 1 0 1 0 0 train_set_index=~val_set_index 这个是train的（训练分类器） train_set_index = 1 1 1 0 1 0 1 1 这两个结果加在一起是一个全为1的向量。若果我想提取其中的test，用下面语句： >>val_ma=P_train(val_set_index,:);%val_set_index=[0 0 0 1 0 1 0 0]' >> val_ma val_ma = 4 6 看见没，得到相应的测试元素

十折交叉验证

（1）英文名叫做10-fold cross-validation，用来测试算法准确性，是常用的测试方法。

（2）将数据集分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率（或差错率）。

（3）10次的结果的正确率（或差错率）的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证（例如10次10折交叉验证），再求其均值，作为对算法准确性的估计。

例子：利用十折交叉验证计算错误分类率

（Matlab内置了由Fisher在1936年发布的关于iris的数据集，鸠尾花的分类，详见UCI链接；载入该数据集，包括means和species，分别是四维的150个样本和对应的类别）

load fisheririsindices = crossvalind('Kfold',species,10); cp = classperf(species); for i = 1:10 test = (indices == i); train = ~test; %分别取第1、2、...、10份为测试集，其余为训练集 class = classify(meas(test,:),meas(train,:),species(train,:)); classperf(cp,class,test);endcp.ErrorRate %查询错误分类率

技术

最新回复(0)