机器学习--交叉验证函数

xiaoxiao2021-02-28 57

一、交叉验证

在建立分类模型时，交叉验证(Cross Validation)简称为CV，CV是用来验证分类器的性能。它的主体思想是将原始数据进行分组，一部分作为训练集，一部分作为验证集。利用训练集训练出模型，利用验证集来测试模型，以评估分类模型的性能。

二、交叉验证的作用

验证分类器的性能用于模型的选择

三、交叉验证常用的几种方法

3.1 k折交叉验证 K-fold Cross Validation(记为K-CV)

1、将数据集平均分割成K个等份（参数cv值，一般选择5折10折，即测试集为20%） 2、使用1份数据作为测试数据，其余作为训练数据 3、计算测试准确率 4、使用不同的测试集，重复2、3步 5、对测试准确率做平均，作为对未知数据预测准确率的估计

优点：因为每一个样本数据既可以作为测试集又可以作为训练集，可有效避免欠学习和过学习状态的发生，得到的结果比较有说服力。

3.2 留一法交叉验证 Leave-One-Out Cross Validation(记为LOO-CV)

假设样本数据集中有N个样本数据。将每个样本单独作为测试集，其余N-1个样本作为训练集，这样得到了N个分类器或模型，用这N个分类器或模型的分类准确率的平均数作为此分类器的性能指标。

优点： a. 每一个分类器或模型几乎所有的样本都用来作为训练模型，因此最接近样本，实验评估可靠；

b. 实验过程没有随机因素影响实验结果，所以实验结果可复制，因此实验结果稳定。

缺点: 计算成本高，因为需要建立的模型数量与样本数据数量相同，当N很大时，计算相当耗时。

3.3 留p交叉验证

留p验证指训练集上随机选择p个样本作为测试集，其余作为子训练集。时间复杂度为CpN，是阶乘的复杂度，不可取。

3.4 重复随机子抽样验证 Hold-Out Method

将数据集随机划分为训练集和测试集。对每一个划分，用训练集训练分类器或模型，用测试集评估预测的精确度。进行多次划分，用均值来表示效能。

优点：与K值无关。严格意义来说Hold-Out Method不属于交叉验证方法，这种方法与k无关。

缺点：验证集结果准确率的高低和原始分组有很大关系，可能导致一些数据从未做过训练或测试数据；而一些数据不止一次选为训练或测试数据的情况发生，因此结果不具有说服力。

四、交叉验证函数

cross_val_score详情可见官网

train_test_split

#导入 from sklearn.cross_validation import cross_val_score from sklearn.cross_validation import train_test_split

五、代码

例子：垃圾邮件分类 input：

from numpy import * from sklearn import metrics from sklearn.metrics import accuracy_score from sklearn.naive_bayes import GaussianNB as NB from sklearn.neighbors import KNeighborsClassifier as KNN from sklearn.linear_model import LogisticRegression as LR #将词条合并为一个列表 def createVocabList(dataSet): vocabSet = set([]) #创建一个空集 for document in dataSet: vocabSet = vocabSet | set(document) #创建两个集合的并集 return list(vocabSet) #将词汇转化为向量 def bagOfWords2VecMN(vocabList, inputSet): returnVec = [0]*len(vocabList) #初始化词汇等长的0向量 for word in inputSet: if word in vocabList: returnVec[vocabList.index(word)] += 1 return returnVec #预处理统一小写，去除长度小于2个的词汇 def textParse(bigString): import re listOfTokens = re.split(r'\W*', bigString) return [tok.lower() for tok in listOfTokens if len(tok) > 2] #统计词频前10 def calcMostFreq(vocabList,fullText): import operator freqDict = {} for token in vocabList: freqDict[token]=fullText.count(token) sortedFreq = sorted(freqDict.items(), key=operator.itemgetter(1), reverse=True) return sortedFreq[:10] #读取数据 def spamTest(): docList=[]; classList = []; fullText =[] for i in range(1,26): wordList = textParse(open('email/spam/%d.txt' % i).read()) docList.append(wordList) fullText.extend(wordList) classList.append(1) wordList = textParse(open('email/ham/%d.txt' % i).read()) docList.append(wordList) fullText.extend(wordList) classList.append(0) vocabList = createVocabList(docList) #创建词列表 top10Words = calcMostFreq(vocabList,fullText) #删除词频前10 for pairW in top10Words: if pairW[0] in vocabList: vocabList.remove(pairW[0]) trainingSet = list(range(50)) #0-49，，50个数字，50封邮件 train_data = [] #存储所有训练词汇的向量 train_target = [] #存储类别标签 for docIndex in trainingSet: #得到训练数据的向量 train_data.append(bagOfWords2VecMN(vocabList, docList[docIndex])) train_target.append(classList[docIndex]) return train_data,train_target

5.1 cross_val_score

input:

from sklearn.cross_validation import cross_val_score if __name__ == '__main__': data = [] target = [] data, target = spamTest() clf1 = KNN(n_neighbors=8) clf2 = LR() clf3 = NB() #交叉验证 cv:数据分成的份数，其中一份作为cv集，其余n-1作为训练集(默认为3) for clf,lable in zip([clf1, clf2, clf3],['KNN','LR','NB']): scores = cross_val_score(clf,data,target,cv=5,scoring='accuracy') #print(scores) print("Accuracy:%0.2f (+/-%0.2f)[%s]"%(scores.mean(),scores.std(),lable)) #计算均值及标准差

output：

G:\Anacanda3\lib\re.py:212: FutureWarning: split() requires a non-empty pattern match. return _compile(pattern, flags).split(string, maxsplit) Accuracy:0.64 (+/-0.05)[KNN] Accuracy:0.94 (+/-0.05)[LR] Accuracy:0.92 (+/-0.07)[NB]

5.2 train_test_split

input:

from sklearn.cross_validation import train_test_split if __name__ == '__main__': data = [] target = [] data, target = spamTest() clf1 = KNN(n_neighbors=8) clf2 = LR() clf3 = NB() ''' #交叉验证 cv:数据分成的份数，其中一份作为cv集，其余n-1作为训练集(默认为3) for clf,lable in zip([clf1, clf2, clf3],['KNN','LR','NB']): scores = cross_val_score(clf,data,target,cv=5,scoring='accuracy') #print(scores) print("Accuracy:%0.2f (+/-%0.2f)[%s]"%(scores.mean(),scores.std(),lable)) #计算均值及标准差 ''' #交叉验证 x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.2) #交叉验证 20%选取测试集 clf = clf2.fit(x_train, y_train) predicted = clf.predict(x_test) expected = y_test print(metrics.classification_report(expected, predicted)) print(metrics.confusion_matrix(expected, predicted)) print('Score:',accuracy_score(expected,predicted))

output:

G:\Anacanda3\lib\re.py:212: FutureWarning: split() requires a non-empty pattern match. return _compile(pattern, flags).split(string, maxsplit) precision recall f1-score support 0 1.00 1.00 1.00 5 1 1.00 1.00 1.00 5 avg / total 1.00 1.00 1.00 10 [[5 0] [0 5]] Score: 1.0

转载请注明原文地址: https://www.6miu.com/read-2799972.html

技术

最新回复(0)