python实现logistics回归，以及从疝气病症预测病马的死亡率

xiaoxiao2021-02-28 109

logistics回归的目的是寻找一个非线性函数sigmod的最佳拟合参数。通过迭代来更改参数。选取出最佳拟合的参数。可以通过梯度上升算法，随机梯度上升算法，牛顿法，拟牛顿法等方法来实现。而一般随机梯度上升算法是用的比较多的一个方法，主要原因是牛顿法的海塞矩阵在数据很多的时候难以计算

数据处理函数打开文本文件并逐行读取。每行前两个值分别是 X1 和 X 2 ，第三个值是数据对应的类别标签

def loadDataSet(): dataMat=[]; labelMat=[] fr = open('testSet.txt') for line in fr.readlines(): lineArr=line.strip().split() dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])]) labelMat.append(int(lineArr[2])) return dataMat,labelMat 函数sigmod def sigmoid(inX): return longfloat( 1.0/(1+exp(-inX)))

改进的随机梯度上升算法第一个参数是训练样本第二个参数类别标签通过迭代选取出最佳的拟合参数，对于超参数随机梯度算法的步长，在迭代过程中一直在变，但是不会变为0

def changgradAscent(dataMatrix,classLabels,numIter): m,n = shape(dataMatrix) weights = ones(n) for j in range(numIter): dataIndex = range(m) for i in range(m): alpha = 4/(1.0+j+i)+0.0001 #每次迭代的时候改变步长步长会随着迭代次数不断减小，但永远不会减小到 0 randIndex = int(random.uniform(0,len(dataIndex))) h = sigmoid(sum(dataMatrix[randIndex]*weights)) error = classLabels[randIndex] - h weights = weights + alpha * error * dataMatrix[randIndex] del(dataIndex[randIndex]) return weights # 返回权值分类函数，sigmod 的值大于0.5 返回1 def classfiy(intx ,weight): pro=sigmoid(sum(intx*weight)) if pro> 0.5: return 1.0 else: return 0.0

下面的函数是从疝气病症预测病马的死亡率

def coli(): Train=open('horseColicTraining.txt');# 训练样本 Test = open('horseColicTest.txt')#测试样本 trainSet= []; trainLabel=[] for line in Train.readlines(): currLine=line.strip().split('\t') linArr=[] for i in range(21): linArr.append(float(currLine[i])) trainSet.append(linArr) trainLabel.append(float(currLine[21])) trainWeight=changgradAscent(array(trainSet),trainLabel,100) # 获取训练后的最佳拟合权值参数 errorCount = 0;numTest=0.0 for line in Test.readlines(): numTest +=1.0 currLine=line.strip().split('\t') lineArr =[] for i in range(21): lineArr.append(float(currLine[i])) if int(classfiy(array(lineArr), trainWeight))!= int(currLine[21]): errorCount += 1 errorRate = (float(errorCount)/numTest) print u"错误率是: %f" % errorRate return errorRate 测试训练后的结果 def multiTest(): numTests = 10; errorSum=0.0 for k in range(numTests): errorSum += coli() print u"在 %d训练后，评价错误率是: %f" % (numTests, errorSum/float(numTests))

由于数据中有很多噪音，所以测试的正确率并不是很高

采用回归来求最佳拟合参数，求解过程可以由最优化算法来完成。在最优化算法中，最常用的就是梯度上升算法，而梯度上升算法又可以简化为随机梯度上升算法 .随机梯度上升算法与梯度上升算法的效果相当，但占用更少的计算资源。此外，随机梯度上升是一个在线算法，它可以在新数据到来时就完成参数更新，而不需要重新读取整个数据集来进行批处理运算

转载请注明原文地址: https://www.6miu.com/read-75717.html

技术

最新回复(0)

python实现logistics回归，以及从 疝 气 病 症 预 测 病 马 的 死 亡 率

技术

python实现logistics回归，以及从疝气病症预测病马的死亡率