如同logistic回归原理一样,均可以视为一种映射关系:x->z->y,只不过softmax回归是进行多分类的而已。下面给出softmax回归的假设函数。
我们的目的很简单,就是对于每一个输入的x,假设函数都能输出x属于每一个类别的概率。如图所示,右侧的函数构造即可满足我们的要求。其中,分母项是为了归一化,使得概率之和为1.
值得一提的是,1{y(i) = j}的意思是指,当yi等于j时,值取1.
然而,这个代价函数通常会加入惩罚项,使其变成一个严格凸函数,易于迭代进行优化:
求导之后:
值得一提的是,在实际应用中经常使用最大似然与交叉熵作为其代价函数。
logistic回归可以视为softmax进行二分类时的特例,即当类别数为2时,softmax 回归退化为 logistic 回归,由于数学学的不好,所以就不多推导了。
好了,东西都已经讲完了,那么可以上代码了,当然,这次还是用tensorflow来做的。记得昨天老师居然很吃惊我的机器能跑tf,为了证明我的电脑真的很可以,所以这次我要用我的副电脑苏菲pro跑一波mnist数据。
# -*- coding: utf-8 -*- """ Created on Sun Apr 1 17:19:07 2018 @author: DZF_zuishuai """ import tensorflow as tf import numpy as np from tensorflow.examples.tutorials.mnist import input_data #导入mnist mnist = input_data.read_data_sets("MNIST_data/", one_hot = True) x = tf.placeholder("float", [None, 784]) # w = tf.Variable(tf.zeros([784,10])) b = tf.Variable(tf.zeros([10])) y = tf.nn.softmax(tf.matmul(x,w) + b) # loss y_ = tf.placeholder("float", [None, 10]) #定义交叉熵 cross_entropy = -tf.reduce_sum(y_*tf.log(y)) # 随机梯度下降 train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy) # 初始化 init = tf.initialize_all_variables() # Session sess = tf.Session() sess.run(init) # 迭代 for i in range(1000): batch_xs, batch_ys = mnist.train.next_batch(100) sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys}) if i % 50 == 0: correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float")) print ("Setp: ", i, "Accuracy: ",sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))