本文共 4477 字,大约阅读时间需要 14 分钟。
Softmax Regression Tutorial地址:http://ufldl.stanford.edu/tutorial/supervised/SoftmaxRegression/
从本节开始,难度开始加大了,我将更详细地解释一下这个Tutorial。
然后如果k=2就是只有0或1,可以推出Logistic Regression的Cost Function是上面公式的特殊形式。
在Softmax Regression 中,有
P(y(i)=k|x(i);θ)=exp(θ(k)⊤x(i))∑Kj=1exp(θ(j)⊤x(i))
然后给出theta偏导的公式:
这里 ∇θ(k)J(θ) 本身是向量, 因此它的第j个元素是 ∂J(θ)∂θlk , J(θ) 关于 θ(k) 的第j个元素的偏导。
方法和前面的练习都是一样的,最困难的问题在于如何用Vectorization来将Cost Function和Gradient表达出来。
下面是我的解答,只列出softmax_regression_vec.m
function [f,g] = softmax_regression_vec(theta, X,y) % % Arguments: % theta - A vector containing the parameter values to optimize. % In minFunc, theta is reshaped to a long vector. So we need to % resize it to an n-by-(num_classes-1) matrix. % Recall that we assume theta(:,num_classes) = 0. % % X - The examples stored in a matrix. % X(i,j) is the i'th coordinate of the j'th example. % y - The label for each example. y(j) is the j'th example's label. % m=size(X,2); n=size(X,1); % theta is a vector; need to reshape to n x num_classes. theta=reshape(theta, n, []); num_classes=size(theta,2)+1; theta = [theta,zeros(n,1)]; % initialize objective value and gradient. f = 0; g = zeros(size(theta)); % % TODO: Compute the softmax objective function and gradient using vectorized code. % Store the objective function value in 'f', and the gradient in 'g'. % Before returning g, make sure you form it back into a vector with g=g(:); %%%% YOUR CODE HERE %%%yCompare = full(sparse(y, 1:m, 1)); %??y == k ???%yCompare = yCompare(1:num_classes-1,:); % ??y = 10???M = exp(theta'*X);p = bsxfun(@rdivide, M, sum(M));f = - yCompare(:)' * log(p(:));g = - X*(yCompare - p)';g = g(:,1:num_classes - 1); g=g(:); % make gradient a vector for minFunc
如何解释是个比较麻烦的问题,我推出的方法还是通过矩阵的size。
首先cost function有两个连加号,这意味着如果每一个计算得出一个值,cost function可以得到一个kxm的矩阵,而yCompare就是kxm,因此后面的概率项也应该如此。theta‘*X是很容易想到的,得到kxm,而对于概率项的分母,我们得这样理解:kxm每一个列就是某一个样本对应于每一个类的数据,我们因此对于分母项的求法很简单,就是用sum把每一列的数据加起来。
其他的推导是一样的道理。
运行结果为:
Average error :0.000005 (Gradient Checking 结果显示梯度计算没有问题)Training accuracy: 94.4%Test accuracy: 92.2%
这里有一些有用的MATLAB函数需要关注一下:full 和 sparse,举例如下:
>> y = [1 2 3]y = 1 2 3>> sparse(y,1:3,1)ans = (1,1) 1 (2,2) 1 (3,3) 1>> full(sparse(y,1:3,1))ans = 1 0 0 0 1 0 0 0 1而bsxfun可以用来做矩阵的各种运算,很快!
很多函数如果不清楚一种就是直接在MATLAB help,一种那就是直接百度了。
【本文为原创文章,转载请注明出处:blog.csdn.net/songrotek 欢迎交流QQ:363523441】