线性回归(Linear Regression)
线性回归是采用线性拟合的方法,获得其“规律”(或者称为假设)h。换句话说,就是假设“规律”h是一个关于特征x的线性函数,然后再估计h的系数。
不妨设x是二维向量,有:
θi是线性函数的参数,xi表示第i个特征值。不妨设x0=1,这样,
其中θ和x都是向量,n为特征的个数。
线性回归的过程就是估计θ的过程,估计θ的方法有很多种,在以后的文章中会一一介绍。
怎样衡量一个θ的值是否合适呢?这里定义了一个准则函数(cost function):
能够使J(θ)最小的θ自然就是最优解。上面公式中,m是训练样本的个数,x(i)是指第i个训练样本的特征,y(i)是指第i个训练样本的输出。
准则函数的意义在于,获取一个最优解θ,使得所有训练样本的“估计值”hθ(x)与实际输出值y的平方差的和取得最小。换句话说,就是获取一个θ,使得所有样本的误差的和最小,而这个误差,是用hθ(x)与y的平方和决定的。
上述准则函数是采用最小平方误差法,当然,也会有其他形式的准则函数。