第三天:多元线性回归
导入数据集
dataset = pd.read_csv('50_Startups.csv') X = dataset.iloc[ : , :-1].values Y = dataset.iloc[ : , 4 ].values解析:LabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。
OneHotEncoder:将每一个分类特征变量的m个可能的取值转变成m个二值特征,对于每一条数据这m个值中仅有一个特征值为1,其他的都为0。
具体用法可参考这里:博客
解析:LinearRegression官方文档:地址
LinearRegression(fit_intercept=True, normalize=False,copy_X=True, n_jobs=1)
主要参数说明:
fit_intercept:布尔型,默认为True,若参数值为True时,代表训练模型需要加一个截距项;若参数为False时,代表模型无需加截距项。
normalize:布尔型,默认为False,若fit_intercept参数设置False时,normalize参数无需设置;若normalize设置为True时,则输入的样本数据将(X-X均值)/||X||;若设置normalize=False时,在训练模型前, 可以使用sklearn.preprocessing.StandardScaler进行标准化处理。
属性:
coef_:回归系数(斜率)
intercept_:截距项