python回归分析预测模型_Python与线性回归模型预测房价

时间：2019-12-03 16:52:29

目录提出问题

理解数据

数据清洗

构建模型

模型评估

总结

1. 提出问题

房价和什么因素相关？进而得知如何挑选房子？

2. 理解数据

2.1 导入数据

从Kaggle 中下载

2.2 导入数据

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

导入训练数据与测试数据批量进行数据清洗。

#训练数据集

df_train= pd.read_csv('./train.csv')

#测试数据集

df_test= pd.read_csv('./test.csv')

print("训练集数据:",df_train.shape,"测试训练集:", df_test.shape)

训练集数据: (1460, 81) 测试训练集: (1459, 80)

#合并数据集，以便同步数据清洗

full = df_train.append(df_test,ignore_index=True)

print("合并后的数据集:",full.shape)

合并后的数据集: (2919, 81)

2.3 查看数据集信息

full.columns

full.head()

full.info()由于数据项太多，这里只展示节选数据

3. 数据清洗

3.1 处理缺失值

数据有明显缺失值，其中数据项Alley, Fence, MiscFeature, PoolQC 等缺失率高达90%，直接删除它们。

full.drop(['Alley','Fence','MiscFeature','PoolQC'],axis=1,inplace=True)

3.2 处理分类特征 —— One-hot encoding

为了提高数据分析的可信度，此处把所有的分类数据降维，批量进行独热编码。

object_type=[]

for col in full.columns:

if full[col].dtype =="object":

object_type.append(col)

full_dummied_object = full

for ob in object_type:

objectDf=pd.DataFrame()

objectDf=pd.get_dummies(full_dummied_object[ob],prefix=ob)

full_dummied_object=pd.concat([full_dummied_object,objectDf],axis=1)

full_dummied_object.drop(ob,axis=1,inplace=True)

full_dummied_object.head()

3.3 数据相关性

数据太多，先找出和“标签”关联性最大的10个“特征”再进行下一步分析。

Correlation Martix (heatmap style)

通过热力图形象看出数据项之间的相关关系。

cor_mart=full_dummied_object.corr()

k=10

cols=cor_mart.nlargest(k,'SalePrice')['SalePrice'].index

cm=np.corrcoef(full_dummied_object[cols].values.T)

sns.set(font_scale=1.25)

hm=sns.heatmap(cm,cbar=True, annot=True, square=True,fmt='.2f',annot_kws={'size':10},yticklabels=cols.values, xticklabels=cols.values)

plt.show()

显示前10个相关性最强的特征。

cor_mart['SalePrice'].sort_values(ascending =False)[0:11]

# 特征选择

full_X = full_dummied_object[['OverallQual','GrLivArea','GarageCars','GarageArea',

'TotalBsmtSF','1stFlrSF','FullBath','BsmtQual_Ex','TotRmsAbvGrd','YearBuilt']]

full_X.head()

4.构建模型

4.1 建立训练数据集和测试数据集

#原始数据集有1460行

sourceRow=1460

#原始数据集：特征

source_X = full_X.loc[0:sourceRow-1,:]

#原始数据集：标签

source_y = full_dummied_object.loc[0:sourceRow-1,'SalePrice']

#预测数据集：特征

pred_X = full_X.loc[sourceRow:,:]

#原始数据集有多少行

print('原始数据集有多少行:',source_X.shape[0])

#预测数据集大小

print('原始数据集有多少行:',pred_X.shape[0])

原始数据集有多少行: 1460

原始数据集有多少行: 1459

from sklearn.model_selection import train_test_split

#建立模型用的训练数据集和测试数据集

train_X, test_X, train_y, test_y = train_test_split(source_X, source_y, train_size=.8)

4.2 选择机器学习方法 --线性回归

from sklearn.linear_model import LinearRegression

model = LinearRegression()

model.fit(train_X , train_y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

model.score(test_X, test_y)

0.8269044883096861

5. 总结

经数据清洗后，建立的线性回归模型准确率为82.7%。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。