수치형 데이터들을 알아보기 위해 다음 4가지의 Plot을 그립니다.
Correlation Heat Map
Zoomed Heat Map
Pair Plot
Scatter Plot
corr_data = df_train[['Id', 'MSSubClass', 'LotFrontage', 'LotArea', 'OverallQual',
'OverallCond', 'YearBuilt', 'YearRemodAdd', 'MasVnrArea', 'BsmtFinSF1',
'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', '1stFlrSF', '2ndFlrSF',
'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'TotRmsAbvGrd',
'Fireplaces', 'GarageYrBlt', 'GarageCars', 'GarageArea', 'WoodDeckSF',
'OpenPorchSF', 'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea',
'MiscVal', 'MoSold', 'YrSold', 'SalePrice']]
colormap = plt.cm.PuBu
sns.set(font_scale=1.0)
f , ax = plt.subplots(figsize = (14,12))
plt.title('Correlation of Numeric Features with Sale Price',y=1,size=18)
sns.heatmap(corr_data.corr(),square = True, linewidths = 0.1,
cmap = colormap, linecolor = "white", vmax=0.

대각선 열을 제외한 박스 중 가장 진한 파란색을 띄는 박스가 보이는데요. 첫 번째는 'TotalBsmtSF'와 '1stFlrSF'변수의 관계입니다.
두 번째는 'Garage'와 관련한 변수를 나타냅니다.
마지막으로 'TotRmsAbvGrd'와 'GrLivArea'의 관계입니다.
두 경우 모두 변수 사이의 상관 관계가 너무 강하여 다중 공선성(MultiColarisity) 상황이 나타날 수 있습니다.
변수가 거의 동일한 정보를 제공하므로 다중 공선성이 실제로 발생한다는 결론을 내릴 수 있습니다.
또한 확인해야할 부분은 'SalePrice'와의 상관 관계입니다.
'GrLivArea', 'TotalBsmtSF'및 'OverallQual'은 Target feature와 큰 연관성을 보입니다.
나머지 변수와의 상관 관계를 자세히 알아보기 위해 Zoomed Heat Map을 확인합니다.
k= 11
cols = corr_data.corr().nlargest(k,'SalePrice')['SalePrice'].index
print(cols)
cm = np.corrcoef(df_train[cols].values.T)
f , ax = plt.subplots(figsize = (12,10))
sns.heatmap(cm, vmax=.8, linewidths=0.1,square=True,annot=True,cmap=colormap,
linecolor="white",xticklabels = cols.values ,annot_kws = {'size':14},yticklabels = cols.values)
