10주차 | Notion

=9)/len(b.values),sum(b.values<9)/len(b.values) plt.pi"> =9)/len(b.values),sum(b.values<9)/len(b.values) plt.pi"> =9)/len(b.values),sum(b.values<9)/len(b.values) plt.pi">

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc

font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)

data = {
    '영화' : ['명량', '극한직업', '신과함께-죄와 벌', '국제시장', '괴물', '도둑들', '7번방의 선물', '암살'],
    '개봉 연도' : [2014, 2019, 2017, 2014, 2006, 2012, 2013, 2015],
    '관객 수' : [1761, 1626, 1441, 1426, 1301, 1298, 1281, 1270], # (단위 : 만 명)
    '평점' : [8.88, 9.20, 8.73, 9.16, 8.62, 7.64, 8.83, 9.10]
}
#1. 영화 데이터를 활용하여 x축은 영화, y축은 평점인 막대 그래프를 통해 나타내 보세요.
plt.bar(data['영화'],data['평점'])
plt.title('국내 Top 8 영화 평점 정보')
#2. 개봉 연도별 평점 변화 추이를 꺾은선 그래프를 통해 나타내 보세요. (groupby를 활용해보세요!)
a=pd.DataFrame(data=data,columns=data.keys()).groupby('개봉 연도')['평점'].mean()
plt.plot(a.index,a.values)
#3. 평점이 9점 이상인 영화의 비율을 확인할 수 있는 원 그래프를 아래와 같이 나타내 보세요.
b=pd.DataFrame(data=data,columns=data.keys()).groupby('영화')['평점'].first()
b1,b2=sum(b.values>=9)/len(b.values),sum(b.values<9)/len(b.values)
plt.pie([b1,b2],labels=['9점 이상','9점 미만'],autopct='%.1f%%')
plt.plot(label=['9점 이상','9점 미만'])
plt.legend(loc=(1.0, 1.0))

#**[1. 데이터 준비하기]**
#1. 행정구역에서 코드를 제거하고, 행정구역을 인덱스로 지정해 주세요.”서울특별시 (1100000000)”→ “서울특별시”
    
import pandas as pd
data1=pd.read_csv("201210인구.csv",encoding='cp949')
data2=pd.read_csv("202210인구.csv",encoding='cp949')
data1["행정구역"]=[data1["행정구역"].values[i][:-14] for i in range(len(data1["행정구역"].values))]
a=data1.groupby("행정구역")
#2. 남여 데이터를 구분하여 각각 df_man, df_woman에 나누어 저장해 주세요. 
    
    #이때 ‘총 인구수’와 ‘연령구간인구수’ 열은 저장하지 않습니다.
    
    #또한 컬럼명을 간단히 변경합니다. ex. “2022년10월_남_0~9세” → “0~9세”
df_woman=data1.iloc[:,14:].drop(['2012년10월_여_총인구수','2012년10월_여_연령구간인구수'],axis=1)
df_woman.columns=[i[i.find('여')+2::] for i in df_woman.columns]
df_woman.index=data1["행정구역"]
df_man=data1.iloc[:,:14].drop(['2012년10월_남_총인구수','2012년10월_남_연령구간인구수','행정구역'],axis=1)
df_man.columns=[i[i.find('남')+2::] for i in df_man.columns]
df_man.index=data1["행정구역"]
# 4. 해당 지역의 값들을 정수로 다루기 위하여 숫자 사이의 ,(콤마)를 제거하는 작업을 수행해 주세요. (,를 제거하고 astype을 활용하여 형을 정수로 변환하기)
for i in df_man.columns:
    df_man[i]=df_man[i].str.replace(",","").astype('int')
for i in df_woman.columns:
    df_woman[i]=df_woman[i].str.replace(",","").astype('int')
# 3. 원하는 지역을 입력받고, 해당 지역의 행만을 추출하여 다시 df_man, df_woman에 저장해 주세요.
df_woman=df_woman.loc[input()]
df_man=df_man.loc[input()]
#**[2. 데이터 시각화 하기]**
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc

font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)
mpl.rcParams['axes.unicode_minus'] = False

plt.barh(df_woman.index,-df_woman.values//1000)
plt.barh(df_man.index,df_man.values//1000)
plt.title('2012년 10월 대한민국 인구 피라미드')
plt.savefig("2022 인구.png", dpi=100)
plt.savefig("2012 인구.png", dpi=100)