그래서 어떻게 하시는걸 추천드리냐면 , 현재 듣고 있는 부스트코스 파이썬으로 시작하는 데이터사이언스에서 이번주에 3. 서울 종합병원 분포 확인하기 를 진행한걸로 알고 있어요 .
그 진도에 강사님의 실습 코드 링크입니다 : https://colab.research.google.com/github/corazzon/boostcourse-ds-510/blob/master/open-data-analysis-output.ipynb#scrollTo=xvnIt85Uypz_ 맨 아래 쭉쭉 내려가시면
이렇게 임의로 주제를 정해드려보았습니다 ! 물론 데이터를 다른걸로 하시고 싶으시면 다른걸로 하셔도 완전 좋아용 >< 이번주에 이 데이터로 차례로 따라치면서 실습하시는것도 충분한 공부가 되실거라 생각해요 ! 코드 파일 시각화 참고하셔서 팀원들끼리 역할분담하신 후 카톡방에 올려드린 s팀 계획서 예시에
목적: 의료시설은 서울과 강남에 집중되어 있는지 확인하고 싶다.
1. 폰트 설정
2. 데이터 로드
pd.read_csv("데이터")로 데이터 불러오기.
df.shape로 행, 열 개수 확인하기.
df.head로 데이터 미리보기.
df.tail로 뒤에서부터 데이터 미리보기.
df.sample로 데이터 미리보기.
3. 데이터 요약하기
df.info로 데이터 요약.
df.columns로 컬럼명만 출력하기.
df.types로 데이터 타입만 출력하기.
4. 결측치 확인하기 #결측치=null=비어 있는 값
df.isnull로 null값인지 확인하기. null==True==1
df.isnull().sum()으로 결측치 개수 확인하기.
null_count=df.isnull().sum #null_count라는 변수에 결측치 담는다.
null_count.plot()으로 결측치 그래프 확인하기.
null_count.reset_index() #결측치 수를 reset_index를 통해 데이터 프레임으로 만들어주기
df_null_count=null.count.reset_index() #df_null_count 변수에 결과를 담기.(그래야
데이터를 볼 수 있음)
5. 컬럼명 변경하기
#df_null_count 변수에 담겨있는 컬럼 이름을 컬럼명, 결측치수로 바꾸기
df_null_count.columns=["컬럼명", "결측치수"]
6. 정렬하기
#df_null_count 데이터 프레임에 있는 결측치수 컬럼을 sort_values를 통해 정렬한다.
df_null_count.sort_values()
#결측치가 적은 순으로 출력하기
()안에 by="결측치수"
#결측치가 많은 순으로 출력하기
()안에 by="결측치수", ascending=False
#결측치가 많은 순으로 10개 출력하기
head(10)
7. 특정 컬럼만 불러오기
#지점명 컬럼 불러오기
df["지점명"].head()
#컬럼명이라는 컬럼의 값만 가져오기
df_null_count_top["컬럼명"]
#컬럼명이라는 컬럼의 값만 가져오기>리스트에 담기>drop_columns 변수에 담기
drop_columns=df_null_count_top["컬럼명"].tolist()
#컬럼명이라는 컬럼의 값들이 각각! 컬럼이 되려면
df[drop_columns]
8. 결측치 제거하기
#행을 기준으로 드랍
df.drop[drop_columns, axis=1]
#열을 기준으로 드랍
df.drop[drop_columns, axis=0]
#제거 결과를 info로 확인
df.info()
9. 기초 통계 수치 보기
#위도의 평균값
df["위도'].mean()
#중앙값
median
#최대값
max
#최소값
min
#갯수
count
10. 기초통계값 요약하기
#위도의 평균값,중앙값,최대값,최소값, 개수 등 기초 통계값을 요약해주기
df["위도"].describe()
#위도, 경도 2개 칼럼의 기초 통계값 요약하기
df[["위도", "경도"]].describe()
#describe으로 문자열 데이터타입의 요약 확인
df.describe(include="object")
*이때, 문자열 데이터를 요약한 것이므로 평균,최소값 등등의 정보는 요약 안됨.
11. 중복 제거한 값 보기
#유니크로 중복제거한 값을 확인.
df["상권업종'].unique()
#엔유니크로 중복제거한 값의 개수 세기.
df["상권업종"].nunique()
#len이 엔유니크와 같은 기능을 함. (중복제거한 값의 개수 세줌)
len[df["상권업종'].unique()
12. 그룹화된 요약값 보기
#value_counts로 그룹화된 데이터 개수 세기
df[카테고리].value_counts()
#normalize=True 로 비율 구하기
df[카테고리].value_counts[normalize=True]
#plot 그래프 그리기