8회차 학습 내용

그래서 어떻게 하시는걸 추천드리냐면 , 현재 듣고 있는 부스트코스 파이썬으로 시작하는 데이터사이언스에서 이번주에 3. 서울 종합병원 분포 확인하기 를 진행한걸로 알고 있어요 .

그 진도에 강사님의 실습 코드 링크입니다 : https://colab.research.google.com/github/corazzon/boostcourse-ds-510/blob/master/open-data-analysis-output.ipynb#scrollTo=xvnIt85Uypz_ 맨 아래 쭉쭉 내려가시면

좀 더 분석해 보기 가 있습니다 !

상권업종중분류명, 상권업종소분류명 중에 관심 있는 분류명을 색인 후에 시도별, 시군구별 분석을 해보세요.
예시)
- 언어치료는 시군구별로 어디에 많이 위치할까? - 4조
- 의료시설은 서울과 강남에 집중되어 있을까? -5조
- 강남에는 피부과, 성형외과가 다른 지역에 비해 많을까? -6조

이렇게 임의로 주제를 정해드려보았습니다 ! 물론 데이터를 다른걸로 하시고 싶으시면 다른걸로 하셔도 완전 좋아용 >< 이번주에 이 데이터로 차례로 따라치면서 실습하시는것도 충분한 공부가 되실거라 생각해요 ! 코드 파일 시각화 참고하셔서 팀원들끼리 역할분담하신 후 카톡방에 올려드린 s팀 계획서 예시에

사용할 데이터 : 상권 정보_ 의료기관 ( 링크 첨부 )
데이터 분석의 목적 : 뭘 확인하고 싶다 !!
분석 결과 : matplotlib, seaborn 등 어떠한 데이터 툴로 어떤걸 시각화하고싶다 ! 하시면 계획서 뚝딱이에용 !! 도움이 더 필요하시면 꼭꼭 말씀해주세요 :) 열의를 보여주셔서 정말 감사합니다 !

목적: 의료시설은 서울과 강남에 집중되어 있는지 확인하고 싶다.

1. 폰트 설정

2. 데이터 로드
pd.read_csv("데이터")로 데이터 불러오기. 
df.shape로 행, 열 개수 확인하기.
df.head로 데이터 미리보기. 
df.tail로 뒤에서부터 데이터 미리보기.
df.sample로 데이터 미리보기.

3. 데이터 요약하기
df.info로 데이터 요약.
df.columns로 컬럼명만 출력하기.
df.types로 데이터 타입만 출력하기. 

4. 결측치 확인하기 #결측치=null=비어 있는 값 
df.isnull로 null값인지 확인하기. null==True==1
df.isnull().sum()으로 결측치 개수 확인하기.
null_count=df.isnull().sum #null_count라는 변수에 결측치 담는다. 
null_count.plot()으로 결측치 그래프 확인하기. 
null_count.reset_index() #결측치 수를 reset_index를 통해 데이터 프레임으로 만들어주기
df_null_count=null.count.reset_index() #df_null_count 변수에 결과를 담기.(그래야
데이터를 볼 수 있음)

5. 컬럼명 변경하기 
#df_null_count 변수에 담겨있는 컬럼 이름을 컬럼명, 결측치수로 바꾸기 
df_null_count.columns=["컬럼명", "결측치수"]

6. 정렬하기 
#df_null_count 데이터 프레임에 있는 결측치수 컬럼을 sort_values를 통해 정렬한다. 
df_null_count.sort_values()
#결측치가 적은 순으로 출력하기 
()안에 by="결측치수"
#결측치가 많은 순으로 출력하기 
()안에 by="결측치수", ascending=False 
#결측치가 많은 순으로 10개 출력하기 
head(10)

7. 특정 컬럼만 불러오기
#지점명 컬럼 불러오기
df["지점명"].head()
#컬럼명이라는 컬럼의 값만 가져오기
df_null_count_top["컬럼명"]
#컬럼명이라는 컬럼의 값만 가져오기>리스트에 담기>drop_columns 변수에 담기
drop_columns=df_null_count_top["컬럼명"].tolist()
#컬럼명이라는 컬럼의 값들이 각각! 컬럼이 되려면
df[drop_columns]

8. 결측치 제거하기 
#행을 기준으로 드랍
df.drop[drop_columns, axis=1]
#열을 기준으로 드랍 
df.drop[drop_columns, axis=0]
#제거 결과를 info로 확인
df.info()

9. 기초 통계 수치 보기
#위도의 평균값 
df["위도'].mean()
#중앙값
median
#최대값
max
#최소값
min
#갯수
count

10. 기초통계값 요약하기
#위도의 평균값,중앙값,최대값,최소값, 개수 등 기초 통계값을 요약해주기
df["위도"].describe()
#위도, 경도 2개 칼럼의 기초 통계값 요약하기 
df[["위도", "경도"]].describe()
#describe으로 문자열 데이터타입의 요약 확인
df.describe(include="object")
*이때, 문자열 데이터를 요약한 것이므로 평균,최소값 등등의 정보는 요약 안됨.

11. 중복 제거한 값 보기 
#유니크로 중복제거한 값을 확인. 
df["상권업종'].unique()
#엔유니크로 중복제거한 값의 개수 세기. 
df["상권업종"].nunique()
#len이 엔유니크와 같은 기능을 함. (중복제거한 값의 개수 세줌)
len[df["상권업종'].unique()

12. 그룹화된 요약값 보기
#value_counts로 그룹화된 데이터 개수 세기
df[카테고리].value_counts()
#normalize=True 로 비율 구하기
df[카테고리].value_counts[normalize=True]
#plot 그래프 그리기