부스트코스...또?

Pandas란?

구조화된 데이터의 처리를 지원하는 python 라이브러리
기본적으로 numpy의 데이터 타입을 그대로 불러와서 판다스의 데이터타입을 구성하기 때문에 numpy의 고성능 기능들을 그대로 제공한다.
인덱싱, 연산용 함수, 전처리 함수 등을 제공한다.

Pandas로 데이터 불러오기

pd.read_csv(데이터 경로, 데이터 구분자, header 설정)

df.head() : 처음 5개 데이터를 불러온다.

불러오는 데이터의 형태는 numpy다.

import pandas as pd
import numpy as np

df = pd.read_csv('C:/Users/Neverland/Desktop/SAI/test.csv', header = None)

   0     1   2
0  1   KIM  30
1  2  CHOI  25
2  3   LEE  41
3  4  PARK  19
4  5   LIM  36

type(df.values)
<class 'numpy.ndarray'>
#값의 형태는 numpy다.

Pandas의 구성

기본적으로 series와 dataframe이라고 하는 두 가지의 object로 구성.

Untitled

Series

시리즈 오브젝트를 생성할 때 list 타입, dict 타입을 사용할 수 있다.

import pandas as pd
import numpy as np
from pandas import Series

list_data = [1,2,3,4,5]

ex_obj = Series(data = list_data)

ex_obj
0    1
1    2
2    3
3    4
4    5
dtype: int64

Untitled

인덱스, 데이터, 데이터 타입이 출력된다.

인덱스의 이름을 지정할 수도 있다.

import pandas as pd
import numpy as np
from pandas import Series

list_data = [1,2,3,4,5]
list_name = ["a", "b", "c", "d", "e"]

ex_obj = Series(data = list_data, index = list_name)

ex_obj
a    1
b    2
c    3
d    4
e    5
dtype: int64