8주차 학습내용

[넘파이/판다스 복습]

: 6주간의 넘파이/판다스 문제 오답노트 및 복습

이론 (오답노트 및 헷갈릴만한 문제) :

판다스의 자료구조 중 데이터프레임은 3차원 배열형태 자료구조이다.(x)2차원 배열형태
판다스에서는 인덱싱을 제공하지 않는다.(x)제공해준다.
f = lambda x : x*2 에서 f(4)의 값은 8이다.(o)
판다스에서 describe 함수는 데이터 전체 요약 정보를 보여준다.(o)
데이터프레임과 시리즈를 .add()로 더하면 axis=1을 기준으로 더한다.(o)
2개의 시리즈를 합칠 때 인덱스가 겹치지 않는 부분은 None 값으로 반환된다.(x)NaN
a=np.arange(12).reshape(3,4)/ a[1,2]=a[1][2]?(o)
중복된 데이터값을 삭제하는 함수는 df.drop_duplicated() 이다. (X)

→ drop_duplicate

<9,10번 문제>의 데이터프레임 df
groupby() 함수를 활용하여 major 기준으로 그룹화된 데이터를, size()함수를 활용하여 출력하면, 해당 major 그룹 당 갯수가 오름차순으로 출력이 된다. (O)
print(df.major.value_counts()) 를 활용하면 major 칼럼에 있는 값 중에 각 유니크한 값 별로 몇 개의 데이터가 속하는 지를 출력할 수 있고, 그것의 순서는 데이터 갯수의 오름차순이 된다. (X)

→ 내림차순
데이터 프레임을 합치는 함수를 사용할 때, axis=0 옵션은 기본값이다. (X)

→ merge,join 함수는 해당이 안됨. 각각 pd.merge(df_left, df_right, how='inner', on=None) 형식, df1.join(df2, how='left') 형식.
데이터 프레임을 합치는 함수를 사용할 때, ignore_index=True 옵션을 사용하면 index값이 순차적으로 나온다. (X)

→ merge, join함수는 ignore_index 옵션이 없어서 에러가 난다.
2차원 배열 정렬시 np.sort(변수) 함수를 사용할 경우 기본적으로 행을 기준으로 각각의 배열에서 오름차순으로 배열된다. (X)

→ np.sort(변수) 함수를 사용할 경우 기본적으로 axis=1, 즉 열을 기준으로 각각의 배열에서 오름차순으로 배열된다.
벡터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같지 않아도 된다. (X)

→ 벡터의 덧셈 혹은 뺄셈을 하기 위해서는 두벡터의 크기가 같아야 한다.
arr.resize(shape) 를 사용하면 함수의 효과가 arr에 적용이 된다.

→ O ,reshape()는 정렬값이 적용되지 않지만 resize()는 적용이 된다