대회를 위한 개인 스터디 내용 기록
제출 전 internet 연결 끄기!
랜덤시드 고정 = 2024
| 서진 | 혜진 | 성민 | |
|---|---|---|---|
| Missing value 처리 방법 | datawing/MICE | mean, median | KNN-Imputer |
| 표준화, 정규화 | standard, robust, normalizer | standard, robust, normalizer | standard, robust, normallizer |
| 모델 | lightgbm | xgboost | catboost |
튜닝x 모델
모델: 결측치 처리 X → xgboost, lightgbm, catboost, tabnet(캐글에 올려서!)
→ Voting(가중치 동일) / Stacking
시계열, train, test 외 나머지 데이터 사용 방법 생각해오기
ARIMA(자기회귀와 이동평균을 결합한 모델로, 시간에 따른 데이터의 흐름을 예측하는 데 사용) → 공부해볼 것!
https://www.kaggle.com/datasets/ryati131457/pytorchtabnet
ram 초과 시 → runpod
파라미터 튜닝: Optuna → 나중에