-
동일한 아이디로 모두 합쳐서 우선 ID를 제외하고 모든 컬럼을 모델에 넣고 돌리기
-
feature추가하기(feature 개수가 굉장히 많아질 수 있음)
- 매수일자, 기준(매도)일자 기준 코스피지수, 종목가격 추가/외국인 매수.매도/선물/..
- 시가,종가,저가,고가,변동률(오늘 종가- 전날 종가)*100, 이동평균선, 전일비
- 종목 가격의 변동성→ 사고 판다.
- 종목 자체에 대한 정보 → 업종, 시가총액, 컨센서스, 목표주가, 재무데이터
- 볼린저밴드
- https://www.google.com/search?q=financedatareader&oq=financedatareader&aqs=chrome..69i57j0i512l5&sourceid=chrome&ie=UTF-8
- https://gils-lab.tistory.com/12
→ api사용해서 각 종목별 주가데이터 가져올 수 있음
-
iem_cd: 종목코드 → categorical data로 만들기
- sparse한 값이 되기 때문에 현재 3000개의 주식종목을 80-90개정도의 카테고리로 만들기how ? 코스피,코소닥,시가총액,으로 나누어줘야함, 콤비네이션(?)으로 원핫인코딩하면 80~90개정도의 카테고리가 나올것임.
- 업종으로 나눌수도 있을듯!
https://ysyblog.tistory.com/71
-
수익을보고 파는 시점과 손해를 보고 파는 시점을 파악하기
- OHLC + V + 각종 시장 지표
- 심리지표
- 외부지표 = 금, 비트코인, 유가, 원자재, 그래프, 잔고, 대차잔고, 공매도, 선물
-
고객 성향(cus_info)을 나누어서 패턴을 파악하기(EDA) → 매도 시점 찾아보기
- 패턴이 보인다면 고객성향이 보이는 시점을 (6-7구간)
- 고객을 분류(자산, 연령, 투자성향) → 매도 패턴이 다르다 → 패턴에 따라서 모델을 다르게 사용(6-7개)
- ex. 1번 성향의 고객이면 1번 모델, 2번 성향의 고객이면 2번 모델
-
대회에서 제공하는 Hint
Hold_d(보유기간) – hist_d(‘20년 12월 31일까지의 최근 보유기간) ≤ 146
- 코로나때문에 기존의 투자 패턴이 달라짐 → 보유기간 차이를 보자 → 히스토그램?? ㅇㅋ
- 같은 고객이 동일한 패턴을 보이는가 vs 다른 패턴을 보이는가
-
종목코드가 굉장히 중요한 역할을 할 것임, 고객 정보도 중요할 것임
- 종목정보: 시가총액, 업종, 테마(시간마다 달라지는데), 애널리스트 평가, 최근 실적, 재무제표 등등의 네이버증권과 FnGuide에 나오는 종목 정보