전처리 Pipleline

TreebankWordTokenizer
to small letter
- 구현
구두점과 공백 제거 (끝에 붙은 경우만)
- 참고
- 구현
일부 특수문자를 제외하고 알파벳이외의 문자 전부 제외
- 구현
remove short word (len < 3)
stopword
- nltk english
- perfume name
spelling 교정
품사 태깅
lemmatization
remove short word (len < 3)

[펌] javascript 특수문자 제거 정규식

향수 이름 토큰 추출

perfume_name_words.json

stopwords 는 우리가 사용할 전처리 pipeline 과 동일한 절차를 거쳐 나간 것이야 함.

전처리된 데이터

perfume-reconmendation/preprocessing

dataset_210522_162532.csv

dataset_210626_215600.csv

Change Log