전처리 Pipleline

  1. TreebankWordTokenizer
  2. to small letter
  3. 구두점과 공백 제거 (끝에 붙은 경우만)
  4. 일부 특수문자를 제외하고 알파벳이외의 문자 전부 제외
  5. remove short word (len < 3)
  6. stopword
  7. spelling 교정
  8. 품사 태깅
  9. lemmatization
  10. remove short word (len < 3)

[펌] javascript 특수문자 제거 정규식

향수 이름 토큰 추출

perfume_name_words.json

stopwords 는 우리가 사용할 전처리 pipeline 과 동일한 절차를 거쳐 나간 것이야 함.

전처리된 데이터

perfume-reconmendation/preprocessing

dataset_210522_162532.csv

dataset_210626_215600.csv