https://medium.datadriveninvestor.com/rake-rapid-automatic-keyword-extraction-algorithm-f4ec17b2886c

중지 단어와 구문 구분 기호를 사용하여 문서를 후보 키워드로 분할

  1. stop words, delimiters → candidate words
  2. co-occurrences matrix 생성 : 각 행이 특정 내용 단어가 candidate words의 다른 모든 내용 단어와 동시에 발생하는 횟수 표시
  3. keyword score :
    1. 매트릭스 내 단어의 정도(즉, 단어가 텍스트의 다른 내용 단어와 동시 발생 횟수 합)

    2. 단어 빈도(즉, 단어가 텍스트에 나타나는 횟수)

    3. 단어의 빈도로 나눈 값으로 계산

      https://s3-us-west-2.amazonaws.com/secure.notion-static.com/3400c128-1f1c-4ef1-bd10-d3f08bdbcae8/Untitled.png

co-occurrence matrix

Paper

키워드추출_RAKE_Automatic_Keyword_Extraction_from_Individual_Docum.pdf