●Textデータに対する前処理(Bag of wordsなどの前に実施)
1. 大文字を小文字に変換
2. 同じ単語の処理(cars⇒car, had⇒have)
stemming(語幹処理)とlemmatization(見出語化)
stemming: democracy, democratic, democratization⇒democr
lemmatization: democracy, democratic, democratization⇒democracy
3. stopwordsの除去
●Bag of wordsのパイプライン
前処理(上記参照)⇒Ngrams⇒後処理(TFiDF)
 
0 件のコメント:
コメントを投稿