金曜日, 10月 16, 2020

【メモ】How to Win a Data Science Competition: Learn from Top Kagglers 第1週 その6

 ●Textデータに対する前処理(Bag of wordsなどの前に実施)

1. 大文字を小文字に変換

2. 同じ単語の処理(cars⇒car, had⇒have)

 stemming(語幹処理)とlemmatization(見出語化

 stemming: democracy, democratic, democratization⇒democr

 lemmatization: democracy, democratic, democratization⇒democracy

3. stopwordsの除去


●Bag of wordsのパイプライン

前処理(上記参照)⇒Ngrams⇒後処理(TFiDF)

0 件のコメント: