水曜日, 10月 14, 2020

【メモ】How to Win a Data Science Competition: Learn from Top Kagglers 第1週 その5

 ●欠損値への対処法

1. -999や-1で置き換える

2. 平均値や中央値で置き換える

3. 値を推定する(時系列データであれば線形補間など)

4. 新しい二値変数(例:is_null)を追加して、nanの時に1とする

注意:categorical featureのencodingに

   欠損値のあるnumerical featureを使用する場合、

   欠損値を-999で置き換えてからencodingすると

   無意味に大きな値になり得る。

   encodingにencodingに欠損値を使用しない。

特徴量を生成する場合は、欠損値の扱いに注意を要する

 (featrure generationの前に欠損値補間をしない)

0 件のコメント: