●欠損値への対処法
1. -999や-1で置き換える
2. 平均値や中央値で置き換える
3. 値を推定する(時系列データであれば線形補間など)
4. 新しい二値変数(例:is_null)を追加して、nanの時に1とする
注意:categorical featureのencodingに
欠損値のあるnumerical featureを使用する場合、
欠損値を-999で置き換えてからencodingすると
無意味に大きな値になり得る。
encodingにencodingに欠損値を使用しない。
⇒特徴量を生成する場合は、欠損値の扱いに注意を要する
(featrure generationの前に欠損値補間をしない)
0 件のコメント:
コメントを投稿