●preprocessing of numerical features
外れ値への対処:
①クリッピング(パーセンタイルを使ったりする)
min, max = np.percentile(data, [1, 99]) data = np.clip(data, min, max)
②rank transformation(外れ値がある場合はMinMaxScalerよりも良い)
from scipy.stats import rankdata
値の大小の順番を変数として扱う
決定木系以外(特にNeural Network)の性能を上げ得る前処理:
①対数変換
np.log(1 + x)
②平方根変換
np.sqrt(x + 2/3)
0 件のコメント:
コメントを投稿