月曜日, 10月 12, 2020

【メモ】How to Win a Data Science Competition: Learn from Top Kagglers 第1週 その2

 ●preprocessing of numerical features

外れ値への対処:

①クリッピング(パーセンタイルを使ったりする)

min, max = np.percentile(data, [1, 99]) data = np.clip(data, min, max)

②rank transformation(外れ値がある場合はMinMaxScalerよりも良い)

from scipy.stats import rankdata

値の大小の順番を変数として扱う

決定木系以外(特にNeural Network)の性能を上げ得る前処理:

①対数変換

np.log(1 + x)

②平方根変換

np.sqrt(x + 2/3)

0 件のコメント: