【重要】 カテゴリカルなデータが含まれる場合の検証・予測仕様の変更
カテゴリカルなデータが含まれる場合の検証・予測の仕様の一部が変更されました。
変更点は二点あります。
AMATERAS RAYでは、時系列分析以外の場合、カテゴリカルなデータの変換に「ターゲットエンコーディング」という手法を採用しています。
一点目の変更点として、検証・予測の際の、ターゲットエンコーディングを適用するデータの範囲が適切でないことが判明したため、これを修正しました。
いくつかのデータで試したところ、基本的には修正前よりもポジティブな結果(より正確にモデルの汎化性能を確認することができた)を得ることができました。
今回の変更で、モデルの性能自体には変化はありません。
また、もう一点目の変更点として、カテゴリカルな検証・予測データで、「学習データに含まれないクラス」が含まれていた場合、その値を「学習データの最頻値」で埋める処理を採用しました。
こちらの変更の意図としては以下の通りです。
・「未知のクラスを含む観測値を削除する」という方針も取り得るが、その場合時系列データかつカテゴリカルなデータの場合、全体の周期に齟齬が生じてしまうため。
・他の有用なデータとともに観測値自体を削除してしまうよりも、予測を行う方がより恩恵が大きいと考えたため。
今回の変更についてご質問等ある場合は、ヘルプページのお問い合わせフォームからご連絡ください。
どうぞよろしくお願い致します。