【重要なお知らせ】時系列データのCrossValidationについて
時系列データにおけるCrossValidationのデータの切り分けの方法を変更しました。 これまで時系列データでCrossValidationを行う際、「全体の1/nを検証用データとし、残りの(n-1)/nを学習データとする」方法を採用しておりました。 ver.2.0.2より「全体のm/nを学習データとし、それより未来の1/nを検証データとする」time series splitという方法に切り替わっております。 この変更により、未来のデータをCrossValidationに使わないことで、より汎化性能の高いモデルやパラメータを選ぶことが可能になりました。 今までと学習時の精度が変わっている可能性がありますので、ご確認頂ければ幸いです。
今回の変更についてご質問等ある場合は、ヘルプページのお問い合わせフォームからご連絡ください。 どうぞよろしくお願い致します。
【重要なお知らせ】「学習結果」の定義を修正しました
ver.2.0.0以前のAMATERAS RAYは、「自動holdout検証機能」として以下のような形で「学習精度」を定義していました。
1.学習データの一部(全体の30%)をholdoutとして取り置いておく
2.残りのデータ(全体の70%)で学習及びCrossValidationによるモデルの絞り込みとハイパーパラメータ探索を行う
3.最後にholdoutの予測を行い、その結果をもって「学習精度」とする
ただし、この「自動holdout検証機能」について以下のようなご意見を頂いておりました。
a.「学習データ」として投入したものの一部をholdoutとして切り出すと、学習精度が下がってしまうのではないか
b.holdoutとして切り出す方法を自分で選べないので、それをもって精度とするのは不安がある
現在のこの機能は、「お客様の負担と手間をできる限り削減する」という考えのもと実装されました。
ただ、aのようにすべてのデータを「学習データ」として投入したつもりが、実際より精度が下がってしまうという事実はありました。
またbについても、アプリ全体の操作性のバランス、「holdout」という知識を得る学習コストや手間を考えて最前と考えていましたが、
やはり「holdout」の必要性をきちんとご説明し、データに合った適切な検証データをご用意頂くことが、より誠実だと考えるに至りました。
こうしたご意見を踏まえ、「学習結果」について、以下のように修正しました。
・「自動holdout検証機能」を取りやめる
・「CrossValidation」のスコアを「学習精度」として定義する
今後のバージョンアップで、holdoutを切り出す機能、holdoutを投入し検証を行う機能を実装していく方針です。
上記バージョンアップまで「学習シミュレーション」画面においてholdout検証を行なって頂ければ幸いです。
ご不便をおかけしますが、どうぞよろしくお願い致します。
今回の変更についてご質問等ある場合は、ヘルプページのお問い合わせフォームからご連絡ください。
どうぞよろしくお願い致します。