概要
データ型を変更することで、より適切に変数を学び、学習効率や精度が向上することがあります。
Forecast では4種類のデータ型を選ぶことができます。
各データの特徴
- 数値型
- 名前の通り、数値で量を表すデータを扱います。年齢、各国の人口、株価などは数値データです。変換を施すことなく、そのまま機械学習のデータとして扱うことができます。
- カテゴリ型
-
いくつかの「クラス」に分けることができるデータを扱います。性別、天気、都道府県などです。
-
クラスとは、そのデータの分類可能なラベルのことです。たとえば性別であれば、生物学上人間は2つのクラス(男・女)に分類することができます。
-
カテゴリ型が文字の場合、アルゴリズムは文字を学習できないため、必ず何かの数値に変換して扱います。たとえば性別であれば、男-> 0 女-> 1 という形です。
-
- 日付型
-
日時を示すデータを扱います。日付データからは様々な特徴量を作ることができます。
-
Forecast では、日付型をIndexに指定することで、時系列処理を施すことができます。詳しくは「時系列設定」の解説をご覧ください。
-
学習設定の「特徴量作成」の設定を変更することで、特徴量に変換することができます。基本的には、日付データそのものは学習には使われません。
-
- 文字列型
-
名前、SNSでの投稿や製品番号などの文字が連なったデータを扱います。
-
学習設定の「特徴量作成」の設定を変更することで、文字列を形態素解析(単語に分けること)で分割し、特徴量に変換する機能があります。
-
詳細は「学習設定」の章をご覧ください。基本的には、文字列データそのものは学習には使われません。
-
データ型の設定
- 「データ型」ボタンをクリックし、プルダウンメニューから変更したい型を選択する
- データ型が、「区分不可」と表記されているデータも存在します。
- 「区分不可」は、「Forecast には、データ型が推測できなかった」データということになります。お客様の手で、適切なデータ型に変更して頂くことになります。(変更しない場合、学習には使われません)
- データ型が変わると、取得できる統計量(平均、クラス数など、データを代表する様々な数値)も変わってきます。
- データ型が、「区分不可」と表記されているデータも存在します。
- 左上のヘッダーのチェックボックスにチェックを入れると、データすべてを選択した状態になります。
- この状態ですべての型を一度に変更することもできます。ただし、下の画像のように、型変更ができない変数もあるので注意してください。たとえば「各国の人口」のようなあまりにもバラバラな数値(一致するものが一つもない)データは、カテゴリ型に変更することはできません。
各データ型への変更基準
- 数値型
-
対象のデータが以下の条件を満たす場合、数値型として扱うことができます。
-
1つでも数値に変更できるデータを含んでいる
-
例1:[‘a’,’b’,’c’,1,’d’] -> 変換可能
-
例2: [‘a’,’b’,’c’,’c’,’d’] -> 変換不可能
-
-
-
- カテゴリ型
-
対象のデータが「完全にユニーク」でない場合は、カテゴリ型として扱うことができます。
「完全にユニーク」とは、データのすべての値が重複しない状態のことを意味します。 -
また重複しない値は、分析時に「Rare」というカテゴリに置き換えられます。
-
- 日付型
-
対象のデータ型以下のどちらかを満たす場合、日付型として扱うことができます。
-
数値データ(数値データはUNIX時間として計算されます)
-
いずれかの日付のフォーマットに準拠している
-
例1:[1,2,3,4,5] -> 変換可能
-
例2:[‘2019/10/09’, ‘2019/10/10’, ‘2019/10/11’, ‘2019/10/12’] -> 変換可能
-
-
-
- 文字列型
- すべてのデータを変換することができます。