パラメータチューニング

機械学習では、ハイパーパラメータと呼ばれるチューニングしなければいけないパラメータがいくつか存在します。教師データが少ないうちは自動的にパラメータ調整を行いますが、教師データが1000件を超えると自動でパラメータ調整は行われません。

正解ラベルがわかっている教師データの一部を教師データに追加せずに予測データに追加することにより、未知データ（教師データとして与えていないデータ）に対する精度（正解率）を検証しながらパラメータを調整することができます。

1. C コスト（誤分類許容度）
この値が小さいほど教師データに対しては正解率が高くなりますが、未知データに対しては精度が出にくくなる傾向があります。

2. Sigma カーネルパラメータ
この値が小さいほど教師データに対しては正解率が高くなりますが、未知データに対しては精度が出にくくなる傾向があります。なお、Sigmaは(セマンティック)がつく特徴量しか設定できません。

3. パラメータ自動調整チェックボックス
チェックすると、教師データが1000件以下の場合、Cのパラメータのみ自動でパラメータが調整されます。教師データが1000件を超えると自動的にオフになります。

4. 精度
予測データとして与えたラベルとAIが予測したラベルの正解率を示します。正解ラベル数/全体ラベル数

5. 対象特徴量
分類の対象とする特徴量です。（セマンティック）とつかない方の特徴量の方は表記揺れ等を考慮しないため、より厳密に分類しやすくなる傾向がありますが、教師データが少ないと未知データに対する性能がでにくい傾向があります。（セマンティック）とついている方が表記ゆれ等を吸収して分類するため、精度が高くなる傾向があります。ただし、細かい部分での分類性能がやや落ちる可能性があります。

6. 教師ラベルの数
教師タブで設定した教師データのラベル毎の数です。

7. 教師ラベルの重み
ファイル読み込み、一括編集保存時には、教師ラベルの数に応じて自動的に重みが調整されます。ラベル毎の数の不均衡をできるだけ調整します。自動調整した値であっても、ラベルに偏りがありすぎると感じる場合は、重みを変更することによってラベルの偏りを調整できることがあります。