パラメータチューニング

パラメータチューニング

機械学習では、ハイパーパラメータと呼ばれるチューニングしなければいけないパラメータがいくつか存在します。教師データが少ないうちは自動的にパラメータ調整を行いますが、教師データが1000件を超えると自動でパラメータ調整は行われません。

正解ラベルがわかっている教師データの一部を教師データに追加せずに予測データに追加することにより、未知データ(教師データとして与えていないデータ)に対する精度(正解率)を検証しながらパラメータを調整することができます。
















1. C コスト(誤分類許容度)
この値が小さいほど教師データに対しては正解率が高くなりますが、未知データに対しては精度が出にくくなる傾向があります。

2. Sigma カーネルパラメータ
この値が小さいほど教師データに対しては正解率が高くなりますが、未知データに対しては精度が出にくくなる傾向があります。なお、Sigmaは(セマンティック)がつく特徴量しか設定できません。

3. パラメータ自動調整チェックボックス
チェックすると、教師データが1000件以下の場合、Cのパラメータのみ自動でパラメータが調整されます。教師データが1000件を超えると自動的にオフになります。

4. 精度
予測データとして与えたラベルとAIが予測したラベルの正解率を示します。正解ラベル数/全体ラベル数

5. 対象特徴量
分類の対象とする特徴量です。(セマンティック)とつかない方の特徴量の方は表記揺れ等を考慮しないため、より厳密に分類しやすくなる傾向がありますが、教師データが少ないと未知データに対する性能がでにくい傾向があります。(セマンティック)とついている方が表記ゆれ等を吸収して分類するため、精度が高くなる傾向があります。ただし、細かい部分での分類性能がやや落ちる可能性があります。

6. 教師ラベルの数
教師タブで設定した教師データのラベル毎の数です。

7. 教師ラベルの重み
ファイル読み込み、一括編集保存時には、教師ラベルの数に応じて自動的に重みが調整されます。ラベル毎の数の不均衡をできるだけ調整します。自動調整した値であっても、ラベルに偏りがありすぎると感じる場合は、重みを変更することによってラベルの偏りを調整できることがあります。


パラメータチューニングの方法

パラメータチューニング機能をご利用ください。解説はこちら

    • Related Articles

    • 学習パラメータチューニング結果の精度と「予測データ」の精度が一致しない

      学習パラメータチューニングでは、「予測データ」を利用してハイパーパラメータをチューニングして、最適なパラメータを設定することができます。 また、「予測データ」タブでは、正解ラベルが付与されたcsvファイルをインポートすることで、画面下部にように、現在セットされている教師データによる精度/適合率/再現率/F値を確認できます。 このとき、チューニングしたパラメータを反映後、チューニング結果で表示されている精度等の数値と、予測データで表示される精度等の数値が異なるケースがあります。 ...
    • 学習パラメータチューニングの制限回数

      「学習パラメータチューニング」についてはサーバー負荷が高いため、実行できる回数が制限されています。 制限回数は、直近1週間で50回/アカウント です。 ※制限回数の上限解放は対応しておりません。
    • AI分類予測の精度を上げたい

      AI分類予測の精度検証機能やパラメータチューニングを使用することで、精度向上が期待できます。 精度検証用のデータを用意できない場合には、交差検証機能をご利用ください。 交差検証(クロスバリデーション)機能では、構築済み教師データの汎用性を評価することができます。 精度検証機能の詳細は、下記のスライド資料をご参照ください。
    • AI分類予測

      概要 AI分類予測は、予めユーザーがセットした教師データに基づいて、任意の検索結果や母集合について、AIが分類を予測してくれます。例えば、任意の検索結果について、【自社事業に関連する/しない】といった分類や、SDIの新着公報について、【どの開発テーマに関連するか】等、今まで人が公報を読み込んで仕分けしていた作業を、数秒以内でAIが自動で分類し、大幅な作業効率を図ることができます。 ...
    • かんたん3ステップAI分類予測

      トップページ より、以下のフォーマットで教師データファイルと予測データファイルを用意するだけで、すぐにAI分類予測を行うことができます。 1. 教師データファイル読込 以下のような1列目に番号、2列目に任意のラベル名を付与した番号リストを用意します。多値分類の場合、任意のラベル名、2値分類の場合、1か-1を付与します。カンマ区切りかタブ区切り、どちらでも構いません。 サンプル教師データファイル 2. 予測データファイル読込 ...