交差検証(クロスバリデーション)を使用した教師データの汎化性評価

交差検証(クロスバリデーション)を使用した教師データの汎化性評価

AI分類予測では、教師データの性能を評価するための精度検証機能が備わっています。
精度検証機能を利用することで、下図のように、全体の精度と各ラベルの精度が表示され、構築済み教師データの精度を測定することができます。


精度検証機能では、特定のデータに対する精度(上図では、85.7%)を測定することはできますが、他のデータに対しても同等の精度がでるかどうかは分かりません。
検証用のデータセットを複数用意して検証することもできますが、データセットを用意する手間がかかります。
交差検証機能を利用することで、未知のデータに対する汎化性能を評価することができ、構築済み教師データが未知のデータに対しても同等の精度がでるかどうか(汎化性能の高いかどうか)を検証できます。

現時点では、多ラベル分類は、交差検証機能に対応しておりませんので、予めご了承ください。

交差検証とは

交差検証は、教師データをn個に分割して「テストデータ(未知のデータ)」とし、残りの1-n個を「教師データ」として予測計算を行うことで、性能(精度)を計算します。
この計算を複数回実施して精度検証を行う手法です。

交差検証の利用

1.教師データをセットする

教師データのセット方法は、下記ヘルプをご参照ください。



2.マイアカウントで、交差検証結果ダウンロードを実行する

マイアカウントページを開いて、「教師データ」タブを選択する。
「交差検証結果ダウンロード」をクリックすると、交差検証の計算処理がされて、計算結果のcsvファイルがダウンロードされます。
*「0.2」の数字は、構築済み教師データにおけるテストデータとして使用する割合を指します。(教師データが100件あれば、20件をテストデータとして、残り80件を教師データとして、予測計算を実行します)
*「シャッフル」は、構築済み教師データのうちテストデータとして使用するデータをランダムで抽出します。チェックを外すと、上位n件をテストデータとして使用します。


3.ダウンロードしたcsvファイルで、結果を確認する

csvファイルの上段では、構築済みの各教師データの検証結果を確認できます。
n:交差検証は、複数回の精度検証を実行しており、n回目の結果を表します。
クエリ:テストデータとして選択された教師データ(クエリ)が表示されます。
AI教師ラベル:構築済み教師データで設定されている教師ラベルが表示されます。
AI予測ラベル:交差検証による予測結果のラベルが表示されます。
AI予測スコア:交差検証による予測スコアが表示されます。
AI予測ラベル候補:交差検証による予測ラベル候補が表示されます。(全ラベルのうち、予測スコアの高い上位5件のラベルが候補として表示)
AI予測ラベル候補スコア:交差検証による予測ラベル候補のスコアが表示されます。



CSVファイルの下段では、全体の平均精度と各ラベルの精度を確認できます。
n:n回目の精度検証結果を表します。
精度:n回目の平均精度が表示されます。
ラベル名:ラベルごとの正答率(精度)が表示されます。



交差検証結果のチェックポイント

・下段の「精度」を確認して、n回(1~5)の精度がバラついていないか。精度がバラついている場合は、汎化性能が低く、教師データの件数を増やすことをお勧めします。
下段の「精度」を確認して、n回(1~5)の精度は許容範囲か。精度がバラついてはいないが、n回すべての精度が低い場合は、教師データの件数を増やす等の底上げの検討をお勧めします。
・下段の「各ラベル」の精度を確認して、n回(1~5)の精度がバラついていないか。精度がバラついているラベルがある場合は、汎化性能が低く、そのラベルの教師データの件数を増やす等の対策の検討をお勧めします。
・下段の「各ラベル」の精度を確認して、n回(1~5)の精度は許容範囲か。精度がバラついてはいないが、n回すべての精度が低い場合は、そのラベルの教師データの件数を増やす等の底上げの検討をお勧めします。
教師データの件数を増やしても改善されない場合
・上段の「AI教師ラベル」と「AI予測ラベル」が不一致のものを抽出して、教師データの公報等の内容を確認して、そもそもラベルが正しいかどうかチェックする。
    • Related Articles

    • AI分類予測

      概要 AI分類予測は、予めユーザーがセットした教師データに基づいて、任意の検索結果や母集合について、AIが分類を予測してくれます。例えば、任意の検索結果について、【自社事業に関連する/しない】といった分類や、SDIの新着公報について、【どの開発テーマに関連するか】等、今まで人が公報を読み込んで仕分けしていた作業を、数秒以内でAIが自動で分類し、大幅な作業効率を図ることができます。 ...
    • AI分類予測の精度を上げたい

      AI分類予測の精度検証機能やパラメータチューニングを使用することで、精度向上が期待できます。 精度検証用のデータを用意できない場合には、交差検証機能をご利用ください。 交差検証(クロスバリデーション)機能では、構築済み教師データの汎用性を評価することができます。 精度検証機能の詳細は、下記のスライド資料をご参照ください。
    • かんたん3ステップAI分類予測

      トップページ より、以下のフォーマットで教師データファイルと予測データファイルを用意するだけで、すぐにAI分類予測を行うことができます。 1. 教師データファイル読込 以下のような1列目に番号、2列目に任意のラベル名を付与した番号リストを用意します。多値分類の場合、任意のラベル名、2値分類の場合、1か-1を付与します。カンマ区切りかタブ区切り、どちらでも構いません。 サンプル教師データファイル 2. 予測データファイル読込 ...
    • AI分類予測の教師データサンプル

      以下の教師データサンプルを利用して、AI分類予測機能をお試しいただけます。 2値分類_教師データサンプル.csv 多値分類_教師データサンプル.csv 予測データサンプルを利用することで、AI分類予測の精度検証機能や交差検証機能をお試しいただけます。 2値分類_予測データサンプル.csv 多値分類_予測データサンプル.csv
    • AI教師データの一括取り込み

      AI教師データを一括で取り込みする手順を解説します。 1. 教師データとして分類付与済み番号リストを用意 以下のようにA列に公報番号、B列に任意のラベル名を付与した番号リストのcsvファイルを用意します。カンマ区切りかタブ区切り、どちらでも構いません。 2値分類:1 or -1を付与 多値分類:任意のラベル名を付与 多ラベル分類:任意のラベル名を付与(複数ラベルを付与する場合は、C列、D列と足してください) ...