AI教師データの一括取り込み

AI教師データの一括取り込み

AI教師データを一括で取り込みする手順を解説します。

1. 教師データとして分類付与済み番号リストを用意

以下のようにA列に公報番号、B列に任意のラベル名を付与した番号リストのcsvファイルを用意します。カンマ区切りかタブ区切り、どちらでも構いません。
2値分類:1 or -1を付与
多値分類:任意のラベル名を付与
多ラベル分類:任意のラベル名を付与(複数ラベルを付与する場合は、C列、D列と足してください)

A列に入力する公報番号の番号フォーマットは複数サポートしており、特願2001-1、特開2004-123456、特許6123456などが使えます。
JP20060290111,多能性幹細胞
特願2010-122389,多能性幹細胞
WO2013176233,多能性幹細胞
特許5544573,ネットワーク・システム
特開2016-144034,ネットワーク・システム
特開平11-204878,光学
特開2017-92183,光学
JP20090132707,化合物
JP20170559255,化合物

エクセルのようにタブ区切りの場合は、下図の要領でリストを作成してください。


1.1教師データサンプル

以下のリンク先から教師データのサンプルをダウンロードできます。

2.AIラベル設定画面を開く

下図の赤枠で示した「AIボタン」より、AIラベル設定画面を開きます。


3. 分類種別を選択


用意した教師ラベルに応じて分類種別を選択します。独自の技術分類など複数のラベル名の場合は、多値分類、興味のある文書(1)か検索ノイズであるか(-1)である場合は2値分類を選択して下さい。





















4a. 教師ラベルを一括インポート(コピー&ペーストの場合)


エクセルなどで1列目に番号、2列目に教師ラベルが付与されたものを開き、1列目と2列目をコピーします。次に、AIラベル設定の画面で教師データを一括編集のボタンをクリックします。




















その後、教師データ入力欄に教師番号リストをペーストし、教師データを保存ボタンをクリックします。


















以下の図のように右側に番号とラベル名が付与されていれば、正しく教師ラベルが読み込めています。ビックリマークがあるものはデータベースに存在しない番号です。フォーマットに誤りがないか等を確認して下さい。






















4b. 教師ラベルを一括インポート(ファイル読み込みの場合)


カンマ区切りまたはタブ区切りで1列目に番号、2列目に教師ラベルが付与されたテキストファイルを用意します。エクセル形式はサポートしていませんので注意してください。CSVかTSVの形式である必要があります。次に、AIラベル設定の画面でファイルから読み込みをクリックします。出現したファイルを選択ボタンをクリックしてファイルを選択するかドラッグ&ドロップをしてください。
なお、テキストを教師にする場合は、3列目にtと入力する必要があることに注意してください。3列はクエリ種別を設定する欄であり、出願番号はa、公開番号はp、登録番号はe、テキストはtになります。番号の場合は、自動判別可能な番号フォーマットの場合は3列目は省略可能です。





































5 . 未分類の番号リストを用意

以下のような1列目に予測したい番号を付与した番号リストを用意します。原則、2列目は不要ですが、教師番号のリストと同様に2列目にラベルを付与することも可能です。この場合、AIが予測した結果との精度検証に用いることができます。

サンプル予測データファイル

      特開平7-149737
      特開平7-165579
      特開2002-78792
      特開2018-163436
      再表2017-104724
      特開2018-151775
      特開2018-145113
      特開2018-141892
      特開2018-143025
      特開2006-276388
   

6. 予測データの入力画面へ切り替え

予測データに切り替えより予測データ入力画面に切り替えます。




















7. 予測番号リストを 一括インポート

予測番号リストを教師ラベルと同様に一括編集かファイルから読み込みでインポートします。その後、予測データで検索ボタンでクリックして下さい。

なお、読み込んだ番号リストを対象として予測した結果を得るには、予測データ画面の「予測データで検索」ボタンの方であることに注意してください。教師データ入力画面の場合は、詳細検索画面にて任意の検索式または番号を一括入力での母集団で予測することができる「検索結果で予測」ボタンであり、予測データ画面で入力した番号リストの母集団とは異なります。





















8. 予測結果一覧をエクセルでダウンロード

検索結果画面のAI予測ラベルの欄にAIが教師データが学習した結果が表示されます。検索結果画面の右上のエクセルボタンによりAI予測ラベルを含む検索結果をエクセルまたはCSV形式でダウンロードすることができます。出力項目はカスタマイズ可能です。エクセルエクスポート時には、AI予測ラベル候補、AI予測ラベル候補スコアを選択することができ、上位5つの予測ラベル候補とスコアを確認することができます。

500件以上の場合は、サーバー上でダウンロード処理が進行し、ダウンロード完了のメッセージが到着するとマイアカウントページからダウンロードすることができるようになります。なお、1000件を超える一括ダウンロードはオプションとなっていますので、必要な場合はお問い合わせ下さい。





























9. 教師データ番号リストの切り替え

AIラベル設定画面の右上の予測モデルより、教師データ番号リストを切り替えることができます。複数種類の異なる教師データの番号リストを管理することができます。作業グループを追加を選択すると新しい教師データ番号リストのセットを追加することができます。教師データは10種類まで保存することができます。オプションで種類数を増やすこともできます。種類数が必要な場合は、お問い合わせ下さい。




















    • Related Articles

    • AI分類予測

      概要 AI分類予測は、予めユーザーがセットした教師データに基づいて、任意の検索結果や母集合について、AIが分類を予測してくれます。例えば、任意の検索結果について、【自社事業に関連する/しない】といった分類や、SDIの新着公報について、【どの開発テーマに関連するか】等、今まで人が公報を読み込んで仕分けしていた作業を、数秒以内でAIが自動で分類し、大幅な作業効率を図ることができます。 ...
    • かんたん3ステップAI分類予測

      トップページ より、以下のフォーマットで教師データファイルと予測データファイルを用意するだけで、すぐにAI分類予測を行うことができます。 1. 教師データファイル読込 以下のような1列目に番号、2列目に任意のラベル名を付与した番号リストを用意します。多値分類の場合、任意のラベル名、2値分類の場合、1か-1を付与します。カンマ区切りかタブ区切り、どちらでも構いません。 サンプル教師データファイル 2. 予測データファイル読込 ...
    • AI分類予測の教師データサンプル

      以下の教師データサンプルを利用して、AI分類予測機能をお試しいただけます。 2値分類_教師データサンプル.csv 多値分類_教師データサンプル.csv 予測データサンプルを利用することで、AI分類予測の精度検証機能や交差検証機能をお試しいただけます。 2値分類_予測データサンプル.csv 多値分類_予測データサンプル.csv
    • AI分類予測の精度を上げたい

      AI分類予測の精度検証機能やパラメータチューニングを使用することで、精度向上が期待できます。 精度検証用のデータを用意できない場合には、交差検証機能をご利用ください。 交差検証(クロスバリデーション)機能では、構築済み教師データの汎用性を評価することができます。 精度検証機能の詳細は、下記のスライド資料をご参照ください。
    • 台湾公報に対してAIセマンティック検索・AI分類予測はできますか

      台湾公報に対して、AIセマンティック検索・AI分類予測は対応しておりません。 AIセマンティック検索・AI分類予測機能は、日本語または英語で記載された公報についてご利用いただけます。 日本語横断検索オプションでは、台湾公報に対してAIセマンティック検索・AI分類予測が利用できます。 詳細については、日本語横断検索オプションをご参照ください。