AI分類予測

AI分類予測

概要

AI分類予測は、予めユーザーがセットした教師データに基づいて、任意の検索結果や母集合について、AIが分類を予測してくれます。例えば、任意の検索結果について、【自社事業に関連する/しない】といった分類や、SDIの新着公報について、【どの開発テーマに関連するか】等、今まで人が公報を読み込んで仕分けしていた作業を、数秒以内でAIが自動で分類し、大幅な作業効率を図ることができます。

教師データには、出願番号/公報番号またはテキストデータを、最大1万件まで入力することができます。入力した教師データに基づいて、約数秒~10秒以内に機械学習させた独自のモデルを生成し、最大10万件までの任意の検索結果について分類予測を実施し、予測スコアを算出します。

予測スコアによって、調査テーマと関係ないノイズとなりうる文献の順位を下げたり、興味のある文献を上位に表示させたりすることができ、効率的に調査することができます。

入力した「教師データ」や「予測データ」は、作業グループにに紐づいて保存されますので、ご注意ください。例:例)作業グループ「001」で入力した教師データは、作業グループ「002」では使用できません。
 分類種別

AI分類予測では、3つ(2値分類、多値分類、多ラベル分類)の分類種別から、一つを選択して使用します。

【2値分類】 関係するか/しないか(〇か✖)で振り分けができます。
自社技術に関係するかどうか、開発テーマに関係するかどうか等の観点で振り分けし、関係する公報だけを効率的にスクリーニングすることができます。
【多値分類】 複数のラベルを作成して、どのラベルに一番近いかを振り分けます。
技術要素・課題・効果等の観点で複数のラベルに振り分けし、特定の技術要素・課題・効果だけを選別してスクリーニングしたり、検索結果の母集合について、どの技術要素が多いのかを分析することができます。
【多ラベル分類】 複数のラベルを作成して、複数のラベルを付与します。
基本的には多値分類と同じような使い方ができます。多ラベルの場合は、例えば技術要素で振り分ける際に、要素Aと要素Bのどちらにも該当する場合に、両方の要素A・Bを振り分けることができます。

操作方法

AI分類予測の操作方法については、こちらをご参照ください。
AI分類予測の精度検証方法や、予測精度を向上させる方法につきましては、こちらをご参照ください。

AI教師ラベルの一括読み込み手順については、こちらをご参照ください。

海外文献の分類方法

AI分類予測は、日本語・英語に対応しており、例えばUS文献による教師データに基づいて、US/EP/WO(英語のみ)の文献について、分類予測することができます。

日本語で入力された教師データに基づいて、海外文献(日本語以外)の予測結果も表示されますが、教師データと言語が異なるため、予測の信頼性に欠けますのでご注意ください。
また、英語で入力された教師データで予測した日本公報の予測精度も同様です。
教師データが日本語の場合は、予測データも日本語文献(JP/WO)を入力ください。
教師データが英語の場合は、予測データも英語文献(US/EP/WO)を入力ください。
 

AIラベル設定画面


1. 対象特徴量選択ボックス
AIによる分類対象となる特徴量を選択します。特に請求の範囲(クレーム)を分類したい場合は、明細書が含まれていない特徴量を選択します。複数組み合わせることもできます。

- タイトル/要約/請求の範囲/明細書/審査官キーワード(セマンティック)
- タイトル/要約/請求の範囲(セマンティック)
単語、文書を機械学習させた概念をもとにした文書特徴量です。概で分類するため、分類がややあいまいになります。クレームなどを厳密に分類したいときはセマンティックがついていない方を利用してください。セマンティックの方を分類に使う場合は、ある程度の量の教師データが必要になることがあります。

- 引用関係
引用ネットワークを元とした特徴量です。引用関係のない文献、テキストデータでは分類することができません。

- タイトル/要約/請求の範囲/明細書/審査官キーワード
- タイトル/要約/請求の範囲
実際のキーワードをベースとした文書特徴量です。セマンティックのものと比べ、厳密に分類されます。例えば、太陽電池とソーラーパネルのキーワードはそれぞれ別物として分類されます。ただし、ソーラーパネルが含まれる文書と太陽電池が含まれる文書は、それぞれの文書内に共通して太陽光など太陽に関連するキーワードが出現していることにより、文書全体としては同じように分類されることはあります。

2. 分類種別選択ボタン
2値分類か多値分類かを選択します。2値分類の場合、ポジティブ:1かネガティブ:-1を、多値分類の場合は任意のラベル名を教師データとして与えます。

3. AI予測スコア調整チェックボックス
教師データによるAI予測スコアを使って、セマンティック検索やキーワード検索によるスコアを調整します。教師データによるAI予測スコアと教師データのないセマンティック検索による類似度スコアを調整して総合的なスコアでソートすることができます。

4. 予測ラベルフィルター
AIによる予測結果で絞り込みを行いたい場合、予測結果のラベルを選択します。

5. ラベル作成
多値分類の新規ラベルを作成します。一括読み込みを行う際は、ラベルは自動的に追加されるため、こちらで設定する必要はありません。

6. ラベル一覧
教師ラベルの一覧です。2値分類の場合、-1か1、多値分類の場合、複数設定することができます。多値分類の場合、おおよそ100個程度までは設定可能です。
6a. ラベル名
ラベル名をクリックするとラベル名を変更することができます。
6b. 教師ラベル数
ラベル名の右横数値は教師ラベル数です。
6c.ラベルの重み
ラベルごとの重み数値です。この値は一括編集すると自動で調整されます。ノイズデータのみ数が多いなど教師ラベルの数が不均衡な場合に調整することができます。
6d. ラベル名削除ボタン
ラベル名を削除します。
6e. ラベル名一括削除ボタン
全てのラベル名を削除します。

7. 教師データのクエリ種別選択ボックス
教師データのクエリ種別を選択します。「出願番号」か「公開番号」か「登録番号」か「テキスト」かを選択します。出願番号等であっても、入力クエリが"特開2004-123456"や"特許6123456"など明確に判断可能な番号形式の場合、こちらのクエリ種別によらず自動的に適切な番号種別で設定されます。"2004-123456"などそれ単体では特願か特開か判断がつかない場合、クエリ種別の選択中の種別が優先されます。

クエリ種別が「テキスト」の場合、特開2004-123456など番号のフォーマットであってもテキストとして他使われるため、注意してください。
また、入力可能なテキストの文字数は、1,000字以内です。
8. 教師データのクエリ入力フォーム

教師データのクエリを入力します。番号かテキストを入力します。出願番号はJP20010123456の形式か、特願2001-123456、特開2001-123456などの形式で入力できます。未対応のフォーマットがあればお問い合わせ下さい。教師データのクエリ種別が「出願番号」であっても特開2001-123456や特許6123456など番号フォーマットが特定可能な番号体系であれば、自動的に適切な種別に変換して追加されます。教師データのクエリ種別が「出願番号」のときに出願番号のフォーマットではないテキストを入力すると、自動的にクエリ種別は「テキスト」に切り替わります。#から後は無視されます。コメントに利用できます。

出願番号・公開番号・登録番号については、Patentfieldの収録国JP/US/EP/WOの特許(実用新案)の番号を入力することができます。
 9. 教師データのラベル設定フォーム
教師データのラベルを設定します。2値分類の場合は、1または-1、多値分類の場合は、ラベル名を設定します。

10. 教師データ追加ボタン
設定した7~9の教師データを追加します。

11. 教師データ設定欄
設定した教師データの一覧です。

設定可能は教師データ数は、最大10,000件です。
11a. 教師データ通し番号
11b. 教師データクエリ種別アイコン
出願番号の場合:出願 公開番号の場合:公開、登録番号の場合:登録  テキストの場合:

11c. 教師データクエリ編集ボタン
11d. 教師データクエリ
11e. 教師データ出願番号
番号で入力する場合、こちらに出願番号が表示されていない場合、適切に読み込めていません。ご注意ください。データベースに存在しない番号の場合、!マークが表示されます。(図中8行目参照)
11f. 教師データラベル
クリックによりラベルを切り替えることができます。多値分類の場合、1-5のうち抜けがないようにラベル付けをしてください。たとえば、1-3、1-5など。1,3,5など教師データのラベルにするとうまく分類できないことがあります。

11g. 教師データ削除ボタン
11h. 教師データ一括編集切り替えボタン
一括編集モードに切り替えることができます。一括編集モードでは、テキストエディタやエクセルなどで用意した教師データをコピーペーストで貼り付けることができます。1列目に番号またはテキスト、2列目にラベル(1or-1)、3列目にクエリ種別(省略可、テキスト:t、出願番号:aまたはk、公開番号:p、登録番号:e)を行ごとにタブまたはカンマ(,)で区切って入力します。
例:
JP20060290111 # EPODOC形式出願番号(JPYYYYNNNNNNN),1
特願2010-122389 # 特願形式(特願YYYY-N),1
WO2013176233 # WO形式,1,p
特許5544573 #特許番号形式(特許NNNNNN),-1,e
特開2016-144034 #特開形式(特開YYYY-N) ,-1,p

11i. ファイルから読み込みボタン
1列目に番号またはテキスト、2列目にラベルが記載されたCSVファイルなどのテキストファイルから教師データを読み込ませることができます。

11j. 教師データ一括削除ボタン
11k. 学習パラメータ設定ボタン (原則、変更する必要はありません。)
11l. 予測データ設定切り替えボタン
 検索結果ではなくユーザーが用意したデータで予測を行いたい場合は、こちらから予測データ画面に切り替えます。検索結果のデータで予測する場合は、14.の予測ボタンを使います。
11m. マニュアル
このページへのリンクです。
11n. 精度
教師データの予測精度です。教師データの1/4を検証データにしたときの正解率です。この精度はパラメータチューニングの際に算出された精度であり、実際の学習は、全ての教師データが用いられています。

12. 検索結果でのAI予測有効設定チェックボックス
 この画面で設定された教師データは全ての検索時に共有され、毎回予測に使われます。検索時に教師データを使って予測させたくない場合は、チェックを外して下さい。

13. セマンティックスコア併用設定チェックボックス
 より教師データに近い文献を上位表示させるため、教師データのポジティブラベル(1)上位5個をセマンティックスコア条件に反映させて検索します。すでに詳細画面でセマンティックスコアが設定されている場合は反映されません。

14. 検索結果で予測ボタン
設定した教師データを使って機械学習させ、任意の検索結果のうち最大10万件を予測します。AIラベル以外の検索設定が何もされていない場合、セマンティック検索の条件に教師データのポジティブラベル(1)上位5個が自動的に設定されます。この場合、上位5個の教師データに類似する文献を絞り込んだ上で、教師データを使って分類予測処理が行われます。日付や特許分類など、他の検索条件が設定されている場合は、その検索結果の母集団で分類予測処理が行われます。

15. 予測モデル選択メニュー
作業グループごとに教師データセットを保存することができます。作業グループを追加を選択すると、新しい作業グループが作成され、ペンシルアイコンを選択すると、作業グループの名前を変更することができます。

16. プレ予測モデル選択メニュー
2種類の教師データセットで予測することができます。2値分類でノイズを除去した予測結果でフィルターし、その母集団でさらに多値分類などを組み合わせることができます。


予測データ設定画面




















1. 予測データのクエリ種別選択ボックス
予測データのクエリ種別を選択します。「出願番号」か「テキスト」かを選択します。

2. 予測データのクエリ入力フォーム
予測データのクエリを入力します。出願番号かテキストを入力します。出願番号はJP20010123456の形式か、2001-123456などの形式で入力できます。現在、出願番号以外での入力は未対応です。

3. 予測データの正解ラベル設定フォーム
予測データの正解ラベルを設定します。原則0のままで構いません。すでに分類結果がわかっている場合に、正解ラベル(2値分類の場合は、1または-1、多値分類の場合は、1~5)を設定すると、設定した教師データの分類精度の検証を行うことができます。(本当は-1として分類してほしかったのに誤って1として分類されてしまった確率など)

4. 予測データ追加ボタン
設定した1~4の予測データを追加します。

5. 予測データ設定欄

入力可能な予測データ数は、最大100,000件です。
 5a. 予測データ通し番号
5b. 予測データクエリ種別アイコン
出願番号の場合:  テキストの場合: 
5c. 予測データクエリ
5d. 予測データクエリ編集ボタン
5e. 予測確率
予測したデータの確率を-1~1の数値で示します。-1に近いほど、-1のラベルである確度が高く、1に近いほど、1のラベルである確度が高いことを示します。これは相対的な値で予測対象の数、種類が変わると数値も変わります。
5f. 予測ラベル
AIが予測したラベルを表示します。スクリーンショットの例では、教師データに仮想通貨の効果に関する文書のラベルを1、クレジット決済に関する文献番号のラベルを-1などの教師データで学習されており、予測データでは、クレジット決済は-1、仮想通貨決済は1に分類されています。
5g. 正解ラベル
クリックによりラベルを切り替えることができます。
5h. 予測データ削除ボタン
5i. 予測データ一括編集切り替えボタン
一括編集モードに切り替えることができます。一括編集モードでは、テキストエディタやエクセルなどで用意したものをコピーペーストで貼り付けることができます。1列目に出願番号またはテキスト、2列目に正解ラベル(省略可)、3列目にクエリ種別(省略可、テキストの場合t)を行ごとにタブまたはカンマ(,)で区切って入力します。
5j. 予測データ一括削除ボタン
5k. 学習パラメータ設定ボタン (原則、変更する必要はありません。)
5l. 教師データ設定切り替えボタン
検索結果ではなくユーザーが用意したデータで予測を行いたい場合は、こちらから予測データ画面に切り替えます。検索結果のデータで予測する場合は、11.の予測ボタンを使います。

6. 予測データで検索ボタン
予測データに入力した番号で検索します。予測結果を予測スコア順に並び替えてエクスポートしたい場合などは、こちらで検索して検索結果画面でエクセルエクスポートして下さい。


検索結果画面




















1. AI予測スコア
2値分類の場合、予測したデータの確率を-1~1の数値で示します。-1に近いほど、-1のラベルである確度が高く、1に近いほど、1のラベルである確度が高いことを示します。多値分類の場合、数値が大きいほどそのラベルである確度が高いことを示します。

2. 教師データポジティブラベル(1)設定
クリックすると、この文献がポジティブラベル(1)として教師データに追加されます。

3. 教師データネガティブラベル(-1)設定
クリックすると、この文献がネガティブラベル(-1)として教師データに追加されます。

4. AIラベルON OFF設定
検索結果での予測を常に有効のチェックボックスにチェックされている場合はONと表示されます。クリックするとAIラベル設定の画面が開きます。

5. 教師データポジティブラベル(1)総数

6. 教師データネガティブラベル(-1)総数


    • Related Articles

    • かんたん3ステップAI分類予測

      トップページ より、以下のフォーマットで教師データファイルと予測データファイルを用意するだけで、すぐにAI分類予測を行うことができます。 1. 教師データファイル読込 以下のような1列目に番号、2列目に任意のラベル名を付与した番号リストを用意します。多値分類の場合、任意のラベル名、2値分類の場合、1か-1を付与します。カンマ区切りかタブ区切り、どちらでも構いません。 サンプル教師データファイル 2. 予測データファイル読込 ...
    • AI分類予測の教師データサンプル

      以下の教師データサンプルを利用して、AI分類予測機能をお試しいただけます。 2値分類_教師データサンプル.csv 多値分類_教師データサンプル.csv 予測データサンプルを利用することで、AI分類予測の精度検証機能や交差検証機能をお試しいただけます。 2値分類_予測データサンプル.csv 多値分類_予測データサンプル.csv
    • AI分類予測の精度を上げたい

      AI分類予測の精度検証機能やパラメータチューニングを使用することで、精度向上が期待できます。 精度検証用のデータを用意できない場合には、交差検証機能をご利用ください。 交差検証(クロスバリデーション)機能では、構築済み教師データの汎用性を評価することができます。 精度検証機能の詳細は、下記のスライド資料をご参照ください。
    • 台湾公報に対してAIセマンティック検索・AI分類予測はできますか

      台湾公報に対して、AIセマンティック検索・AI分類予測は対応しておりません。 AIセマンティック検索・AI分類予測機能は、日本語または英語で記載された公報についてご利用いただけます。 日本語横断検索オプションでは、台湾公報に対してAIセマンティック検索・AI分類予測が利用できます。 詳細については、日本語横断検索オプションをご参照ください。
    • AI分類予測で予測スコアが表示されない、すべての公報に同じスコアが表示される

      AI分類予測で予測スコアが表示されない、またはすべての公報に同じスコアが表示されるケースがあります。 AI分類予測では、各公報が持っている「特徴キーワード」(特徴量)を利用して、予測計算を行います。 DOCDBベースの公報や、直近2,3日に発行されたばかりの最新公報などは、特徴キーワードが収録されていません。 その場合は、内部的に0という特徴量で計算しようとしますので、なにかしらの結果が返ってきます。 この場合の予測結果は信頼性に欠けますので、ご注意ください。 ...