概要
AI分類予測は、予めユーザーがセットした教師データに基づいて、任意の検索結果や母集合について、AIが分類を予測してくれます。例えば、任意の検索結果について、【自社事業に関連する/しない】といった分類や、SDIの新着公報について、【どの開発テーマに関連するか】等、今まで人が公報を読み込んで仕分けしていた作業を、数秒以内でAIが自動で分類し、大幅な作業効率を図ることができます。
教師データには、出願番号/公報番号またはテキストデータを、最大1万件まで入力することができます。入力した教師データに基づいて、約数秒~10秒以内に機械学習させた独自のモデルを生成し、最大10万件までの任意の検索結果について分類予測を実施し、予測スコアを算出します。
予測スコアによって、調査テーマと関係ないノイズとなりうる文献の順位を下げたり、興味のある文献を上位に表示させたりすることができ、効率的に調査することができます。
AI分類予測では、3つ(2値分類、多値分類、多ラベル分類)の分類種別から、一つを選択して使用します。
【2値分類】 関係するか/しないか(〇か✖)で振り分けができます。
自社技術に関係するかどうか、開発テーマに関係するかどうか等の観点で振り分けし、関係する公報だけを効率的にスクリーニングすることができます。
【多値分類】 複数のラベルを作成して、どのラベルに一番近いかを振り分けます。
技術要素・課題・効果等の観点で複数のラベルに振り分けし、特定の技術要素・課題・効果だけを選別してスクリーニングしたり、検索結果の母集合について、どの技術要素が多いのかを分析することができます。
【多ラベル分類】 複数のラベルを作成して、複数のラベルを付与します。
基本的には多値分類と同じような使い方ができます。多ラベルの場合は、例えば技術要素で振り分ける際に、要素Aと要素Bのどちらにも該当する場合に、両方の要素A・Bを振り分けることができます。
操作方法
AI分類予測の操作方法については、こちらをご参照ください。
AI分類予測の精度検証方法や、予測精度を向上させる方法につきましては、こちらをご参照ください。
AI教師ラベルの一括読み込み手順については、こちらをご参照ください。
海外文献の分類方法
AI分類予測は、日本語・英語に対応しており、例えばUS文献による教師データに基づいて、US/EP/WO(英語のみ)の文献について、分類予測することができます。
1. 対象特徴量選択ボックス
AIによる分類対象となる特徴量を選択します。特に請求の範囲(クレーム)を分類したい場合は、明細書が含まれていない特徴量を選択します。複数組み合わせることもできます。
- タイトル/要約/請求の範囲/明細書/審査官キーワード(セマンティック)
- タイトル/要約/請求の範囲(セマンティック)
単語、文書を機械学習させた概念をもとにした文書特徴量です。概で分類するため、分類がややあいまいになります。クレームなどを厳密に分類したいときはセマンティックがついていない方を利用してください。セマンティックの方を分類に使う場合は、ある程度の量の教師データが必要になることがあります。
- 引用関係
引用ネットワークを元とした特徴量です。引用関係のない文献、テキストデータでは分類することができません。
- タイトル/要約/請求の範囲/明細書/審査官キーワード
- タイトル/要約/請求の範囲
実際のキーワードをベースとした文書特徴量です。セマンティックのものと比べ、厳密に分類されます。例えば、太陽電池とソーラーパネルのキーワードはそれぞれ別物として分類されます。ただし、ソーラーパネルが含まれる文書と太陽電池が含まれる文書は、それぞれの文書内に共通して太陽光など太陽に関連するキーワードが出現していることにより、文書全体としては同じように分類されることはあります。
2. 分類種別選択ボタン
2値分類か多値分類かを選択します。2値分類の場合、ポジティブ:1かネガティブ:-1を、多値分類の場合は任意のラベル名を教師データとして与えます。
3. AI予測スコア調整チェックボックス
教師データによるAI予測スコアを使って、セマンティック検索やキーワード検索によるスコアを調整します。教師データによるAI予測スコアと教師データのないセマンティック検索による類似度スコアを調整して総合的なスコアでソートすることができます。
4. 予測ラベルフィルター
AIによる予測結果で絞り込みを行いたい場合、予測結果のラベルを選択します。
5. ラベル作成
多値分類の新規ラベルを作成します。一括読み込みを行う際は、ラベルは自動的に追加されるため、こちらで設定する必要はありません。
6. ラベル一覧
教師ラベルの一覧です。2値分類の場合、-1か1、多値分類の場合、複数設定することができます。多値分類の場合、おおよそ100個程度までは設定可能です。
6a. ラベル名
ラベル名をクリックするとラベル名を変更することができます。
6b. 教師ラベル数
ラベル名の右横数値は教師ラベル数です。
6c.ラベルの重み
ラベルごとの重み数値です。この値は一括編集すると自動で調整されます。ノイズデータのみ数が多いなど教師ラベルの数が不均衡な場合に調整することができます。
6d. ラベル名削除ボタン
ラベル名を削除します。
6e. ラベル名一括削除ボタン
全てのラベル名を削除します。
教師データのクエリを入力します。番号かテキストを入力します。出願番号はJP20010123456の形式か、特願2001-123456、特開2001-123456などの形式で入力できます。未対応のフォーマットがあればお問い合わせ下さい。教師データのクエリ種別が「出願番号」であっても特開2001-123456や特許6123456など番号フォーマットが特定可能な番号体系であれば、自動的に適切な種別に変換して追加されます。教師データのクエリ種別が「出願番号」のときに出願番号のフォーマットではないテキストを入力すると、自動的にクエリ種別は「テキスト」に切り替わります。#から後は無視されます。コメントに利用できます。
10. 教師データ追加ボタン
設定した7~9の教師データを追加します。
11. 教師データ設定欄
設定した教師データの一覧です。
11c. 教師データクエリ編集ボタン
11d. 教師データクエリ
11e. 教師データ出願番号
番号で入力する場合、こちらに出願番号が表示されていない場合、適切に読み込めていません。ご注意ください。データベースに存在しない番号の場合、!マークが表示されます。(図中8行目参照)
11f. 教師データラベル
クリックによりラベルを切り替えることができます。多値分類の場合、1-5のうち抜けがないようにラベル付けをしてください。たとえば、1-3、1-5など。1,3,5など教師データのラベルにするとうまく分類できないことがあります。
11g. 教師データ削除ボタン
11h. 教師データ一括編集切り替えボタン
一括編集モードに切り替えることができます。一括編集モードでは、テキストエディタやエクセルなどで用意した教師データをコピーペーストで貼り付けることができます。1列目に番号またはテキスト、2列目にラベル(1or-1)、3列目にクエリ種別(省略可、テキスト:t、出願番号:aまたはk、公開番号:p、登録番号:e)を行ごとにタブまたはカンマ(,)で区切って入力します。
例:
JP20060290111 # EPODOC形式出願番号(JPYYYYNNNNNNN),1
特願2010-122389 # 特願形式(特願YYYY-N),1
WO2013176233 # WO形式,1,p
特許5544573 #特許番号形式(特許NNNNNN),-1,e
特開2016-144034 #特開形式(特開YYYY-N) ,-1,p
11i. ファイルから読み込みボタン
1列目に番号またはテキスト、2列目にラベルが記載されたCSVファイルなどのテキストファイルから教師データを読み込ませることができます。
11j. 教師データ一括削除ボタン
11k. 学習パラメータ設定ボタン (原則、変更する必要はありません。)
11l. 予測データ設定切り替えボタン
検索結果ではなくユーザーが用意したデータで予測を行いたい場合は、こちらから予測データ画面に切り替えます。検索結果のデータで予測する場合は、14.の予測ボタンを使います。
11m. マニュアル
このページへのリンクです。
11n. 精度
教師データの予測精度です。教師データの1/4を検証データにしたときの正解率です。この精度はパラメータチューニングの際に算出された精度であり、実際の学習は、全ての教師データが用いられています。
12. 検索結果でのAI予測有効設定チェックボックス
この画面で設定された教師データは全ての検索時に共有され、毎回予測に使われます。検索時に教師データを使って予測させたくない場合は、チェックを外して下さい。
13. セマンティックスコア併用設定チェックボックス
より教師データに近い文献を上位表示させるため、教師データのポジティブラベル(1)上位5個をセマンティックスコア条件に反映させて検索します。すでに詳細画面でセマンティックスコアが設定されている場合は反映されません。
14. 検索結果で予測ボタン
設定した教師データを使って機械学習させ、任意の検索結果のうち最大10万件を予測します。AIラベル以外の検索設定が何もされていない場合、セマンティック検索の条件に教師データのポジティブラベル(1)上位5個が自動的に設定されます。この場合、上位5個の教師データに類似する文献を絞り込んだ上で、教師データを使って分類予測処理が行われます。日付や特許分類など、他の検索条件が設定されている場合は、その検索結果の母集団で分類予測処理が行われます。
15. 予測モデル選択メニュー
作業グループごとに教師データセットを保存することができます。作業グループを追加を選択すると、新しい作業グループが作成され、ペンシルアイコンを選択すると、作業グループの名前を変更することができます。
16. プレ予測モデル選択メニュー
2種類の教師データセットで予測することができます。2値分類でノイズを除去した予測結果でフィルターし、その母集団でさらに多値分類などを組み合わせることができます。
2. 予測データのクエリ入力フォーム
予測データのクエリを入力します。出願番号かテキストを入力します。出願番号はJP20010123456の形式か、2001-123456などの形式で入力できます。現在、出願番号以外での入力は未対応です。
3. 予測データの正解ラベル設定フォーム
予測データの正解ラベルを設定します。原則0のままで構いません。すでに分類結果がわかっている場合に、正解ラベル(2値分類の場合は、1または-1、多値分類の場合は、1~5)を設定すると、設定した教師データの分類精度の検証を行うことができます。(本当は-1として分類してほしかったのに誤って1として分類されてしまった確率など)
4. 予測データ追加ボタン
設定した1~4の予測データを追加します。
5. 予測データ設定欄
6. 予測データで検索ボタン
予測データに入力した番号で検索します。予測結果を予測スコア順に並び替えてエクスポートしたい場合などは、こちらで検索して検索結果画面でエクセルエクスポートして下さい。
2. 教師データポジティブラベル(1)設定
クリックすると、この文献がポジティブラベル(1)として教師データに追加されます。
3. 教師データネガティブラベル(-1)設定
クリックすると、この文献がネガティブラベル(-1)として教師データに追加されます。
4. AIラベルON OFF設定
検索結果での予測を常に有効のチェックボックスにチェックされている場合はONと表示されます。クリックするとAIラベル設定の画面が開きます。
5. 教師データポジティブラベル(1)総数
6. 教師データネガティブラベル(-1)総数