2020年1月1日水曜日

混ぜると危険?

昨年の知財学会で、レビュー情報と特許情報を混ぜないほうが良いのではというご意見があったことを、以前ブログに書きました。

知財をデザインする: 発表終了の件

顧客の生の声の集合であるレビュー情報は、内容が整理されておらず、一般には汚いデータと言われるそうです。

一方、特許情報の元となる明細書は文書作成のプロである弁理士さんが書いておりますので、(比較的)綺麗なデータと言えそうです。

そうしますと、汚いデータを綺麗なデータを混ぜて処理するのは危険という考えはごもっともとなります。

今回混ぜましたのは、テキストマイニングの技術を使用しますと、混ぜて処理できる、ということを試したかったからです。

従来の特許情報分析では、特許分類や書誌的事項等を含む所定のフォーマットのデータしか分析しませんでしたが、テキストマイニングによれば、テキストデータであれば何でも処理できます。

そうしますと、特許情報に限らず、技術論文やアンケート、その他何でもテキスト化したデータであれば混ぜて処理できることになります。

もちろん混ぜたら混ぜたで弊害はあるかもしれませんが、このような処理を考えたというアピールを含めて、上記発表となった訳です。

さて、テキストマイニングの共起性に基づく評価に関しては、特許情報よりもレビュー情報のほうが有用となります。

それは、特許情報の方は、自然法則に基づいておりますので、共起性を考えずとも、要素間の関係の強さは論理的に予測可能だからです。

一方、レビュー情報の方は、心理的なものですので、論理的な分析は不可能(解釈は可能)ですので、共起性が要素間の関係を理解する唯一の手段となります。

ということで、特許分析に限れば、テキストマイニングの利用価値はあまりないかもしれませんが、レビュー情報を含める場合には利用価値は高いということになります。

【PR】“AI、生成AI”による知財業務の効率化、スピード化のセミナーについて(9/27開催)

掲題の件、セミナーの1/4を担当することになりました。私の担当分は、「【第2部】生成AIで革新する特許データ分析」です。URLは以下となります。 AI 生成AI 特許調査 分析 翻訳 技術情報協会はセミナー・出版・通信教育を通じて企業の最前線に立つ研究者、技術者をサポートし社会に...