2020年1月1日水曜日

混ぜると危険?

昨年の知財学会で、レビュー情報と特許情報を混ぜないほうが良いのではというご意見があったことを、以前ブログに書きました。

知財をデザインする: 発表終了の件

顧客の生の声の集合であるレビュー情報は、内容が整理されておらず、一般には汚いデータと言われるそうです。

一方、特許情報の元となる明細書は文書作成のプロである弁理士さんが書いておりますので、(比較的)綺麗なデータと言えそうです。

そうしますと、汚いデータを綺麗なデータを混ぜて処理するのは危険という考えはごもっともとなります。

今回混ぜましたのは、テキストマイニングの技術を使用しますと、混ぜて処理できる、ということを試したかったからです。

従来の特許情報分析では、特許分類や書誌的事項等を含む所定のフォーマットのデータしか分析しませんでしたが、テキストマイニングによれば、テキストデータであれば何でも処理できます。

そうしますと、特許情報に限らず、技術論文やアンケート、その他何でもテキスト化したデータであれば混ぜて処理できることになります。

もちろん混ぜたら混ぜたで弊害はあるかもしれませんが、このような処理を考えたというアピールを含めて、上記発表となった訳です。

さて、テキストマイニングの共起性に基づく評価に関しては、特許情報よりもレビュー情報のほうが有用となります。

それは、特許情報の方は、自然法則に基づいておりますので、共起性を考えずとも、要素間の関係の強さは論理的に予測可能だからです。

一方、レビュー情報の方は、心理的なものですので、論理的な分析は不可能(解釈は可能)ですので、共起性が要素間の関係を理解する唯一の手段となります。

ということで、特許分析に限れば、テキストマイニングの利用価値はあまりないかもしれませんが、レビュー情報を含める場合には利用価値は高いということになります。

note へしばらく移転します。

  https://note.com/ip_design  へしばらく移転します。