知財をデザインする: 統計と機械学習の違いについて

2022年8月31日水曜日

更新が滞っておりましたが、これは学会用のデータづくりに行き詰まっていたからとなります。

今回は、LDAを使っていろいろ分析してみようと考えておりましたが、いろいろ試行錯誤してもうまくゆきません。うまくゆかない理由はLDA処理の結果が何を意味するか、理解できないからです。

LDA処理により、何らかの言葉のクラスタが存在することはわかりますが、それが何を意味するかは、解釈するしかないのですが、この解釈が妥当かどうかはわかりません。

何とか、理解できるよう試行錯誤したのですが、よい結果は得られず、時間もありませんのでLDAの使用はやめようと考えております。

さて、LDAは機械学習の一種となります。しかしながら、機械学習といえど、結局のところ統計的な処理にすぎませんので、従来の統計処理と何が違うのだろうと常々思っておりました。

そのような疑問をもっておりましたが、最近読んだ以下の本に、その答えのようなものがかいてありました。

「分析モデル入門（杉山聡　著：ソシム株式会社　発行）」

（今大きな本屋でしたら並んでいると思います。）

ざっくり言えば

統計とは、人間の思考の範疇の関数を用い、人間が解釈しやすいアウトプットを得るもの

機械学習とは、分析モデルを人間の制御下に置くことをあきらめ、人間の想像以上の成果を狙うもの

とされます（詳しくは本を読んでください）。

そう考えますとLDAを使う局面とは、分析の局面ではなく、発想の局面が好ましいことになります。

ということで、分析は人間が解釈できることが重要ですので、オーソドックスな分析を用い、発想の局面でLDAを使うのがよいのかもしれません。

というような方針転換をしようと思いますが、知財学会には間に合わないかもしれません・・・。

知財をデザインする