更新が滞っておりましたが、これは学会用のデータづくりに行き詰まっていたからとなります。
今回は、LDAを使っていろいろ分析してみようと考えておりましたが、いろいろ試行錯誤してもうまくゆきません。うまくゆかない理由はLDA処理の結果が何を意味するか、理解できないからです。
LDA処理により、何らかの言葉のクラスタが存在することはわかりますが、それが何を意味するかは、解釈するしかないのですが、この解釈が妥当かどうかはわかりません。
何とか、理解できるよう試行錯誤したのですが、よい結果は得られず、時間もありませんのでLDAの使用はやめようと考えております。
さて、LDAは機械学習の一種となります。しかしながら、機械学習といえど、結局のところ統計的な処理にすぎませんので、従来の統計処理と何が違うのだろうと常々思っておりました。
そのような疑問をもっておりましたが、最近読んだ以下の本に、その答えのようなものがかいてありました。
「分析モデル入門(杉山聡 著:ソシム株式会社 発行)」
(今大きな本屋でしたら並んでいると思います。)
ざっくり言えば
統計とは、人間の思考の範疇の関数を用い、人間が解釈しやすいアウトプットを得るもの
機械学習とは、分析モデルを人間の制御下に置くことをあきらめ、人間の想像以上の成果を狙うもの
とされます(詳しくは本を読んでください)。
そう考えますとLDAを使う局面とは、分析の局面ではなく、発想の局面が好ましいことになります。
ということで、分析は人間が解釈できることが重要ですので、オーソドックスな分析を用い、発想の局面でLDAを使うのがよいのかもしれません。
というような方針転換をしようと思いますが、知財学会には間に合わないかもしれません・・・。