今日はトピックモデル処理のプログラム作成をやってみました。
以下は、トピック(#0~#4)ごとの用語をワードクラウドで表したものです。
一応動作は確認できましたので、よかったです。あとは細部のチューニングが必要かと思います。
ワードクラウドというのは出力は面白いのですが、実務的にはリストで十分という気がします。まあ、ブログ用という感じでしょうか。
このトピックモデルというのは、私がテキストマイニングの研究を行う理由となった、いわくつきの技術となります。
今から7年くらい前、友人に誘われてトピックモデルを特許情報分析に使用することを目的とした勉強会に参加したことがあります。
しかし、今も昔も私はコードなど書けませんので、プログラミングのできるAさん頼みとなっておりました。
私も特許情報分析については、多少の知識がありましたのでAさんに、こういうプログラム書けないか、といろいろ提案したりしました。
が、やはり勉強会みたいなものは手弁当でやっているものですので、特定の人に負担がかかるようでは長続きせず、結局自然消滅となりました。
ということで、私もプログラミングをしなければと思い続けて7年でようやく重い腰を上げて勉強しているわけです。
今回トピックモデル処理ができたことで、少しは前に進めたと思います。