2022年12月29日木曜日

勉強会について

今日はトピックモデル処理のプログラム作成をやってみました。

以下は、トピック(#0~#4)ごとの用語をワードクラウドで表したものです。

一応動作は確認できましたので、よかったです。あとは細部のチューニングが必要かと思います。



ワードクラウドというのは出力は面白いのですが、実務的にはリストで十分という気がします。まあ、ブログ用という感じでしょうか。

このトピックモデルというのは、私がテキストマイニングの研究を行う理由となった、いわくつきの技術となります。 

今から7年くらい前、友人に誘われてトピックモデルを特許情報分析に使用することを目的とした勉強会に参加したことがあります。

しかし、今も昔も私はコードなど書けませんので、プログラミングのできるAさん頼みとなっておりました。

私も特許情報分析については、多少の知識がありましたのでAさんに、こういうプログラム書けないか、といろいろ提案したりしました。

が、やはり勉強会みたいなものは手弁当でやっているものですので、特定の人に負担がかかるようでは長続きせず、結局自然消滅となりました。

ということで、私もプログラミングをしなければと思い続けて7年でようやく重い腰を上げて勉強しているわけです。

今回トピックモデル処理ができたことで、少しは前に進めたと思います。

2022年12月28日水曜日

プログラムのお勉強

懸案のプログラミングの勉強ですが、座学はすべて終え、成果物の作成にとりかかっています。

テキストマイニングのアウトプットとしては棒グラフで十分なのですが、せっかくなのでワードクラウドにしてみようと思います。

以下が、大変苦労して試作したワードクラウドとなります。

 

 

結局のところ、一からこの図を出す能力は私にはありませんので、googleでコードを調べたり、本を調べたりして得たコードを、つぎはぎで組み合わせて何とか動くようにしたのが上記図となります。

このようなことから、自分でコードを書いているにも関わらず、コードの全容は理解していないというアンバランスな状況となっております。

エラーへの対処を考えますと、この状況はまずいのですが、理解できるようにしてゆかねばと思います。

SFですと、消滅した古代文明の機械を、原理もわからず使いこなしている作品があります。確か、銀河鉄道999もそうだったと思います。999はアンドロメダまで1年で到達するのですが、そのテクノロジーは失われた古代文明のもので、銀河鉄道株式会社の人は理解できていなかったと思います。

ということで、このワードクラウドも先人が作ったコードを動かしているだけのものですので、個人的にはSF感があります。

ということで、成果物のめども立ちました。時間的な余裕もありますので、これはこれとして、もう少し高度な成果物に変更しようかと思います。

例えば、統計的な処理を追加することや、機械学習による分類?などをやってみようかと思います。

note へしばらく移転します。

  https://note.com/ip_design  へしばらく移転します。