2023年1月1日日曜日

謹賀新年

本年もよろしくお願いいたします。

今日は出願人件数ランキングのグラフを書いてみました。

 

簡単に書けそうなグラフではありますが、そうでもありません。

j-platpatのcsvのダウンロードファイルでは、出願人の要素には1社(例えば、A社)だけでななく、共願の複数社(A社、B社)が記入されていることがあります。

したがって、普通にカウントしますと、「A社」と「A社、B社」は別カウントになりますので、

A社・・・1件

A社、B社・・・1件

とカウントされます。

しかし、

A社・・・2件

B社・・・1件

とカウントするのが正確なような気もします。

このようなカウントはexcelではできない(正確には、できるのかもしれないが、自分にはできない)ので、しかたなく筆頭出願人を抽出してカウントしたりしています。したがって、筆頭以外の出願人は無視することになります。

今回pythonで、共願もカウントされるようプログラムを書いて出力したのが上図となります。

自分でコードを書くのは1日かかりましたが、googleで調べましたらたった、2行のコードで上記処理を行った例を発見しましたので、そちらを採用することにしました・・・。

ということで、共願もカウントできるようになりましたが、問題がないわけでもありませんので、しばらくは、筆頭出願人抽出と併用して使用しようかなと思います。

2022年12月29日木曜日

勉強会について

今日はトピックモデル処理のプログラム作成をやってみました。

以下は、トピック(#0~#4)ごとの用語をワードクラウドで表したものです。

一応動作は確認できましたので、よかったです。あとは細部のチューニングが必要かと思います。



ワードクラウドというのは出力は面白いのですが、実務的にはリストで十分という気がします。まあ、ブログ用という感じでしょうか。

このトピックモデルというのは、私がテキストマイニングの研究を行う理由となった、いわくつきの技術となります。 

今から7年くらい前、友人に誘われてトピックモデルを特許情報分析に使用することを目的とした勉強会に参加したことがあります。

しかし、今も昔も私はコードなど書けませんので、プログラミングのできるAさん頼みとなっておりました。

私も特許情報分析については、多少の知識がありましたのでAさんに、こういうプログラム書けないか、といろいろ提案したりしました。

が、やはり勉強会みたいなものは手弁当でやっているものですので、特定の人に負担がかかるようでは長続きせず、結局自然消滅となりました。

ということで、私もプログラミングをしなければと思い続けて7年でようやく重い腰を上げて勉強しているわけです。

今回トピックモデル処理ができたことで、少しは前に進めたと思います。

2022年12月28日水曜日

プログラムのお勉強

懸案のプログラミングの勉強ですが、座学はすべて終え、成果物の作成にとりかかっています。

テキストマイニングのアウトプットとしては棒グラフで十分なのですが、せっかくなのでワードクラウドにしてみようと思います。

以下が、大変苦労して試作したワードクラウドとなります。

 

 

結局のところ、一からこの図を出す能力は私にはありませんので、googleでコードを調べたり、本を調べたりして得たコードを、つぎはぎで組み合わせて何とか動くようにしたのが上記図となります。

このようなことから、自分でコードを書いているにも関わらず、コードの全容は理解していないというアンバランスな状況となっております。

エラーへの対処を考えますと、この状況はまずいのですが、理解できるようにしてゆかねばと思います。

SFですと、消滅した古代文明の機械を、原理もわからず使いこなしている作品があります。確か、銀河鉄道999もそうだったと思います。999はアンドロメダまで1年で到達するのですが、そのテクノロジーは失われた古代文明のもので、銀河鉄道株式会社の人は理解できていなかったと思います。

ということで、このワードクラウドも先人が作ったコードを動かしているだけのものですので、個人的にはSF感があります。

ということで、成果物のめども立ちました。時間的な余裕もありますので、これはこれとして、もう少し高度な成果物に変更しようかと思います。

例えば、統計的な処理を追加することや、機械学習による分類?などをやってみようかと思います。

2022年12月23日金曜日

テキストマイニングを活用したブランド分析について

日本マーケティング学会のHPにて、私のワーキングペーパー「テキストマイニングを活用したブランド分析について」が公開されました。

内容としては、今年の知財学会の発表の前半部分をまとめたものとなります。

日本マーケティング学会からは、ワーキングペーパーが公開されたことをきちんと宣伝するようアドバイスがありましたので、ここで宣伝します。

ワーキングペーパは、特許で言えば実用新案のようなもので、形式面のみ整っていれば、内容の良否は問わず掲載される類のものとなります。したがって、ひとまず公開したい場合に利用されることが多いのかと思います。

後半部分もどこかで公表したいのですが、今はプログラミングの勉強をしなければならないのと、後半部分の内容が多少うさんくさいため、来年に再検討したいと思います。

今回の内容は大したことはないのですが、私が考案したKHCoderとexcelのテクニックを使用して分析しておりますので、それらを広めることができればいいなと思います。 

話は変わりますが、懸案のプログラミングの勉強ですが、終わりが近付いてきました。

プログラミングの勉強について先日、先生と成果物の方向性について打ち合わせしました。

私はディープラーニングでバリバリのテキストマイニングをやろうと思っていましたが、先生の言うことには、ひとまずベーシックな(簡単な)プログラムをつくるのが(能力的、時間的に)よいだろうとのことでした・・・。

とりあえず成果物を一つ完成させたら、次の段階として、ディープラーニングでもなんでもチャレンジするとよい、ということでまとまりました。 

ということで、まずはKHcoderでやるような処理をpythonでやってみようかと思います。KHcoderでできるならやる意味はないような気もしますが、pythonでは、様々な工程を自動化できますので、このあたりのノウハウを得られるのは大きいと思います。

来年は、データサイエンティストとしてデビューできるよう頑張りたいと思います・・・。

note へしばらく移転します。

  https://note.com/ip_design  へしばらく移転します。