2023年1月4日水曜日

今年の目標

今日は時系列の出願件数マップを作成してみました。

 

字が小さいですが、1977年から2022年までの、特定技術の出願件数推移をマップ化しました。

このような表は簡単にできそうにも思えますが、そうでもありません。例えば、 1981年~1983年は出願件数は0件ですが、普通に書きますとこれら出願件数が0件の年は歯抜けになります。

抜けても問題はないのですが、時系列の変化を見るためには、抜けない方がよいともいえます。

一応、このような処理ができないかgoogleで調べてみましたが、ずばりというものはありませんでした。(あっても、私には理解不能でした。)

力業で0件を人手で記入して方が早いとも思いましたが、pythonはそういう作業を自動化できるのがウリですので、コードを1日かけて書いてみたのが上記図となります。

かなり汚いコードですので、もう少しきれいになるよう改良したいと思います。

今年はこんな感じで、特許マップ作成に使えるコードを細々と作ってゆきたいと思います。時間はかかりますが1度作れば、次回以降は流用可能ですので、業務効率化に寄与すると思います。

2023年1月1日日曜日

謹賀新年

本年もよろしくお願いいたします。

今日は出願人件数ランキングのグラフを書いてみました。

 

簡単に書けそうなグラフではありますが、そうでもありません。

j-platpatのcsvのダウンロードファイルでは、出願人の要素には1社(例えば、A社)だけでななく、共願の複数社(A社、B社)が記入されていることがあります。

したがって、普通にカウントしますと、「A社」と「A社、B社」は別カウントになりますので、

A社・・・1件

A社、B社・・・1件

とカウントされます。

しかし、

A社・・・2件

B社・・・1件

とカウントするのが正確なような気もします。

このようなカウントはexcelではできない(正確には、できるのかもしれないが、自分にはできない)ので、しかたなく筆頭出願人を抽出してカウントしたりしています。したがって、筆頭以外の出願人は無視することになります。

今回pythonで、共願もカウントされるようプログラムを書いて出力したのが上図となります。

自分でコードを書くのは1日かかりましたが、googleで調べましたらたった、2行のコードで上記処理を行った例を発見しましたので、そちらを採用することにしました・・・。

ということで、共願もカウントできるようになりましたが、問題がないわけでもありませんので、しばらくは、筆頭出願人抽出と併用して使用しようかなと思います。

2022年12月29日木曜日

勉強会について

今日はトピックモデル処理のプログラム作成をやってみました。

以下は、トピック(#0~#4)ごとの用語をワードクラウドで表したものです。

一応動作は確認できましたので、よかったです。あとは細部のチューニングが必要かと思います。



ワードクラウドというのは出力は面白いのですが、実務的にはリストで十分という気がします。まあ、ブログ用という感じでしょうか。

このトピックモデルというのは、私がテキストマイニングの研究を行う理由となった、いわくつきの技術となります。 

今から7年くらい前、友人に誘われてトピックモデルを特許情報分析に使用することを目的とした勉強会に参加したことがあります。

しかし、今も昔も私はコードなど書けませんので、プログラミングのできるAさん頼みとなっておりました。

私も特許情報分析については、多少の知識がありましたのでAさんに、こういうプログラム書けないか、といろいろ提案したりしました。

が、やはり勉強会みたいなものは手弁当でやっているものですので、特定の人に負担がかかるようでは長続きせず、結局自然消滅となりました。

ということで、私もプログラミングをしなければと思い続けて7年でようやく重い腰を上げて勉強しているわけです。

今回トピックモデル処理ができたことで、少しは前に進めたと思います。

2022年12月28日水曜日

プログラムのお勉強

懸案のプログラミングの勉強ですが、座学はすべて終え、成果物の作成にとりかかっています。

テキストマイニングのアウトプットとしては棒グラフで十分なのですが、せっかくなのでワードクラウドにしてみようと思います。

以下が、大変苦労して試作したワードクラウドとなります。

 

 

結局のところ、一からこの図を出す能力は私にはありませんので、googleでコードを調べたり、本を調べたりして得たコードを、つぎはぎで組み合わせて何とか動くようにしたのが上記図となります。

このようなことから、自分でコードを書いているにも関わらず、コードの全容は理解していないというアンバランスな状況となっております。

エラーへの対処を考えますと、この状況はまずいのですが、理解できるようにしてゆかねばと思います。

SFですと、消滅した古代文明の機械を、原理もわからず使いこなしている作品があります。確か、銀河鉄道999もそうだったと思います。999はアンドロメダまで1年で到達するのですが、そのテクノロジーは失われた古代文明のもので、銀河鉄道株式会社の人は理解できていなかったと思います。

ということで、このワードクラウドも先人が作ったコードを動かしているだけのものですので、個人的にはSF感があります。

ということで、成果物のめども立ちました。時間的な余裕もありますので、これはこれとして、もう少し高度な成果物に変更しようかと思います。

例えば、統計的な処理を追加することや、機械学習による分類?などをやってみようかと思います。

note へしばらく移転します。

  https://note.com/ip_design  へしばらく移転します。