2021年5月8日土曜日

国語的な技術の理解について

私は、昔某私立中学に通っておりましたが、今でも当時のことが夢に出てきて、うなされて目が覚めることがります。

当時の私は成績が非常に悪く(学年の下から一桁台)、特に、国語系の成績が10段階中、2,3しかありませんでした。成績が3以下が1つでもありますと、問答無用で留年or退学となります。

学期の初めに教師に呼び出され、留年or退学勧告がなされるのが常でしたので、当時の記憶が悪夢となって今でも甦ることになっております。

その後、理系の大学に進んだのも、理系の勉強がしたいという積極的な理由ではなく、国語ができないという消極的な理由からでした。

(よくよく考えますと、このような消極的な理由で物事を選択しますと、人生も消極的になりがちで、今考えますとよくない気がします。)

弁理士を志すにあたって問題となりましたのが、試験の難易度もさることながら、この国語への苦手意識でした。

と、前置きが長くなりましたが、以下の内容は国語力のない人間の駄文となりますことの言い訳でした

KHcoderで文書を分析しますと、技術を文書で考えるという思考になります。技術を国語的に表しますと、以下のような感じとなります

「AはBをCする。」

Aは、主語(主体)であり、名詞となります。

Bは、目的語(客体)であり、名詞となります。

Cは、動詞(orサ変名詞)となります。

掃除機で言えば

フィルタはほこりを除去する。となります。

「フィルタ」は「名詞」、「ほこり」は「名詞」、「除去する」は「サ変名詞」、となります。

特許的に言えば

「フィルタ」は「構成」、「ほこりを除去する」は「機能」となります。

この「AはBをCする。」の多数の組み合わせが、「装置」となります。

なぜ、こういう話をしたかといいますと、今、ダイソンの出願について、トピックモデルの処理を行っておりますので、トピックモデルは品詞ごとに作成できることから、どのような品詞を使用するか検討しているからです。

以下は、トピック数20で、名詞+サ変名詞でトピックを抽出した結果となります。


希望としては、構成トピックと機能トピックを抽出しようかと考えております。

構成トピックは「名詞」でトピックモデルを生成し、機能トピックは「名詞+サ変名詞」でトピックモデルを生成することになりますが、両トピックとも「名詞」を使用していることが悩ましいところとなります。

つまり、構成と機能(の目的語)の「名詞」が混在しておりますので、分離できませんと、構成トピックと機能トピックに使用される「名詞」が重複することとなります。

とはいえ、これはソフト的な限界を超えておりますので、人力で目で見て分類するしかないと思います。 

ということで、トピックモデルを使用しても、全部ソフトにお任せとはならず、人力にて処理する部分が残る予定です。

ひとまず、人力で処理して、コーディングルールを作成しようと思います。

2021年5月6日木曜日

テキストマイニングを使用した多空間デザインモデルの作成について

掲題の論文ですが、無料公開されました。

パテント誌へのリンク(PDF) 

内容としては、特許情報から多空間デザインモデルを作成し、その多空間デザインモデルから新規な発明を生成する、ということをやりました。

論文前半はインダクションによる推論、後半はアブダクションによる推論となります。 

特許情報のみから発明を構成する、ということを世界で初めてやってみたのですが、ほとんど話題にはなりませんでした・・・。

発明とは個人が苦労してなすべきであり、特許情報を適当に組み合わせて発明を構成するのはけしからん!と炎上するかと思ったのですが、そういうこともありませんでした・・・。

しかしながら、近い将来には、この論文のような感じで発明をするのが普通となっていると思料します。

ということで、ぜひご覧いただければと思います。

2021年5月5日水曜日

トピックモデルについて

QFDをつくるにあたっては、コーディングルールを作らねばなりません。

コーディングルールとは、とても簡単に言えば、用語のグループをつくることをいいます。MFTフレームで言えば、市場用語、機能用語、技術用語のグループをつくることとなります。

作り方としましては、グループ案を作りまして、これに該当する抽出語を当てはめてゆく、という地道な作業になります。

これは結構面倒な作業となります・・・。

さて 、やろうかとしましたところ、KHcoderにトピックモデル機能が実装されたとのお知らせがありました。

トピックモデルとは、教師なし学習の一種で、特定の文書は複数のトピックを含むという仮説のもとに、トピックごとの用語を抽出する、という処理になります。

そうしますと、トピックモデルを使用することにより、市場トピックに関連する用語、機能トピックに関連する用語、技術用語に関連する用語、を機械学習にて、抽出してくれる・・・ということもできるかなと思います。

今年の知財学会の発表予定は、テキストマイニングによるMFTモデルの作成、となりますが、実のところ裏のテーマとしましては、トピックモデルによるコーディングルールの(ある程度の自動)作成となります。

これができますと、QFD作成作業がさらに省力化できます・・・(できない可能性もあります・・・)。

しかし、無料のツールで、ここまでの処理ができる時代となりました・・・。おどろきです。

いずれにせよ、事例づくりはいったん中断して、トピックモデルの操作法をまず、確認したいと思います。

2021年5月3日月曜日

対応マップについて

掃除機の検索ですが、IPC:A47L 9/**、出願日:2016年1月1日~で母集団をつくってみました。

ヒット件数としては、1600件くらいとなりました。それを適当にスクリーニング(主に、出願件数の少ない出願人の出願を削除)して1300件くらいの母集団としました。

これをKHcoderに読み込ませて対応分析をしました。

ただ、対応分析をしましても、訳の分からない図となりますので、多少考えてみました。

KHcoderでは、形態素解析により、品詞別の用語が得られます。 ここで、用語の「名詞」は、発明の構成を示し、「サ変名詞」は発明の機能を示すのではないか、と考えてみました。

そこで、「名詞」との対応マップを作りますと以下のようになります。

人間が理解できるように、軸や分類を書き込みますと以下のようになります。なお、以下の軸等は、私の解釈によるものですので、他の方が解釈すれば、当然別の軸や分類となります。

次に、「サ変名詞」の対応マップをつくりますと、以下のようになります。

軸や分類を書き込みますと以下のようになります。


対応マップでは、上記のように、用語と出願人(今回は19社)の対応関係が、なんとなくわかります。集まっているところは対応関係が強い、離れているところでは対応関係が弱いこととなります。

ざっくり分析しますと、日本企業は集まり気味(すなわち、競争が過酷なレッドオーシャン)、外国企業は離れ気味(すなわち、競争が少ないブルーオーシャン)であるような気がします。

機能と構造の対応マップを作りましたので、アンゾフ風なマトリクスに組み合わせますと以下のようになります。

日本企業は、既存構造×既存機能で競争し、外国企業は新規構造×新規機能で競争しているような気がします(新規構造が新規機能を生み出すのはあたりまえですので、上記マトリクスは妥当なのかはよくわかりません。)

やはり、マトリクスにしますと、人間が理解しやすくなるかと思います。対応マップを、プレゼンの最終アウトプットにするのはやめた方がよいかなと思います。

さて、KHcoderを特許分析に使用するメリットですが、上記のように、出願件数の大小が(あまり)影響しないこととなります。

例えば、パナソニックとツインバード工業は、出願件数に圧倒的な差がありますので、通常の特許マップソフトでは直接の比較はできません。

KHcoderは用語の共起確率のみをみますので、件数の大小は(あまり)影響しません。極端に言えば、出願件数1000件の会社と、出願件数10件の会社も比較可能となります。

要は、会社の製品の「質」で比較可能といえます。これが、従来の「量」の比較の分析とは大きく異なるところとなります。

次は、上記マトリクスから適当な会社選んでQFDづくりをしようと思います。選び方は、既存機能×既存構造から1社、既存機能×新規構造から1社、新規機能×新規構造から1社にしようと思います。

【PR】“AI、生成AI”による知財業務の効率化、スピード化のセミナーについて(9/27開催)

掲題の件、セミナーの1/4を担当することになりました。私の担当分は、「【第2部】生成AIで革新する特許データ分析」です。URLは以下となります。 AI 生成AI 特許調査 分析 翻訳 技術情報協会はセミナー・出版・通信教育を通じて企業の最前線に立つ研究者、技術者をサポートし社会に...