2022年8月31日水曜日

統計と機械学習の違いについて

更新が滞っておりましたが、これは学会用のデータづくりに行き詰まっていたからとなります。

 

今回は、LDAを使っていろいろ分析してみようと考えておりましたが、いろいろ試行錯誤してもうまくゆきません。うまくゆかない理由はLDA処理の結果が何を意味するか、理解できないからです。

 

LDA処理により、何らかの言葉のクラスタが存在することはわかりますが、それが何を意味するかは、解釈するしかないのですが、この解釈が妥当かどうかはわかりません。

 

何とか、理解できるよう試行錯誤したのですが、よい結果は得られず、時間もありませんのでLDAの使用はやめようと考えております。

 

さて、LDAは機械学習の一種となります。しかしながら、機械学習といえど、結局のところ統計的な処理にすぎませんので、従来の統計処理と何が違うのだろうと常々思っておりました。

 

そのような疑問をもっておりましたが、最近読んだ以下の本に、その答えのようなものがかいてありました。

 

「分析モデル入門(杉山聡 著:ソシム株式会社 発行)」

(今大きな本屋でしたら並んでいると思います。)

 

ざっくり言えば

統計とは、人間の思考の範疇の関数を用い、人間が解釈しやすいアウトプットを得るもの

機械学習とは、分析モデルを人間の制御下に置くことをあきらめ、人間の想像以上の成果を狙うもの

 

とされます(詳しくは本を読んでください)。

 

そう考えますとLDAを使う局面とは、分析の局面ではなく、発想の局面が好ましいことになります。

 

ということで、分析は人間が解釈できることが重要ですので、オーソドックスな分析を用い、発想の局面でLDAを使うのがよいのかもしれません。


というような方針転換をしようと思いますが、知財学会には間に合わないかもしれません・・・。

【PR】“AI、生成AI”による知財業務の効率化、スピード化のセミナーについて(9/27開催)

掲題の件、セミナーの1/4を担当することになりました。私の担当分は、「【第2部】生成AIで革新する特許データ分析」です。URLは以下となります。 AI 生成AI 特許調査 分析 翻訳 技術情報協会はセミナー・出版・通信教育を通じて企業の最前線に立つ研究者、技術者をサポートし社会に...