2022年8月31日水曜日

統計と機械学習の違いについて

更新が滞っておりましたが、これは学会用のデータづくりに行き詰まっていたからとなります。

 

今回は、LDAを使っていろいろ分析してみようと考えておりましたが、いろいろ試行錯誤してもうまくゆきません。うまくゆかない理由はLDA処理の結果が何を意味するか、理解できないからです。

 

LDA処理により、何らかの言葉のクラスタが存在することはわかりますが、それが何を意味するかは、解釈するしかないのですが、この解釈が妥当かどうかはわかりません。

 

何とか、理解できるよう試行錯誤したのですが、よい結果は得られず、時間もありませんのでLDAの使用はやめようと考えております。

 

さて、LDAは機械学習の一種となります。しかしながら、機械学習といえど、結局のところ統計的な処理にすぎませんので、従来の統計処理と何が違うのだろうと常々思っておりました。

 

そのような疑問をもっておりましたが、最近読んだ以下の本に、その答えのようなものがかいてありました。

 

「分析モデル入門(杉山聡 著:ソシム株式会社 発行)」

(今大きな本屋でしたら並んでいると思います。)

 

ざっくり言えば

統計とは、人間の思考の範疇の関数を用い、人間が解釈しやすいアウトプットを得るもの

機械学習とは、分析モデルを人間の制御下に置くことをあきらめ、人間の想像以上の成果を狙うもの

 

とされます(詳しくは本を読んでください)。

 

そう考えますとLDAを使う局面とは、分析の局面ではなく、発想の局面が好ましいことになります。

 

ということで、分析は人間が解釈できることが重要ですので、オーソドックスな分析を用い、発想の局面でLDAを使うのがよいのかもしれません。


というような方針転換をしようと思いますが、知財学会には間に合わないかもしれません・・・。

スプレッドシートだけで特許分析⁉ Google Sheets AI関数を徹底検証した最新ワーキングペーパーを公開しました。

生成AIがついに表計算ソフトのセルまで入り込み、翻訳・要約・分類をワンストップでこなす——。 5月16日に公開された私のワーキングペーパー Vol. 11 No. 11 では、試験運用中の Google スプレッドシート“AI関数” を用いて、50件の掃除機関連特許を**「...