私は、昔某私立中学に通っておりましたが、今でも当時のことが夢に出てきて、うなされて目が覚めることがります。
当時の私は成績が非常に悪く(学年の下から一桁台)、特に、国語系の成績が10段階中、2,3しかありませんでした。成績が3以下が1つでもありますと、問答無用で留年or退学となります。
学期の初めに教師に呼び出され、留年or退学勧告がなされるのが常でしたので、当時の記憶が悪夢となって今でも甦ることになっております。
その後、理系の大学に進んだのも、理系の勉強がしたいという積極的な理由ではなく、国語ができないという消極的な理由からでした。
(よくよく考えますと、このような消極的な理由で物事を選択しますと、人生も消極的になりがちで、今考えますとよくない気がします。)
弁理士を志すにあたって問題となりましたのが、試験の難易度もさることながら、この国語への苦手意識でした。
と、前置きが長くなりましたが、以下の内容は国語力のない人間の駄文となりますことの言い訳でした
KHcoderで文書を分析しますと、技術を文書で考えるという思考になります。技術を国語的に表しますと、以下のような感じとなります
「AはBをCする。」
Aは、主語(主体)であり、名詞となります。
Bは、目的語(客体)であり、名詞となります。
Cは、動詞(orサ変名詞)となります。
掃除機で言えば
フィルタはほこりを除去する。となります。
「フィルタ」は「名詞」、「ほこり」は「名詞」、「除去する」は「サ変名詞」、となります。
特許的に言えば
「フィルタ」は「構成」、「ほこりを除去する」は「機能」となります。
この「AはBをCする。」の多数の組み合わせが、「装置」となります。
なぜ、こういう話をしたかといいますと、今、ダイソンの出願について、トピックモデルの処理を行っておりますので、トピックモデルは品詞ごとに作成できることから、どのような品詞を使用するか検討しているからです。
以下は、トピック数20で、名詞+サ変名詞でトピックを抽出した結果となります。
希望としては、構成トピックと機能トピックを抽出しようかと考えております。
構成トピックは「名詞」でトピックモデルを生成し、機能トピックは「名詞+サ変名詞」でトピックモデルを生成することになりますが、両トピックとも「名詞」を使用していることが悩ましいところとなります。
つまり、構成と機能(の目的語)の「名詞」が混在しておりますので、分離できませんと、構成トピックと機能トピックに使用される「名詞」が重複することとなります。
とはいえ、これはソフト的な限界を超えておりますので、人力で目で見て分類するしかないと思います。
ということで、トピックモデルを使用しても、全部ソフトにお任せとはならず、人力にて処理する部分が残る予定です。
ひとまず、人力で処理して、コーディングルールを作成しようと思います。