こんにちは。

いきなりですが上の画像カッコよくないですか?かっこいいですよね。この記事を読めばあなたもこのかっこいいプロットができるようになります。

GiNZA

本日使うライブラリの一つ目です。

係り受け解析器 です。ちなみに似たもので

があります。MeCabは形態素解析器です。つまり、MeCabの出力を使ってGiNZAやCaboChaを使うみたいな感じです。

spaCy

超有名ライブラリです。GiNZAをこれにかまします。

  • spaCy is a free open-source library for Natural Language Processing in Python. 

よくない点

GiNZAを使ってみた感想としてはsimilarityがあまりよくないかな?と思いました。
これは良い感じです。
これも良い感じです。一方で
んー、とった感じですよね。そもそもsimilarityの定義によってはこの結果も悪くないかもしれないんですが、期待していた感じではないので使う際は注意が必要かもしれません。

pyLDAvis

3つ目のライブラリです。genismを合わせれば4ですが、以前紹介したのでスキップです。このライブラリはトピックモデリングの結果をインタラクティブに触れるものです。

上は画像なので触れませんが良ければ下からダウンロードしてhtmlをダブルクリックで開いてみてください。
ちなみに、使い方は次のとおりです。

  • 左側の円はそれぞれトピック
  • 円の大きさはトピックに含まれる文書数
  • 円と円の距離はトピック間の距離
  • 右側は単語の発生頻度
  • トピックを選択するとそのトピック内での単語の発生頻度を見ることができる
では最後にコード貼っておきます。

コード

次はとうとうネットワーク解析の記事行きます!