もふもふ技術部

IT技術系mofmofメディア

固有表現抽出(Named Entity Extraction)

spaCy + GiNZAの固有表現抽出(CRF)で、電話番号とFAX番号を識別出来るか試す

前回、spaCyとGiNZAを使って固有表現抽出するところまでやったので、今回は電話番号とFAX番号を固有表現抽出で識別出来るか試してみます。 spaCy + GiNZAを使って固有表現抽出とカスタムモデルの学習をしてみる 電話番号とFAX番号を分けて教師データにしてみ…

spaCy + GiNZAを使って固有表現抽出とカスタムモデルの学習をしてみる

自然言語処理をするときはよくRasa NLUを使っているのですが、内部的にはspaCyが使われている模様です。どちらもパイプラインでモジュールをつなげていって自然言語処理をシンプルにするフレームワークだと理解しているのですが、spaCy単独で使うとどういう…

Rasa NLUをPythonのコードから呼び出す方法

RasaNLUはAPIサーバが内包されているので、単純に固有表現抽出するAPIは最初からある。だがしかし、今回そこそこな回数の固有表現抽出処理を連続で行いたいというニーズがあったので、1リクエストで複数の固有表現抽出処理を行うAPIを追加したい。 たぶんFla…

Heroku Container RegistryでPython + Rasa NLUを動かす

以前にHeroku上でPythonで動かしている機械学習のAPIを立てたことがあった。Herokuならサーバを意識する必要がないので楽チンなので、固有表現抽出のRasa NLUをHerokuで動かしてみたいと思います。 ローカルのdockerで動くようにする docker-composeで動くよ…

Rasa NLUで日本語の固有表現抽出をしてみる

前回Rasa NLUを使って英語文章のintentを分類できるところまで出来たので、今度は日本語でやってみる。 Rasa NLUを使って固有表現抽出器を作りたいので入門してみた 文章から固有表現抽出してみる ソースコード まず、data/nlu.mdに日本語の教師データを追加…

Rasa NLUを使って固有表現抽出器を作りたいので入門してみた

そういえば最近Mac Book Proを新しくしたのでPython環境が整っていなかった。今まではpyenv + pyenv-virtualenvでバージョン管理してたんですが、最近ではPython公式がPipenvを推してるらしいのでpyenv + pipenvという構成にしてみた。 Macにpipenv環境作っ…