日本語の自然言語処理におけるデータ前処理の基本のき
- CentOS Linux 7
- Windows 10 ver1909
- macOS Catalina ver10.15.7
- python 3.7.6
- neologdn 0.4
- emoji 0.6.0
- mecab-python3 1.0.1
上記のライブラリが入っていない場合、インストールします。
$ pip install neologdn
$ pip install emoji
$ pip install mecab-python3
但し、MeCabに関してはこれだけでは動作しません。更に下記の手順に従って、インストールを行ってください。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
管理者権限がない場合、下記の記事が非常に役に立ちます。
sudoが使えないマシンでmecabを使うまでの備忘録
preprocessing.py
内のpre_processing
関数に対し、前処理を行いたい文を引数として与えてください。