gensimとは?
テキストデータの前処理を効率的に行うことができるオープンソースライブラリです。
使用シーン
- Word2Vecの前処理
simple_preprocessメソッドでできること
テキストに対して、以下の前処理を行います。
- 短い・長い単語を除去
- テキストを小文字に変換
- アルファベット以外の文字を除去
- トークン化(=単語に分割)
引数で以下のことが指定可能です。
引数名 | 型 | 処理内容 |
dic | str | 処理を行いたいテキスト |
deacc | bool, optional | deaccent()を使ってアクセント記号を除去 |
min_len | int, optional | 指定した長さよりも小さいトークンを除去 |
max_len | int, optional | 指定した長さよりも大きいトークンを除去 |
戻り値はstrのlist型です。
インストール
インストールは以下のコマンドから行います。
pip install gensim
サンプルコード
from gensim.utils import simple_preprocess
# テキストのサンプル
sample_text = "This is a simple example. It includes punctuation, numbers like 123, and mixed CASE letters!"
# simple_preprocessを使って前処理を実行
processed_text = simple_preprocess(sample_text)
# 結果を表示
print(processed_text)
# 結果
['this', 'is', 'simple', 'example', 'it', 'includes', 'punctuation', 'numbers', 'like', 'and', 'mixed', 'case', 'letters']
コメント