gensim.utilsモジュールのsimple_preprocessメソッドの使い方

gensimとは？

gensimとは？

テキストデータの前処理を効率的に行うことができるオープンソースライブラリです。

使用シーン

Word2Vecの前処理

simple_preprocessメソッドでできること

テキストに対して、以下の前処理を行います。

短い・長い単語を除去
テキストを小文字に変換
アルファベット以外の文字を除去
トークン化（＝単語に分割）

引数で以下のことが指定可能です。

引数名	型	処理内容
dic	str	処理を行いたいテキスト
deacc	bool, optional	deaccent()を使ってアクセント記号を除去
min_len	int, optional	指定した長さよりも小さいトークンを除去
max_len	int, optional	指定した長さよりも大きいトークンを除去

戻り値はstrのlist型です。

インストール

インストールは以下のコマンドから行います。

pip install gensim

サンプルコード

from gensim.utils import simple_preprocess

# テキストのサンプル
sample_text = "This is a simple example. It includes punctuation, numbers like 123, and mixed CASE letters!"

# simple_preprocessを使って前処理を実行
processed_text = simple_preprocess(sample_text)

# 結果を表示
print(processed_text)

# 結果
['this', 'is', 'simple', 'example', 'it', 'includes', 'punctuation', 'numbers', 'like', 'and', 'mixed', 'case', 'letters']

参照

[1]https://radimrehurek.com/gensim/utils.html