gensim.utilsモジュールのsimple_preprocessメソッドの使い方

gensimとは?

テキストデータの前処理を効率的に行うことができるオープンソースライブラリです。

使用シーン

  • Word2Vecの前処理

simple_preprocessメソッドでできること

テキストに対して、以下の前処理を行います。

  • 短い・長い単語を除去
  • テキストを小文字に変換
  • アルファベット以外の文字を除去
  • トークン化(=単語に分割)

引数で以下のことが指定可能です。

引数名処理内容
dicstr処理を行いたいテキスト
deaccbool, optionaldeaccent()を使ってアクセント記号を除去
min_lenint, optional指定した長さよりも小さいトークンを除去
max_lenint, optional指定した長さよりも大きいトークンを除去

戻り値はstrのlist型です。

インストール

インストールは以下のコマンドから行います。

pip install gensim

サンプルコード

from gensim.utils import simple_preprocess

# テキストのサンプル
sample_text = "This is a simple example. It includes punctuation, numbers like 123, and mixed CASE letters!"

# simple_preprocessを使って前処理を実行
processed_text = simple_preprocess(sample_text)

# 結果を表示
print(processed_text)

# 結果
['this', 'is', 'simple', 'example', 'it', 'includes', 'punctuation', 'numbers', 'like', 'and', 'mixed', 'case', 'letters']

参照

[1]https://radimrehurek.com/gensim/utils.html

コメント

タイトルとURLをコピーしました