Tomo

kaggle

【エラー】AssertionError: Torch not compiled with CUDA enabledが発生した時の対処方法

kaggleのコンペに参加した時にノートブックでGPUの選択をしておらず、タイトル記載のエラーが発生し、実際に対応した内容です。【解決方法】Session optionsタブのACCELERATORプルダウンで「GPU T4 x2」を選択選...
python

gensim.models.word2vecメソッドの使い方

word2vecとは?Word2Vecとは、単語をベクトルで表現する手法です。Mikolov らが 2013 年の論文 (Efficient Estimation of Word Representations in Vector Spac...
python

gensim.utilsモジュールのsimple_preprocessメソッドの使い方

gensimとは?テキストデータの前処理を効率的に行うことができるオープンソースライブラリです。使用シーンWord2Vecの前処理simple_preprocessメソッドでできることテキストに対して、以下の前処理を行います。短い・長い単語...
python

スクレイピングで指定したURLのHTMLをhtmlファイルに出力する

prettify()を使用して整形したテキストをhtmlファイルに出力します。スクレイピングしたいサイトの構造を確認するために最初に行うべき処理です。dodaの求人情報について解析した際のコードです。from urllib.request ...
python

urlparseを扱う上で気を付けるべきこと

Pythonのurlparseメソッドを使ったURL解析の基本について解説します。netlocの認識方法や相対URLの扱い方、スクレイピングの実例も紹介します。
list

pythonでlistを拡張する方法

自然言語処理でリストを拡張する処理が使われていました。そこで、どのような使い方をするのか調べてみました。サンプルコード1:リストにリストを追加# 例1: 単純なリストの拡張list1 = [1, 2, 3]list2 = [4, 5, 6]...
pip

microsoftのdeberta-v3-baseを使い方メモ

kaggleのコンペに参加した時に自然言語処理の扱い方について全く分からなかったため、最初に確認したことについてまとめました。1. ライブラリのインストールpip install transformers torch sentencepie...
dataframe

DataFrameで指定した列のユニークな値の数(重複を除いた件数)を確認する方法

サンプルコードprint(train['model_a'].nunique())print(type(train['model_a'].nunique()))print(type(train.nunique()))出力結果64<class ...
dataframe

DataFrameで重複行の総数を確認する方法

データパイプライン構築をしている際に、ある列を除いて他の列の値が重複している事象がありました。その際にDataFrameのduplicated()とsum()を使用しました。サンプルコードimport pandas as pd# 辞書型のリ...
dataframe

pythonのDataFrameで指定した列ごとに重複行をカウントする方法

データパイプライン構築をしている際に、ある列を除いて他の列の値が重複している事象がありました。その際にDataFrameのduplicated()とsize()とreset_index()を使用しました。サンプルコード# 辞書型のリストでデ...