dataframe

dataframe

DataFrameで指定した列のユニークな値の数(重複を除いた件数)を確認する方法

サンプルコードprint(train['model_a'].nunique())print(type(train['model_a'].nunique()))print(type(train.nunique()))出力結果64<class ...
dataframe

DataFrameで重複行の総数を確認する方法

データパイプライン構築をしている際に、ある列を除いて他の列の値が重複している事象がありました。その際にDataFrameのduplicated()とsum()を使用しました。サンプルコードimport pandas as pd# 辞書型のリ...
dataframe

pythonのDataFrameで指定した列ごとに重複行をカウントする方法

データパイプライン構築をしている際に、ある列を除いて他の列の値が重複している事象がありました。その際にDataFrameのduplicated()とsize()とreset_index()を使用しました。サンプルコード# 辞書型のリストでデ...
dataframe

pythonのDataFrameで指定した列で重複行を確認する方法

データパイプライン構築をしている際に、ある列を除いて他の列の値が重複している事象がありました。その際にDataFrameのduplicated()を使用しました。サンプルコードimport pandas as pd# 辞書型のリストでデータ...
Databricks

pyspark.pandasライブラリのsqlメソッドのSQLクエリ内でDataFrameを呼び出す方法

databricks環境でデータパイプライン構築をしていた際、加工したDataframeをSQLクエリ内に埋め込んでtableの代わりに利用していました。注意点として、f構文無しの場合「{df}」と記述し、f構文ありの場合「{{df}}」に...