pyspark

Databricks

pyspark.pandasライブラリのsqlメソッドのSQLクエリ内でDataFrameを呼び出す方法

databricks環境でデータパイプライン構築をしていた際、加工したDataframeをSQLクエリ内に埋め込んでtableの代わりに利用していました。注意点として、f構文無しの場合「{df}」と記述し、f構文ありの場合「{{df}}」に...
pip

pip listに特定のモジュールが含まれているか確認する方法

以下のように実行したところ、1行目で「from: command not found」と出ており、モジュールが不足しておりました。そこでpip listコマンドで指定したモジュールが本当に含まれていないか確認するために使用しました。pip ...
Databricks

pyspark.pandasのDataFrameで重複行を確認する方法

pyspark.pandasライブラリで、全ての列の値が重複していないか確認するために「display(df)」をそのまま使うとエラーが出てきてしまいました。その対策として以下2つの方法を試したところエラーを回避することができました。wit...