dataframe

pythonのDataFrameで指定した列で重複行を確認する方法

データパイプライン構築をしている際に、ある列を除いて他の列の値が重複している事象がありました。その際にDataFrameのduplicated()を使用しました。サンプルコードimport pandas as pd# 辞書型のリストでデータ...
Databricks

pyspark.pandasライブラリのsqlメソッドのSQLクエリ内でDataFrameを呼び出す方法

databricks環境でデータパイプライン構築をしていた際、加工したDataframeをSQLクエリ内に埋め込んでtableの代わりに利用していました。注意点として、f構文無しの場合「{df}」と記述し、f構文ありの場合「{{df}}」に...
pip

pip listに特定のモジュールが含まれているか確認する方法

以下のように実行したところ、1行目で「from: command not found」と出ており、モジュールが不足しておりました。そこでpip listコマンドで指定したモジュールが本当に含まれていないか確認するために使用しました。pip ...
Databricks

pyspark.pandasのDataFrameで重複行を確認する方法

pyspark.pandasライブラリで、全ての列の値が重複していないか確認するために「display(df)」をそのまま使うとエラーが出てきてしまいました。その対策として以下2つの方法を試したところエラーを回避することができました。wit...
Databricks

SQLで重複行を取得する方法2選

Databricks上のデータパイプライン構築業務において全ての列の値が重複していないか確認する際に使用しました。DISTINCTを使用SELECT * FROM <table_name>ALLを使用するSELECT *FROM <tabl...
Databricks

Databricksで過去のテーブル内容にデータを戻す方法

Databricksを利用してデータパイプラインの結合テストにて、不具合を修正して動作確認した際、他の処理でも参照するテーブル内容を書き換えてしまったことがありました。新たにテーブルを作成しなおさなくて済んだので非常に便利です。対象テーブル...
体験談

【体験談】9泊10日のベトナム&タイ旅行でかかった費用

10月下旬から11月初旬に9泊10日でベトナムのハノイとタイのバンコク・パタヤ・ラン島へ旅行に行きました。ベトナムのハノイでは10月~11月、タイのバンコク・パタヤ・ラン島では10月中旬から2月中旬がベストシーズンのようでした。このメインシ...
DEFP

【初心者でもわかる】streamlitのインストール方法

pythonのwebアプリケーションのフレームワークの一つであるstreamlitをWindows11のWSL2上のUbuntuの仮想環境上でインストールする方法について解説します。ブラウザが表示されないエラーの対応方法についても解説します。
python

WSL2でエラー「Operation not supported」が発生した時の解決方法

WSL2上のUbuntuの仮想環境にてpythonのwebアプリケーションフレームワークの一つであるstreamlitをインストールして実行した際、エラー「Operation not supported」が発生したので、その解決方法について解説します。