Databricks上のデータパイプライン構築業務において全ての列の値が重複していないか確認する際に使用しました。
DISTINCTを使用
SELECT * FROM <table_name>
ALLを使用する
SELECT *
FROM <table_name>
GROUP BY ALL -- 「*」は使えないので注意!
HAVING COUNT(*) > 1
※pythonでの重複行の抽出方法はこちらで確認できます。
Databricks上のデータパイプライン構築業務において全ての列の値が重複していないか確認する際に使用しました。
SELECT * FROM <table_name>
SELECT *
FROM <table_name>
GROUP BY ALL -- 「*」は使えないので注意!
HAVING COUNT(*) > 1
※pythonでの重複行の抽出方法はこちらで確認できます。
コメント