SQLで重複行を取得する方法2選

Databricks上のデータパイプライン構築業務において全ての列の値が重複していないか確認する際に使用しました。

DISTINCTを使用

SELECT * FROM <table_name>

ALLを使用する

SELECT *
FROM <table_name>
GROUP BY ALL -- 「*」は使えないので注意!
HAVING COUNT(*) > 1

※pythonでの重複行の抽出方法はこちらで確認できます。

コメント

タイトルとURLをコピーしました