快速删除重复记录

2020-03-09 21:40:08

字体：大中小

来源：转载

供稿：网友

数据库中删除重复记录一直是件挺烦人的事，本人收集了oracle跟sqlserver的快速删除重复记录的方法，供大家参考，希望对大家有所帮助。

sql server
　　想必每一位sql server开发人员都有过类似的经历，在对数据库进行查询或统计的时候不时地会碰到由于表中存在重复的记录而导致查询和统计结果不准确。解决该问题的办法就是将这些重复的记录删除，只保留其中的一条。

　　在sql server中除了对拥有十几条记录的表进行人工删除外，实现删除重复记录一般都是写一段代码，用游标的方法一行一行检查，删除重复的记录。因为这种方法需要对整个表进行遍历，所以对于表中的记录数不是很大的时候还是可行的，如果一张表的数据达到上百万条，用游标的方法来删除简直是个噩梦，因为它会执行相当长的一段时间。

　　四板斧——轻松消除重复记录

　　殊不知在sql server中有一种更为简单的方法，它不需要用游标，只要写一句简单插入语句就能实现删除重复记录的功能。为了能清楚地表述，我们首先假设存在一个产品信息表products，其表结构如下：

create table products (
productid int,
productname nvarchar (40),
unit char(2),
unitprice money
)

　　表中的数据如图1：

图表

　　图1中可以看出，产品chang和tofu的记录在产品信息表中存在重复。现在要删除这些重复的记录，只保留其中的一条。步骤如下：

　　第一板斧——建立一张具有相同结构的临时表

create table products_temp (
productid int,
productname nvarchar (40),
unit char(2),
unitprice money
)

　　第二板斧——为该表加上索引，并使其忽略重复的值

　　方法是在企业管理器中找到上面建立的临时表products _temp，单击鼠标右键，选择所有任务，选择管理索引，选择新建。如图2所示。

　　按照图2中圈出来的地方设置索引选项。

图2

　　第三板斧——拷贝产品信息到临时表

　　insert into products_temp select * from products

　　此时sql server会返回如下提示：

　　服务器: 消息 3604，级别 16，状态 1，行 1

　　已忽略重复的键。

　　它表明在产品信息临时表products_temp中不会有重复的行出现。

　第四板斧——将新的数据导入原表

　　将原产品信息表products清空，并将临时表products_temp中数据导入，最后删除临时表products_temp。
　　delete products
　　insert into products select * from products_temp
　　drop table products_temp

　　这样就完成了对表中重复记录的删除。无论表有多大，它的执行速度都是相当快的，而且因为几乎不用写语句，所以它也是很安全的。

　　小提示：上述方法中删除重复记录取决于创建唯一索引时选择的字段，在实际的操作过程中读者务必首先确认创建的唯一索引字段是否正确，以免将有用的数据删除。

oracle
　　在oracle中，可以通过唯一rowid实现删除重复记录；还可以建临时表来实现...这个只提到其中的几种简单实用的方法，希望可以和大家分享（以表employee为例）。

　　sql> desc employee

　　name null? type

　　emp_id number(10)
　　emp_name varchar2(20)

　　salary number(10,2)

　　可以通过下面的语句查询重复的记录：
　　sql> select * from employee;

　　emp_id emp_name salary

　　1 sunshine 10000

　　2 semon 20000

　　3 xyz 30000

　　2 semon 20000

　　sql> select distinct * from employee;

　　emp_id emp_name salary

　　1 sunshine 10000

　　2 semon 20000

　　3 xyz 30000

　　sql> select * from employee group by emp_id,emp_name,salary having count (*)>1

　　emp_id emp_name salary

　　1 sunshine 10000

　　2 semon 20000

　　sql> select * from employee e1

　　where rowid in (select max(rowid) from employe e2
　　where e1.emp_id=e2.emp_id and

　　e1.emp_name=e2.emp_name and e1.salary=e2.salary);

　　emp_id emp_name salary

　　1 sunshine 10000

　　3 xyz 30000

　　2 semon 20000

　　2. 删除的几种方法：

　　（1）通过建立临时表来实现
　　sql>create table temp_emp as (select distinct * from employee)

　　sql> truncate table employee; (清空employee表的数据）

　　sql> insert into employee select * from temp_emp; (再将临时表里的内容插回来）

　　( 2）通过唯一rowid实现删除重复记录.在oracle中，每一条记录都有一个rowid，rowid在整个数据库中是唯一的，rowid确定了每条记录是在oracle中的哪一个数据文件、块、行上。在重复的记录中，可能所有列的内容都相同，但rowid不会相同，所以只要确定出重复记录中那些具有最大或最小rowid的就可以了，其余全部删除。

　　sql>delete from employee e2 where rowid not in (
　　select max(e1.rowid) from employee e1 where

　　e1.emp_id=e2.emp_id and e1.emp_name=e2.emp_name and e1.salary=e2.salary);--这里用min(rowid)也可以。

　　sql>delete from employee e2 where rowid <(
　　select max(e1.rowid) from employee e1 where
　　e1.emp_id=e2.emp_id and e1.emp_name=e2.emp_name and e1.salary=e2.salary);

　　（3）也是通过rowid，但效率更高。

　　sql>delete from employee where rowid not in (
　　select max(t1.rowid) from employee t1 group by t1.emp_id,t1.emp_name,t1.salary);--这里用min(rowid)也可以。

　　emp_id emp_name salary

　　1 sunshine 10000

　　3 xyz 30000

　　2 semon 20000

上一篇：合并复制

下一篇：DB2中的限制之二數值的限制