用python抓取数据入库需要避免重复数据插入,参考了如下方法:
方案一:使用ignore关键字
如果是用主键primary或者唯一索引unique区分了记录的唯一性,避免重复插入记录可以使用:
当有重复记
录就会忽略,执行后返回数字0。
还可以复制表,避免重复记录:
方案二:使用replace
replace的语法格式为:
1. replace into table_name(col_name, ...) values(...)
2. replace into table_name(col_name, ...) select ...
3. replace into table_name set col_name=value, ...
算法说明:
replace的运行与insert很相像,但是如果旧记录与新记录有相同的值,则在新记录被插入之前,旧记录被删除,即:
1.尝试把新行插入到表中
2.当因为对于主键或唯一关键字出现重复关键字错误而造成插入失败时:
从表中删除含有重复关键字值的冲突行
再次尝试把新行插入到表中
旧记录与新记录有相同的值的判断标准就是:表有一个primary key或unique索引,否则,使用一个replace语句没有意义。该语句会与insert相同,因为没有索引被用于确定是否新行复制了其它的行。
返回值:
replace语句会返回一个数,来指示受影响的行的数目。该数是被删除和被插入的行数的和。
受影响的行数可以容易地确定是否replace只添加了一行,或者是否replace也替换了其它行:检查该数是否为1(添加)或更大(替换)。
例子,(phone字段为唯一索引)
另外:在sql数据库中可以这样处理:
更多信息请看:http://dev.mysql.com/doc/refman/5.1/zh/sql-syntax.html#replace
方案三:on duplicate key update
如上所写,你也可以在insert into.....后面加上 on duplicate key update方法来实现。
如果您指定了on duplicate key update,并且插入行后会导致在一个unique索引
或primary key中出现重复值,
则执行旧行update。例如,如果列a被定义为unique,并且包含值1,则以下两个语句具有相
同的效果:
如果行作为新记录被插入,则受影响行的值为1;如果原有的记录被更新,则受影响行的值为2。
注释:如果列b也是唯一列,则insert与此update语句相当:
如果a=1 or b=2与多个行向匹配,则只有一个行被更新。通常,您应该尽量避免对带有多个唯一关键字的表使用on duplicate key子句。
您可以在update子句中使用values(col_name)函数从insert...update语句的insert部分引用列值。
换句话说,如果没有发生重复关键字冲突,则update子句中的values(col_name)可以引用被插入的col_name的值。本函数特别适用于多行插入。values()函数只在insert...update语句中有意义,其它时候会返回null。
本语句与以下两个语句作用相同:
当您使用on duplicate key update时,delayed选项被忽略。
示例: 这个例子是我在实际项目中用到的:是将一个表的数据导入到另外一个表中,数据的重复性就得考虑(如下)。
唯一索引为:email
语句的关键地方,都已高亮出来~
例子:
其它关键:
delayed 做为快速插入,并不是很关心失效性,提高插入性能。
ignore 只关注主键对应记录是不存在,无则添加,有则忽略。
更多信息请看: http://dev.mysql.com/doc/refman/5.1/zh/sql-syntax.html#insert
说明:
在mysql中unique 索引将会对null字段失效,也就是说(a字段上建立唯一索引):
是可以重复插入的(联合唯一索引也一样)。