本节内容:
PHP去除重复图片文件
实现思路:
通过md5来判断是否重复,开始使用md5sum工具求md5,然后再用PHP读取结果去重。
后来考虑到php的简洁与高效,所以就用它来实现了。
文件数: 80510, 大小: 452,496,873 字节
只查找不删除的速度:
第一次耗时: 122s
第二次耗时: 44s
第三次耗时: 44s
在查找多次之后, 立即查找并删除的速度:
耗时: 83秒, 删除了54406个文件
例子:
 
<?php
/**
* 去除重复的图片文件
* by www.jb200.com
*/
exec("find . -type f", $lines);
$arr = array();
$del = array();
$n = 0;
foreach($lines as $line){
 $line = trim($line);
 if(!$line){
  continue;
 }
 $n ++;
 $md5 = md5_file($line);
 if(isset($arr[$md5])){
  $del[] = $line;
  //echo "$n del $linen";
  unlink("{$line}");
 }else{
  $arr[$md5] = 1;
 }
}
echo "del " . count($del) . " filesn";
//echo join("n", $del);