淘宝神器之重复数据过滤神器,支持字符串过滤,也支持对.txt文本文件、.csv文件直接过滤;支持多线程过滤,支持多文件批量过滤,支持多文件合并过滤,支持显示过滤进度、过滤报告,支持按重复次数再次筛选保存数据。
假如你采集了很多邮箱、淘宝买家帐号、QQ帐号,或其它类似的帐号、ID等信息,但里面有很多重复的数据,手工去除那太慢太烦容易出错,那么你应该用重复数据过滤神器来过滤重复的数据(只保留一次)。
功能说明:
1、支持多文件批量过滤,支持多线程过滤,以列表方式友好显示每个文件各自的过滤进度。
2、支持多文件合并过滤,如果你将数据保存在了多个文件中,不必合并,可以直接对这几个文件进行合并及去重复过滤,最后保存为一个无重复数据的文件。
3、每个文件过滤都会提供过滤报告,记录各个数据的重复次数,你可以再次按重复次数来筛选数据(比如在提取的淘宝交易订单信息中,如果某个买家帐号出现的重复次数高于某个值,我们可以认为它可能是刷信誉的买家而非真买家从而再次去除等)。
过滤说明:
一、字符串过滤
去除重复字串(只保留一次),过滤时一行一个字符串(字符串如帐号、ID等)。
二、csv文件数据过滤
直接去除csv数据中的重复数据。要对csv进行过滤时,需要先指定以哪一个列作为过滤基准,即,如果不同行中的该列数据一样时,表示二个行是相同的,那么将只保留最前面的那一行,后面的行将被忽略。设置好后,选择过滤后产生的新文件要保存的位置,点击“开始过滤”即可完成csv文件的数据过滤。