水淼软件出品的各大电商购物网站的评论采集工具。目前整合3家比较大购物网站(淘宝、天猫、京东)的商品评论采集,更多购物网站后续考虑加入。可以自由引用评论内容、评论用户名、评论时间、评论用户等级和ID等信息,还可以智能引用评论中的更多扩展属性。已经自动去除重复评论。
功能说明
整合6家比较大购物网站(淘宝、天猫、京东、一号店、当当网、苏宁易购)的商品评论采集,更多购物网站后续考虑加入。
可以自由引用评论内容、评论用户名(匿名不能采)、评论时间、评论用户等级和ID等信息,还可以智能引用评论中的更多扩展属性。已经自动去除重复评论。
每个商品地址采集量说明(2016年8月11日):
淘宝能采集100页评论,部分可以采集全部评论(目前发现淘宝没那么限制了,似乎可以无验证码或很少验证码)
天猫能采集100页评论(验证码增多,不过2016年8月11日的比较新版本有新办法可以无视验证码)。
京东能采集十几页到几十页即几百到几千条评论。
一号店能采集8-35页左右(偶尔有验证码)。
当当网可以采集全部评论。
苏宁易购能采集50页左右。
淘宝或天猫可能会出现:
登录只一次,登录完了页面一般会空白,直接关闭窗口即可继续采集
验证码每次输入验证码后需让软件自动等待一定时间比如15分钟,软件有倒计时,到时间会自动关闭窗口继续采集
关于晒图
即使保存模板没有引用#晒图#,只要打勾采集时下载到本地选项,晒图也会下载到保存目录下的子目录中。
而打勾采集多张晒图,就能返回某个评论的多张图片,否则只返回一张图片。
而保存模板里引用#晒图#时保存的是图片地址,多张图片地址一行一个。
Excel导出
csv是一种文本表格,能被Excel兼容显示为多列多行的数据。
只要在保存模板中设置为:"#评论#","#时间#","#昵称#",这种格式就是csv格式,使用引号围住每个项目,多个项目使用逗号隔开,然后保存扩展名填为csv即可
组件说明
一行一个的商品地址。如果放的地址为本地文件路径,将读入该文件内容中的商品地址。支持拖放本地文件到地址列表。淘宝和天猫支持直接使用商品ID进行采集。
不弹出验证窗口遇到需要登录或验证码时,软件默认会弹出浏览器窗口让用户手动处理;但是经过水淼测试,有时不必弹出窗口,由程序内部自动处理即可自动继续采集。如果内部自动处理采集不了,请取消打勾本选项改为用户手动处理。
保存模板可以引用评论内容、评论的用户名等信息,自由组合。
每页延秒如果大量高速采集可能会被限制,可根据情况设定每采集一页等待的秒数。通常情况可设置为0,就是不等待。
采集页数设置为0自动采集全部页评论,否则仅采集指定页数的评论。
每文件几个评论就是每几个评论保存为一个文件。设置为0则每个商品的全部评论保存为一个文件。
保存目录右击“..”按钮可以在“我的电脑”里打开该目录。
开始采集右击“开始采集”按钮可预览一页评论,左击则是正式采集并保存到文件。
更新日志
1、比较新2018年07月测试发现京东比较容易采集失败,本次更新特别加强尝试次数。
2、当使用过滤评论时相应提高采集空次数,避免采集页不足;其他更新。
3、修复淘宝店铺采集商品地址失效的问题;增加保存命名选项(商品标题、商品ID、内容随机改名)
4、修复部分特殊型号词无法采集采集淘宝商品地址的问题。
5、增加采集失败时调试显示相关信息。
6、根据比较新淘宝变动修复相关项;试用版限制预览一页。
7、修正使用过滤设置后可能导致提前结束采集的问题;修改试用版提示文字。
8、尝试修复部分电脑取硬盘码失败的问题。
9、修复淘宝天猫改动导致采集店铺id失败的问题
10、修复部分店铺不能采集id的问题。
11、修复淘宝改动导致淘宝和天猫评论采集失败问题,并支持https链接。
12、修复淘宝改动导致采集评论失败问题。
13、修复淘宝改动导致采集评论失败问题(增加手动登录/输入验证码窗口)。
14、更换数据解析模式并修复京东数据部分情况解析不完全问题;补上晒图链接缺少的http:,并支持返回同一个评论的多条晒图。
15、修改登录窗口的说明名字,提示需要登录淘宝。
16、修复淘宝改动采集失败问题;修改多个晒图链接一行一个。
17、淘宝改动验证码输入无效必须等待10分钟再输入方才有效,
包含文件
FastVerCode.dll
gzip.dll
LZConfig.ini
shuimiao.rc
水淼·电商评论采集器.exe
水淼·电商评论采集器.ini