火车浏览器官方论坛

标题: 数据采集发布防重复 [打印本页]

作者: indulge3    时间: 2015-8-19 10:59
标题: 数据采集发布防重复
此节视频概要:
发布:
1.项目管理器读入网址,标记为已发  防止重复发布,循环中同理
采集:
1.项目管理器读入网址采集其中详细内容,采集并update 信息,防止重复采集。还有脚本的循环中读入同理
2.重复采集一个网站时,比如采集其中的网址信息的时候,已经入库的信息不再入库:(两种方式:1.设置列为unique,2.设置从数据库查询数据,如果有这个数据就不再入库)
3.关键词采集,已采集的关键词不再采集。两种情况(1.关键词放在数据库中,标记为已发  2.关键词放在文本中,使用exe中的批量查询。)


功能点:
防重复

视频播放及下载地址:http://pan.baidu.com/s/1gd4LFsJ

如果您对此节视频有任何意见和建议,可以回帖说明,感谢大家对我们软件的支持。

火车浏览器视频教程征集活动,奖励多多~~~ http://bbs.locoyposter.com/post-374-1-1.html


作者: 开心鬼    时间: 2015-8-29 15:06
好教程,我顶
作者: indulge3    时间: 2015-8-31 08:40
开心鬼 发表于 2015-8-29 15:06
好教程,我顶

水的太明显
作者: abcdlzh    时间: 2015-8-31 10:01
留个脚!!!!!!!!!!
作者: dodd001    时间: 2016-1-19 22:47
管理员,我看了教程,最后那个判断那里没看明白,能否说的详细点,你最后那个判断有什么用处,直接判断网址不是可以吗,还有已采和已发你没有写出判断啊
请把最后说的详细点,谢谢
作者: dodd001    时间: 2016-1-19 22:48
我说一下我的思路,看是不是正确的
  1. 新建两个字段已发已采,发布成功后,用SQL语句标注已发。
  2. 这样子写正确吗
  3. INSERT INTO links1 (网址,已采,已发) VALUES ('{-var.版块网址-}','-1',-1')
  4. {-var.版块网址-}表示已发网址变量,-1分别表示已采和已发
  5. 这样写好之后
  6. 调用数据的时候用查询语句来判断是不是已经发布过或者采集过,
  7. 这样写正确吗
  8. select title as 标题,content as 正文内容 from datamemer where 已发=1 and 已采=1
  9. 1分别表示还没采和还没发的,这样和-1进行对比,就可以判断了对吗

  10. 循环发布调用数据库
复制代码

作者: ShineGoo    时间: 2016-5-13 16:25
dodd001 发表于 2016-1-19 22:48
我说一下我的思路,看是不是正确的

用where * in (select * from*)也可以的
作者: ShineGoo    时间: 2016-5-13 16:26
dodd001 发表于 2016-1-19 22:48
我说一下我的思路,看是不是正确的

用where * in (select * from*)也可以的
作者: dodd001    时间: 2016-6-5 09:57
我用了视频的方法,发现变量“判断”值为空,为什么,按照教程一步一步来的




欢迎光临 火车浏览器官方论坛 (http://bbs.locoyposter.com/) Powered by Discuz! X3.2