indulge3 发表于 2015-8-19 10:59:22

数据采集发布防重复

此节视频概要:
发布:
1.项目管理器读入网址,标记为已发防止重复发布,循环中同理
采集:
1.项目管理器读入网址采集其中详细内容,采集并update 信息,防止重复采集。还有脚本的循环中读入同理
2.重复采集一个网站时,比如采集其中的网址信息的时候,已经入库的信息不再入库:(两种方式:1.设置列为unique,2.设置从数据库查询数据,如果有这个数据就不再入库)
3.关键词采集,已采集的关键词不再采集。两种情况(1.关键词放在数据库中,标记为已发2.关键词放在文本中,使用exe中的批量查询。)


功能点:
防重复

视频播放及下载地址:http://pan.baidu.com/s/1gd4LFsJ

如果您对此节视频有任何意见和建议,可以回帖说明,感谢大家对我们软件的支持。

火车浏览器视频教程征集活动,奖励多多~~~ http://bbs.locoyposter.com/post-374-1-1.html

开心鬼 发表于 2015-8-29 15:06:18

:victory:好教程,我顶:lol

indulge3 发表于 2015-8-31 08:40:21

开心鬼 发表于 2015-8-29 15:06
好教程,我顶

水的太明显

abcdlzh 发表于 2015-8-31 10:01:16

留个脚!!!!!!!!!!

dodd001 发表于 2016-1-19 22:47:14

管理员,我看了教程,最后那个判断那里没看明白,能否说的详细点,你最后那个判断有什么用处,直接判断网址不是可以吗,还有已采和已发你没有写出判断啊
请把最后说的详细点,谢谢

dodd001 发表于 2016-1-19 22:48:51

我说一下我的思路,看是不是正确的
新建两个字段已发已采,发布成功后,用SQL语句标注已发。
这样子写正确吗
INSERT INTO links1 (网址,已采,已发) VALUES ('{-var.版块网址-}','-1',-1')
{-var.版块网址-}表示已发网址变量,-1分别表示已采和已发
这样写好之后
调用数据的时候用查询语句来判断是不是已经发布过或者采集过,
这样写正确吗
select title as 标题,content as 正文内容 from datamemer where 已发=1 and 已采=1
1分别表示还没采和还没发的,这样和-1进行对比,就可以判断了对吗

循环发布调用数据库

ShineGoo 发表于 2016-5-13 16:25:27

dodd001 发表于 2016-1-19 22:48
我说一下我的思路,看是不是正确的

用where * in (select * from*)也可以的

ShineGoo 发表于 2016-5-13 16:26:50

dodd001 发表于 2016-1-19 22:48
我说一下我的思路,看是不是正确的

用where * in (select * from*)也可以的

dodd001 发表于 2016-6-5 09:57:31

我用了视频的方法,发现变量“判断”值为空,为什么,按照教程一步一步来的
页: [1]
查看完整版本: 数据采集发布防重复