zhf353300738 发表于 2016-5-25 17:34:24

生成数据后保存在TXT怎么去除标签

生成数据后保存在TXT怎么去除标签

zhf353300738 发表于 2016-5-25 17:34:57

生成后变成

【聚焦2016数博会】腾讯马化腾:与各方共建云中大数据生态###<p class="title"><a href="http://jian.news.baidu.com/redirect?topic=%E6%8E%A8%E8%8D%90&amp;mark=2&amp;nid=3136300702282651552&amp;pos=0&amp;layout=2&amp;token=f24322e9986c77f03eb361fa0439ad4c&amp;url=http%3A%2F%2Fwww.ithome.com%2Fhtml%2Fit%2F228221.htm" target="_blank" mon="name=jiannews">【聚焦2016数博会】腾讯马化腾:与各方共建云中大数据生态</a></p><p class="summary">如果你是IT领域的一份子,这两天朋友圈一定被20...</p><div class="feedb"><p class="labels"><a href="http://huati.news.baidu.com/n?cmd=12&amp;class=topic&amp;tag=BATM" class="label" target="_blank">BATM</a></p><b class="num"><i class="i ireadnum"></i>0</b><a href="javascript:;" class="agree" title="赞同"><i class="i iup"></i><b>0</b></a><a href="javascript:;" class="unagree" title="反对"><i class="i idown"></i><b>0</b></a><a href="javascript:;" class="share"><i class="i ishare"></i>分享<dl class="share-btns"><dd class="sina"></dd><dd class="qzone"></dd><dd class="weibo"></dd><dd class="wechat"></dd></dl></a><div class="tagbox" style="display:none;"></div></div>
抢工长平台与建行携手打造互联网家装新模式###<p class="title"><a href="http://jian.news.baidu.com/redirect?topic=%E6%8E%A8%E8%8D%90&amp;mark=0&amp;nid=3454014939360477647&amp;pos=1&amp;layout=2&amp;token=822b51f215d80bea8ca5ff5fabea9b50&amp;url=http%3A%2F%2Fwww.chinanews.com%2Fhouse%2F2016%2F05-25%2F7882979.shtml" target="_blank" mon="name=othernews">抢工长平台与建行携手打造互联网家装新模式</a></p><p class="summary">在全国18个城市全面推广“先装修后付款”的创新互联网装修模式。</p><div class="feedb"><p class="labels"></p><b class="num"><i class="i ireadnum"></i>0</b><a href="javascript:;" class="agree" title="赞同"><i class="i iup"></i><b>0</b></a><a href="javascript:;" class="unagree" title="反对"><i class="i idown"></i><b>0</b></a><a href="javascript:;" class="share"><i class="i ishare"></i>分享<dl class="share-btns"><dd class="sina"></dd><dd class="qzone"></dd><dd class="weibo"></dd><dd class="wechat"></dd></dl></a><div class="tagbox" style="display:none;"></div></div>
MateBook终于来了,华为撞击联想,能否再现手机神话###<p class="title"><a href="http://jian.news.baidu.com/redirect?topic=%E6%8E%A8%E8%8D%90&amp;mark=0&amp;nid=18235268194432992873&amp;pos=2&amp;layout=2&a

ShineGoo 发表于 2016-5-26 22:25:12

本帖最后由 ShineGoo 于 2016-5-26 22:39 编辑

在保存文本前,应该对变量执行操作    _____右键 变量处理>变量处理>html标签过滤以及内容替换,替换掉多余的字符。
如果已经导出了,就文件操作读取txt保存至文本变量 ,对该变量进行上面的同样操作,然后导出来就可以了
采集的时候 xpath 或源码前后截取,尽量写准确一点

dodd001 发表于 2016-6-5 13:30:30

来学习了,顺便回个贴

dodd001 发表于 2016-6-5 13:51:50

来学习了,顺便回个贴

dodd001 发表于 2016-6-5 13:55:43

来学习了,顺便回个贴

竹影水清 发表于 2017-7-5 09:15:27

学习了。谢谢楼上的分享。

青萧客 发表于 2017-10-13 05:28:20

ShineGoo 发表于 2016-5-26 22:25
在保存文本前,应该对变量执行操作    _____右键 变量处理>变量处理>html标签过滤以及内容替换,替换掉多 ...

如果IP代理地址存放在文本中,可以使用文本读取,读取IP地址保存至list变量,然后循环遍历list变量保存至文本型变量,再调用该文本型变量用于设置浏览器代理,这里需要注意代理的格式需要处理成火车浏览器的格式哦

教程中红色的这段话是怎么操作的?求教一下,谢谢
页: [1]
查看完整版本: 生成数据后保存在TXT怎么去除标签