cudd@163.com 发表于 2015-1-3 16:22:18

建议增加一个“网页源码”输出。

做个任务,是js/ajax的,特别是瀑布流之类的加载,网页正常查看源码是不存在需要的内容的。只有在火车浏览器下才能被提取到有内容的源码。在执行任务的时候,经过各种点击,下拉,赋值,变量改变,最后得到需要的数值。
但很多情况下,火车浏览器有优势,但相对采集器又有劣势。
如果将点击操作执行之后的网页源码存储到变量,然后将变量存储到文本或者数据库,就可以让“火车采集器”直接去读这个文本,处理比浏览器方便多了。

就一句话:在“元素”增加一项“网页源代码”,可写到变量"abcdefg(自己输入啦)"。这样,就可以将这个值给变量赋值,方便操作到其他地方。

开心鬼 发表于 2015-1-5 15:53:05

这个想法有点意思

290576138 发表于 2015-1-5 18:49:24

本帖最后由 290576138 于 2015-1-5 20:35 编辑

其实吧。源代码输出功能是有的 XPATH选取多大范围输出多大。
从网页到源代码 这个还是容易的。

从源代码变成网页,这个就困难了。

现在碰到一些FLASH网站无法采集http://bbs.locoyposter.com/post-265-1-1.html



290576138 发表于 2015-1-5 20:19:57

本帖最后由 290576138 于 2015-1-5 20:39 编辑

假如一个网页加载的过程各种跳转进行了10次,中间跳转的步骤信息。无法获取到,这个是硬伤。

源代码怎么变成网页的问题。http://bbs.locoyposter.com/post-116-1-1.html

cudd@163.com 发表于 2015-1-6 09:56:53

学习了。把这段xpath内的全部输出html到变量就有源代码了。学习了

kang3bao 发表于 2015-3-30 16:22:33

cudd@163.com 发表于 2015-1-6 09:56
学习了。把这段xpath内的全部输出html到变量就有源代码了。学习了

这个功能好,非常有意义
特别像HTTP请求回来的值   有时候里面有多个值需要我们去采集的时候,没招

kang3bao 发表于 2015-4-1 10:38:23

官方已经准备在下一个版本进行从变量循环取值的功能
我觉得这个对于网页源码 输入一个变量,功能已经算是可以实现了

iiwork 发表于 2015-4-11 13:33:38

呵,我也提过此类 的建议了, 不过估计不好实现 ,现在是要用firebug 来做,毕竟有点不方便。
此外ff和其它 浏览器完全加载后的页面代码 多少还有点不一样。

建议在写规则的时候,用ff吧,
页: [1]
查看完整版本: 建议增加一个“网页源码”输出。