设为首页收藏本站

ZMX - IT技术交流论坛 - 无限Perfect,追求梦想 - itzmx.com

 找回密码
 注册论坛

QQ登录

只需一步,快速开始

新浪微博账号登陆

只需一步,快速开始

用百度帐号登录

只需两步,快速登录

搜索
查看: 1733|回复: 0

爬虫搜索基础篇(二)

[复制链接]

签到天数: 5 天

[LV.2]偶尔看看I

发表于 2015/11/20 10:27 | 显示全部楼层 |阅读模式 |Mozilla 11.0|Windows 7
天涯海角搜一下: 百度 谷歌 360 搜狗 有道 雅虎 必应 即刻
本帖最后由 无情 于 2015/11/20 10:31 编辑

结构化数据
JSON字符串的数据是最好处理的,因为只需要解析之后就可以使用了,结构化数据基本都是这个类型。
二.内容
APP手机端的蓬勃兴起,在一定程度上改变了人们获取信息的习惯,以往都是打开电脑,在浏览器上面搜索自己需要的知识。现在只要有手机,有WIFI,搜索变得简单,方便的多了。爬虫除了检索网页上的内容之外,也会涉及到移动端的抓取请求,这里要分为两部分说明。
网页
很多新人都习惯性地认为,我们在网页上看到的就是全部内容,其实并不仅仅局限于网页代码里面的包含的信息,新人在这一块可能有碰到很多问题,比如:

如果是直接调用本地浏览器、要么就是抓取一些包含了JS代码的引擎,这两种做法在处理大量数据抓取是非常低效的,到底呈现在网页上的内容是如何实现的呢?主要分为以下几点:
.网页包含的内容
网页上的内容有一些是固定不变的,有一些内容是动态的,必须通过模板渲染生成,蜘蛛在获取这类信息的时候,只需要搜索特定的HTML标签即可得到,非常简单。
.JS代码的内容
在处理含有js代码的网页时,很容易检索到空内容。这是因为所有的内容不仅是html、同时还有js字符串,如果只处理html代码,那是无法得到信息的。这种情况下必须用正则表达式找到包含内容的js代码串,才能得到实质的信息,不能单一的解析html。
.Ajax异步的内容
下图是chrome浏览器,在页面以分页形式展现的时候,亦或是无刷新的情况下,出现以下情况就很正常。那我们该如何分析呢?这里简要说明:

首先我们要学会观察数据,在页面刷新的时候,数据在哪一步被加载进来的,如果是没有意义的网页,就不需要理会了。如果一旦找到核心异步请求的时候,直接抓取就行了。
原文来自:码农谷——专业的在线编程和软件教育平台http://www.manonggu.com
欢迎光临IT技术交流论坛:http://bbs.itzmx.com/
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册论坛 新浪微博账号登陆用百度帐号登录

本版积分规则

手机版|Archiver|Mail me|网站地图|IT技术交流论坛 ( 闽ICP备13013206号-7 )

GMT+8, 2024/12/27 01:26 , Processed in 0.128454 second(s), 22 queries , MemCache On.

Powered by itzmx! X3.4

© 2011- sakura

快速回复 返回顶部 返回列表