爬虫搜索基础篇（三）

无情发表于 2015/11/23 15:59

2.App内容
现在的网络资源同时可以在电脑和手机上搜索到，尤其是App的盛行，更加方便了爬虫的搜索。因为只需要抓取一下API就行。如果是解构文本信息，又同时可以在电脑和手机端上截取，抓取APP是最佳选择。
抓包主要运用于获取App数据，把PC和手机设置同一个局域网内，在电脑上安装好抓包软件，把ip地址记录下来，在手机的网络地址里设置代理，再打开手机的App进行操作，如果有数据发送请求，就会被抓包软件截取记录。
三．了解网络请求
如何发送正确的请求是很重要的，这里面包括如何正确避免网页的限制、如何正确地接受数据，如果请求发送错误，是无法完成操作的。这里要详细的说一下请求的操作和模拟请求。
其实爬虫并不神秘深奥，它就是一次次地HTTP请求，无论是网页还是App，只要找到合适的链接或者API，丢一个请求包过去，得到的返回包就是它说截取到的数据了，综合来说有一下几点：
http://www.manonggu.com/UploadFile/UeImg/ArticleImg/20151117/6358337576433175354273570.png
抓包最主要是把URL搞明白才行，发请求过去，找到Headers里面的内容，这里是问题出的最多的地方，一般来说用户代理, 推荐信息, 浏览器缓存和身份验证是最常限制的几个字段。
请求的内容一般都是把主键值进行urlencode，很多人发现返回的数据为什么是空的，如果URL和请求方法都没错的话，这里面的原因主要有以下几个方面：
http://www.manonggu.com/UploadFile/UeImg/ArticleImg/20151117/6358337577167578551497137.png
在请求分析的时候，观察第五个返回有没有被限制或者重定向，主要是把1-4点和模拟请求吃透彻。
原文来自：码农谷——专业的在线编程和软件教育平台http://www.manonggu.com

页: [1]

ZMX - IT技术交流论坛 - 无限Perfect，追求梦想 - itzmx.com's Archiver

爬虫搜索基础篇（三）