yhkn.net
当前位置:首页 >> 用python脚本爬取和解析指定页面的数据 >>

用python脚本爬取和解析指定页面的数据

给你贴一下我前一段时间回答的类似问题,用的soup,还有一个用的正则就不贴了,手机不太方便,如下.import beautifulsoupimport urllib2def main():userMainUrl = "你要抓取的地址"req = urllib2.Request(userMainUrl)resp = urllib2.urlopen(req

给你贴一下我前一段时间回答的类似问题,用的soup,还有一个用的正则就不贴了,手机不太方便,如下.import beautifulsoup import urllib2 def main():userMainUrl = "你要抓取的地址" req = urllib2.Request(userMainUrl) resp = urllib2.urlopen(

要具体分析 先看网页的源码 是不是评论数据在源码中 如果在就从其中提取 如果是其他类型数据 你们就通过浏览器调试方式获取数据地址 然后在模拟浏览器获取

动态网页抓取都是典型的办法1. 直接查看动态网页的加载规则.如果是ajax,则将ajax请求找出来给python. 如果是js去处后生成的URL.就要阅读JS,搞清楚规则.再让python生成URL.这就是常用办法2. 办法2,使用python调用webkit内核的,IE内核,或者是firefox内核的浏览器.然后将浏览结果保存下来.通常可以使用浏览器测试框架.它们内置了这些功能3. 办法3,通过http proxy,抓取内容并进行组装.甚至可以嵌入自己的js脚本进行hook. 这个方法通常用于系统的反向工程软件

推荐:《pyspider 爬虫教程(二):AJAX 和 HTTP》足兆叉虫由于 AJAX 实际上也是通过 HTTP 传输数据的,所以我们可以通过 Chrome Developer Tools 找到真实的请求,直接发起真实请求的抓取就可以获得数据了.AJAX 一般是通过 XMLHttpRequest 对象接口发送请求的,XMLHttpRequest 一般被缩写为 XHR.

爬虫的概念是,爬取网上能看到的数据,也就是只要网上存在的,通过浏览器可以看到的数据.爬虫都可以爬取.爬虫爬取的原理就是伪装成浏览器,然后进行爬取操作哪些数据你需要你就可以爬取.比如爬取公司竞争对手的商业数据,爬取电影,音乐,图片等等的.只要你希望得到的,前提浏览器可以访问的都可以爬取

爬取这些主要看规则,如果就你刚才所说,可以用正则.可以试下一次正则是否能提取,如果不行的话,先取包含内容的部分,然后正则再区分.当然还可以查下类似xml解析的方法将HTML转化为数组,然后取值

找数据接口,而不是请求html页面,这样获取不到动态加载的内容,除非内容直接在html页面了,这就是为什么动态加载的内容,js动态生成的内容不利于seo的原因,因为得到的内容就是查看源代码一样的内容

以下代码运行通过:import requestsfrom bs4 import BeautifulSoupimport osheaders = { 'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) " "Chrome/22.0.1207.1 Safari/537.1"}## 浏览器请求头(

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Author: Administrator # @Date: 2015-10-31 15:45:27 # @Last Modified by: Administrator # @Last Modified time: 2015-11-23 16:57:31 import requests import sys import json import re reload(sys) sys.

网站首页 | 网站地图
All rights reserved Powered by www.yhkn.net
copyright ©right 2010-2021。
内容来自网络,如有侵犯请联系客服。zhit325@qq.com