首页 › 科普 › 正文

深圳爬虫应届生(python爬虫怎么获取动态的网页源码)

科普编辑：小荀日期：2024-03-07 12:58:59 153人浏览

一个月前实习导师布置任务说通过网络爬虫获取深圳市气象局发布的降雨数据，网页如下：

心想，爬虫不太难的，当年跟zjb爬煎蛋网无（mei）聊（zi）图的时候，多么清高。由于接受任务后的一个月考试加作业一大堆，导师也不催，自己也不急。

但是，导师等我一个月都得让我来写意味着这东西得有多难吧。。。今天打开一看的确是这样。网站是基于Ajax写的，数据动态获取，所以无法通过下载源代码然后解析获得。

从某不良少年写的抓取淘宝mm的例子中收到启发，对于这样的情况，一般可以同构自己搭建浏览器实现。phantomJs，CasperJS都是不错的选择。

导师的要求是获取过去一年内深圳每个区每个站点每小时的降雨量，执行该操作需要通过如上图中的历史查询实现，即通过一个时间来查询，而这个时间存放在一个hidden类型的input标签里，当然可以通过js语句将其改为text类型，然后执行send_keys之类的操作。然而，我失败了。时间可以修改设置，可是结果如下图。

为此，仅抓取实时数据。选取python的selenium，模拟搭建浏览器，模拟人为的点击等操作实现数据生成和获取。selenium的一大优点就是能获取网页渲染后的源代码，即执行操作后的源代码。普通的通过 url解析网页的方式只能获取给定的数据，不能实现与用户之间的交互。selenium通过获取渲染后的网页源码，并通过丰富的查找工具，个人认为最好用的就是find_element_by_xpath("xxx")，通过该方式查找到元素后可执行点击、输入等事件，进而向服务器发出请求，获取所需的数据。

[python]?view plain?copy

#?coding=utf-8

from?testString?import?*

from?selenium?import?webdriver

import?string

import?os

from?selenium.webdriver.common.keys?import?Keys

import?time

import?sys

default_encoding?=?'utf-8'

if?sys.getdefaultencoding()?!=?default_encoding:

reload(sys)

sys.setdefaultencoding(default_encoding)

district_navs?=?['nav2','nav1','nav3','nav4','nav5','nav6','nav7','nav8','nav9','nav10']

district_names?=?['福田区','罗湖区','南山区','盐田区','宝安区','龙岗区','光明新区','坪山新区','龙华新区','大鹏新区']

flag?=?1

while?(flag?>?0):

driver?=?webdriver.Chrome()

driver.get("hianCe/")

#?选择降雨量

driver.find_element_by_xpath("//span[@id='fenqu_H24R']").click()

filename?=?time.strftime("%Y%m%d%H%M",?time.localtime(time.time()))?+?'.txt'

#创建文件

output_file?=?open(filename,?'w')

#?选择行政区

for?i?in?range(len(district_navs)):

driver.find_element_by_xpath("//div[@id='"?+?district_navs[i]?+?"']").click()

#?print?driver.page_source

timeElem?=?driver.find_element_by_id("time_shikuang")

#输出时间和站点名

output_file.write(timeElem.text?+?',')

output_file.write(district_names[i]?+?',')

elems?=?driver.find_elements_by_xpath("//span[@onmouseover='javscript:changeTextOver(this)']")

#输出每个站点的数据，格式为：站点名，一小时降雨量，当日累积降雨量

for?elem?in?elems:

output_file.write(AMonitorRecord(elem.get_attribute("title"))?+?',')

output_file.write('\n')

output_file.close()

driver.close()

time.sleep(3600)

文件中引用的文件testString只是修改输出格式，提取有效数据。

[python]?view plain?copy

#Encoding=utf-8

def?OnlyCharNum(s,?oth=''):

s2?=?s.lower()

fomart?=?'abcdefghijklmnopqrstuvwxyz0123456789,.'

for?c?in?s2:

if?not?c?in?fomart:

s?=?s.replace(c,?'')

return?s

def?AMonitorRecord(str):

str?=?str.split(":")

return?str[0]?+?","?+?OnlyCharNum(str[1])

一小时抓取一次数据，结果如下：

python可以做什么

1首先，最基本的功能就是借助python中自带的科学计算包Numpy、padas、matplotlib等，完成复杂的数据分析。

2网络爬虫，利用python可以从网络上爬取任何格式的数据，比如文本数据、音频、视频数据、等。

##标题##python爬取网络小说

3词云图，利用python对语料集分词处理后，输出个性化词云图。

4web开发，当然python之所以强大，是因为它的工程级开发，完全可以实现网站开发。

python就业前景

6?9?6?9学习python之后，想从事这方面的工作，行情怎么样呢？你可以去拉勾网、应届生求职网等各种招聘网站搜索python相关职业岗位，可以看到python的缺口不仅大，而且就业岗位类型多、待遇也不错。

python相关就业岗位：数据分析师、Web开发、量化交易分析、游戏开发者、自动化测试、网站后端程序员、人工智能、网络安全等。

看到这里有没有想学习python的冲动呢，如果你是新手，想学习python又苦于没有好的学习资源，那么小编给你提供一个免费获取30G的python学习资源包，关注我们实验室的微信公众号，回复“菜鸟起飞”，即刻免费获取资源！

知识

文章已关闭评论！

深圳爬虫应届生(python爬虫怎么获取动态的网页源码)

上海疫情动态，昨日新增本土确诊38例的解读与防控建议

探索Mignon，从历史到现代的精致艺术

深入理解先进典型及其近义词，探索榜样的力量

原神官网，探索提瓦特大陆的门户与玩家社区的桥梁

探索实验英语单词的可数性，一个实用指南

探索世界的奇妙角落，冷知识题及答案

江苏疫情速递，27日动态全掌握

经验主义学派的主要观点，从历史到现代的哲学探索

深圳 爬虫 应届生(python爬虫怎么获取动态的网页源码)

深圳爬虫应届生(python爬虫怎么获取动态的网页源码)