×

爬虫

Python爬虫实战-小说网站爬虫开发

xingqi xingqi 发表于2024-04-23 浏览6446 评论0
需求: 从http://www.kanunu8.com/book3/6879爬取《动物农场》所有章节的网址,再通过一个多线程爬虫将每一章的内容爬取下来。在本地创建一个“动物农场”文件夹,并将小说中的每一章分别保存到这个文件夹中。每一章保存为一个文件。 涉及到的知识点 1、requests爬虫网站内容 2、正则表达式提取内容 3、文件写入 4、多线程 插话:做这类需求,最好还是先自己想,自己实现,实现后再去看自己跟书上的有什么不一样。 单线程实现 #使用requests获取网页源代码

爬虫

爬取某家网二手房数据(详细教程)(爬取链家网二手房数据)

行者 行者 发表于2024-04-23 浏览7827 评论0
今天分享一篇爬虫教程,文章比较细致,适合刚上手的小白,老读者可以酌情加速阅读 文中涉及的代码已经测试过,可以正常跑通,文章案例的所有数据也已经成功爬取。 项目描述: 今天要分享的教程是爬取各大城市的二手房数据,实现这篇爬虫也可融汇贯通到其他相关项目。 项目实施: 1. 确定目标 我们的目标官网链接是:https://www.lianjia.com/ 对应的某个城市的二手房页面应该是:https://sz.lianjia.com/ershoufang/ JN 代表城市济

爬虫

python100例爬虫-微博评论(5) (python爬虫爬微博评论)

xinyu590 xinyu590 发表于2024-04-23 浏览4892 评论0
##今天是个“特殊”的日子## 今天是2022年04月25日,上证指数刷新了至2020年7月以来的历史新低。对于股民来说,抱怨肯定少不了。那么小编想看看他们都说了些啥。 1、目标网站 微博某博主号的文章 2、工具 a> sublime text b> python 解释器 3、网站分析 a> 找到评论对应的网址 Step1:打开源代码 发现没有任何与评论相关的信息。放弃这条路 Step2:登录网站 打开开发者工具,点击查看评论,观察Fetch/X

爬虫

案例:爬豆瓣电影Top250中的电影信息 (爬取豆瓣电影top250的信息)

xing138559 xing138559 发表于2024-04-23 浏览8007 评论0
案例:爬取豆瓣电影Top250中的电影信息 豆瓣电影Top250首页 分析请求地址 在豆瓣电影Top250首页的底部可以确定电影信息一共有10页内容,每页25个电影信息,如下图: 切换页面,可以看到浏览器的URL地址的规律如下: https://movie.douban.com/top250?start=25&filter= https://movie.douban.com/top250?start=50&filter= https://movie.do

爬虫

基于 Python 的全国空气质量监测与可视化分析平台

haibao haibao 发表于2024-04-23 浏览4727 评论0
温馨提示:文末有 CSDN 平台官方提供的学长 QQ 名片 :) 1. 项目背景         空气质量优劣程度与一个城市的综合竞争力密切相关,它直接影响到投资环境和居民健康,因此越来越受到政府和公众的关注。本项目利用网络爬虫从某空气质量监测网站抓取全国各大城市的历年空气污染数据(PM2.5,PM10,SO2,NO2,CO,O3),对全国各城市(空间维度)不同年度(时间维度)等维度进行空气污染物的统计分析,并利用 Echarts 进行可视化展示。 2. 功能组成       

爬虫

Python 异步库 asyncio、aiohttp

海滩长颈鹿 海滩长颈鹿 发表于2024-04-23 浏览4724 评论0
asyncio 版本支持 asyncio 模块在 Python3.4 时发布。 async 和 await 关键字最早在 Python3.5 中引入。 Python3.3 之前不支持。 关键概念 event_loop 事件循环:程序开启一个无限的循环,程序员会把一些函数(协程)注册到事件循环上。当满足事件发生的时候,调用相应的协程函数。 coroutine 协程:协程对象,指一个使用async关键字定义的函数,它的调用不会立即执行函数,而是会返回一个协程对象。协程对象需要

爬虫

淘宝抓包,直达函数内部request请求体和response响应体, 告别FD, Charles,SSL,justtrustme 等http代理,证书工具。

哇咔咔 哇咔咔 发表于2024-04-23 浏览5141 评论0
很多了tb抓包很头疼,用了各种抓包工具, fiddler,Charles ,sslkiller , httpcarny ..统统没戏! 淘宝对http代理检测太严重了, SSL证书也逃不过淘宝工程师们的法眼。。 今天通过反编译apk ,找到发包函数,直接hook 函数request 请求体和response响应体,直接获取相应数据,而且x-sgin ,x-mini-wua ,x-sget ... 等参数都在里面, 你要的都有! 直接看效果:     jadx-gui 对tb.apk

爬虫

Python练习-爬虫(附加爬取中国大学排名)(Python爬虫爬取中国大学排名)

独角兽 独角兽 发表于2024-04-23 浏览6800 评论0
Python与网页处理 Python 语言发展中有一个里程碑式的应用事件,即美国谷歌(GOOGLE)公司在搜索引擎后端采用Python 语言进行链接处理和开发,这是该语言发展成熟的重要标志。Python 语言的简洁性和脚本特点非常适合链接和网页处理。万维网(WWW)的快速发展带来了大量获取和提交网络信息的需求,这产生了“网络爬虫”等一系列应用。 Python 语言提供了很多类似的函数库,包括urllib、urllib2、urllib3、wget、scrapy、requests 等。对于爬取回

爬虫

使用scrapy框架爬虫实战 (Scrapy爬虫框架)

曾经天真︶﹋ 曾经天真︶﹋ 发表于2024-04-23 浏览4659 评论0
前言 Scrapy是一个爬虫框架,首先先进行安装scrapy,进入cmd,pip install scrapy。 创建爬虫项目 在cmd中输入scrapy startproject +项目名,进行创建一个爬虫项目 按照提示进入myzhifang文件夹,创建爬虫名称 cd myzhifang scrapy genspider zhifang zhifang.com 这样就创建好了爬虫名 框架简单介绍 scrapy.cfg :项目的配置文件 spiders文件夹:存储爬虫文

爬虫

【爬虫】Python使用动态IP,多线程,爬取uncomtrade的数据

梅菜扣肉 梅菜扣肉 发表于2024-04-23 浏览4767 评论0
        联合国贸易统计数据库UNCOMTRADE是国际海关组织汇总所有成员上报的各自进出口贸易情况的综合信息数据库,是进行国际贸易分析的必不可少的数据来源。联合国贸易统计数据库中提供国际海关组织的多种商品分类标准数据查询,包括HS2002、HS1996、HS1992、SITC1、SITC2、SITC3、SITC4等,覆盖250多个国家、五千种商品的6位码税号(国际海关组织4位码税号)的年度数据,最早可追溯至1962年,贸易数据记录总数超过10亿条。其官方提供了一种以网页协议获取数据

爬虫

python典型的爬虫案例:爬大学排名(亲测有效) (大学排名爬虫Python)

king king 发表于2024-04-23 浏览12226 评论0
前言: 之前在课本上和csdn看到了这个爬取大学排名的案例,但照着案例打出的程序一直报错,后来一步一步根据网上资料分析程序后,不断改错后,终于实现了这个程序的编写。 一、程序展示 import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status(