×

爬虫

python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件)

凡间教主 凡间教主 发表于2024-03-31 浏览4460 评论0
python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件) requests是一个Python第三方库,用于向URL地址发起请求 bs4 全名 BeautifulSoup4,是编写 python 爬虫常用库之一,主要用来解析 html 标签。 一、爬虫编写过程解析 1.1 导入库文件(请求库、解析库) #导入 requests请求库 import requests #导入bs4解析库 from bs4 import BeautifulSoup

爬虫

【笔记】Python爬虫|网页数据异步加载(结合Selenium完成)(python爬取异步加载的网页)

依然 依然 发表于2024-03-31 浏览5600 评论0
问题描述 一些网站会有很多的重定向,才能跳转到真实的资源页。然后爬虫就会报错:requests.exceptions.TooManyRedirects: Exceeded 30 redirects. 这种情况,可以直接关掉重定向,判断响应状态是301或302然后手动重定向。 参考:Python Requests:TooManyRedirects问题解决。 在手动重定向后,我又遇到了异步加载的问题。 爬取得到的页面只有“加载中”,没有实际内容。 出问题的网页是:常用来爬虫的某网站。

restful

3、requests之不同类型的传参

yufeasd yufeasd 发表于2024-03-28 浏览6635 评论0
上一篇,我们介绍了几种种带参数的请求类型划分。这篇,通过github上的API,来一个个的参数接口的演示。 1、不带参数的get请求 # 导入requests包 import requests # 1. 组装请求 url = "https://api.github.com" # 这里只有url,字符串格式 # 2. 发送请求,获取响应 res = requests.get(url) # res即返回的响应对象 # 3. 解析响应 print(res.json) # 输出响应的文本