×

爬虫

Python爬虫——XPath解析本地html文件

梅兰(信达图文广告18246481123) 梅兰(信达图文广告18246481123) 发表于2024-06-30 浏览6020 评论0
Python爬虫——XPath解析本地html文件 1、XPath 简介 XPath:XML路径语言(XML Path Language),XPath作用是确定XML文档中某部分的位置,同时它也可以用于检索 HTML 文件。在使用爬虫过程中可以用 XPath 来爬取网页中想要的数据。 Xpath 可以理解为在 XML/HTML 文档中对元素和属性进行遍历的工具。 Xpath 使用简洁的路径表达式来匹配 XML/HTML 文档中的节点或者节点集,通过定位网页中的节点,从而找到我们需要的

爬虫

用python爬取去哪儿游记攻略为十月假期做准备。。。爬虫之路,永无止境!

窜天猴 窜天猴 发表于2024-06-25 浏览11325 评论0
用python爬取去哪儿游记攻略为十月假期做准备。。。爬虫之路,永无止境! 热热闹闹的开学季又来了,小伙伴们又可以在一起玩耍了,不对是在一起学习了,哈哈。再过几周就是国庆假期,想想还是很激动的,我决定给大家做个游记爬虫,大家早做准备。。嘿嘿 代码操作展示: 今天目标地址:https://travel.qunar.com/place/开发环境: windows10 python3.6开发工具: pycharm库: tkinter、re、os、lxml、threading、xlwt、x

爬虫

聊天尬死名场面,你遇到过吗?教你一键获取斗图表情包,晋升聊天达人

来客神灯 来客神灯 发表于2024-06-21 浏览178818 评论0
大家好呀,我是辣条。 写这篇文章的灵感来源于之前和朋友的聊天,真的无力吐槽了,想发适合的表情包怼回去却发现收藏的表情包就那几个,就想着是不是可以爬取一些表情包,再也不用尬聊了。 先给大家看看我遇到的聊天最尬的场面: 抓取目标 网站:斗图吧 工具使用 开发环境:win10、python3.7 开发工具:pycharm、Chrome 工具包:requests、etree 重点内容学习 1.Q队列储存数据信息 2.py多线程使用方法 3.xpath语法学习 项目思

爬虫

Python爬虫初级(4):lxml.etree解析网页

觉着 觉着 发表于2024-06-14 浏览8703 评论0
专栏《Python爬虫初级》 1、概念 etree为Python的lxml库下的一个包,lxml.etree提供了原ElementTree API定义的接口,以及一些简单的enhancements。 etree可对HTML元素进行类似BeautifulSoup的查找,不过主要是基于XPath路径,而BeautifulSoup主要基于Selector路径。 2、安装 安装lxml库(在第三章中已经提到过),完成后可从lxml中导入 pip install lxml etree