×

爬虫

python 正则表达式 re 爬取网页及分析总结

若客 若客 发表于2024-04-20 浏览6236 评论0
来源于此为了方便自己查找,进行了简化与整理。 本文涉及内容如下: 获取< tr>< /tr>标签之间内容 获取< a href…>< /a>超链接之间内容 获取URL最后一个参数命名图片或传递参数 爬取网页中所有URL链接 爬取网页标题title两种方法 定位table位置并爬取属性-属性值 过滤< span>< /span>等标签 获取< script>< /script>等标签内容 通过re

scala

Scala之正则表达式(scala之正则表达式匹配)

漂泊 漂泊 发表于2024-04-20 浏览4850 评论0
概述 所谓的正则表达式指的是 正确的, 符合特定规则的式子 , 它是一门独立的语言, 并且能被兼容到绝大多数的编程语言 中. 在scala中, 可以很方便地使用正则表达式来匹配数据。具体如下: Scala中提供了 Regex类 来定义正则表达式. 要构造一个Regex对象,直接使用 String类的r方法 即可. 建议使用三个双引号来表示正则表达式,不然就得对正则中的反斜杠进行转义. 格式 val 正则对象名 = """具体的正则表达式""".r 具体的正则表达式组成:

正则表达式

【正则表达式】字符串模式匹配,提高开发效率(正则表达式 字符串匹配)

20688 20688 发表于2024-04-20 浏览7229 评论0
前言 今天我们来学习正则表达式,正则表达式的应用十分广泛,几乎每个涉及到交互的项目都会用到的,学会正则表达式之后会让你除了提高效率外,会给你带来绝对的成就感。 接下来我们正式开始! 什么是正则表达式 正则表达式是检查、匹配字符串的表达式 正则表达式用来描述某种规则,同时它不是某种语言专有的技术,它对主流的语言都有良好的支持。 正则表达式的主要使用场景是:字符串检验,查找与替换。 示例:检查输入身份证号是否合法的正则表达式 正则表达式:(^\d{18}$)|(^\

正则表达式

Linux中grep详解(linux中的grep)

小调 小调 发表于2024-04-20 浏览46884 评论0
一、grep基本介绍 全拼:Global search REgular expression and Print out the line. 作用:文本搜索工具,根据用户指定的“模式(过滤条件)”对目标文本逐行进行匹配检查,打印匹配到的行. 模式:由正则表达式的元字符及文本字符所编写出的过滤条件﹔ grep命令是Linux系统中最重要的命令之一,功能是从文本文件或管道数据流中筛选匹配的行和数据,如果再配合正则表达式,功能十分强大,是Linux运维人员必备的命令 grep命令里的匹配模

正则表达式

Python正则表达式(一看就懂)

aloha aloha 发表于2024-04-20 浏览53498 评论0
目录 哈喽O(∩_∩)O😄 什么是正则表达式(⊙_⊙) 简单说,正则表达式是… 正则表达式怎么用❓ sreach的用法🍊 匹配连续的多个数值🍉  字符"+"重复前面一个匹配字符一次或者多次🍉 字符"*"重复前面一个匹配字符零次或者多次🍉 字符"?"重复前面一个匹配字符零次或者一次🍉 特殊字符使用反斜杠"“引导,例如”\r"、"\n"、"\t"、"\"分别表示回车、换行、制表符号与反斜线自己本身 ​  完整表🔍  match用法🤔 match用法😃  match对

正则表达式

Python提取PDF发票信息保存Excel文件并制作EXE程序

xiaoyao xiaoyao 发表于2024-04-20 浏览5303 评论0
前言 通过本篇文章可学习pdf发票信息的提取,内容保存至Excel,了解命令图像工具Gooey,以及如何将python文件打包为exe程序 背景 现在电子发票越来越普遍,各公司开票形式已基本无纸化。目前所在公司的情况是,每个人自己报账,需要将发票信息(发票号/金额)填如K3系统进行流程申请,另外将电子发票打印为纸质并贴票后找领导签字及审批K3的流程;之后在将纸质单据送至财务审批。如果财务发现数据填写不正确,就会将流程和单据打回来,又要重新找领导签字审批,相当麻烦。 分析 为了减少

正则表达式

正则表达式匹配中文(正则表达式匹配中文汉字)

leofree leofree 发表于2024-04-19 浏览7041 评论0
匹配中文字符的正则表达式[u4e00-u9fa5] 匹配双字节字符(中文也是双字节的字符)[^x00-xff] 英文字母[a-zA-Z] 数字[0-9] 匹配中文,英文字母和数字及_^[u4e00-u9fa5_a-zA-Z0-9]+$ 同时判断输入长度[u4e00-u9fa5_a-zA-Z0-9_]{4,10} ^[wu4E00-u9FA5uF900-uFA2D]*$ 一个正则表达式,只含有汉字、数字、字母、下划线不能以下划线开头和结尾^(?!_)(?!.*?