网络爬虫正则表达式概念:
从网页中解析需要的数据,除了采用beautifulsoup4 库的方法,也可以根据被查找字符串的特征,采用正则表达式的方法,得到符合条件的子字符串。
正则表达式库是python的标准库,使用时:import re,即可。
正则表达式(Regular Expression):称为规则表达式,又称为规则字符串,它通过一个字符序列来表示满足某种逻辑条件的字符串,主要用于字符串模式匹配或字符串匹配。一个正则表达式由字母、数字和一些特殊符号组成,特殊符号也称为元字符,在正则表达式中具有特殊的含义,可以用来匹配一个或若干个满足某种条件的字符,这些元字符才是构成正则表达式的关键要素。
正则表达式通过元字符的各种运用,可以表示丰富的匹配字符串。对程序员来说,如果需要从源字符串中得到需要的子字符串(也称结果字符串),首先要分析子字符串在源字符串中的规律,根据规律去描述正则表达式。