Oct 08, 2022
python1
python
Python IDE
visual studio code(VsCode)
PyCharm
IDLE(Shell)
Python 爬虫相关积累
urllib(python3,urllib进行了统一)
- Request(请求):构造代理
- Parse(解析)
BeautifulSoup
- BeautifulSoup(解析网页),操控标签
- 网页解析误区:(Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.)
re
方法 介绍 Compile compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象 Sub 用pattern的匹配项替换字符串中的指定字符 Match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none Finall 在字符串中找到正则表达式所匹配的所有子串,并返回一个列表 Split 用pattern匹配的串分割字符串,返回列表 Search 扫描整个字符串并返回第一个成功的匹配 file(文件操作)[^3]
方法 介绍 Open 打开一个文件,并返回文件对象 Read 从文件读取指定的字节数,如果未给定或为负则读取所有 Write 将字符串写入文件,返回的是写入的字符长度 Close 关闭文件对象
参考网站:菜鸟教程
Selenium
webdriver(模拟浏览器):可抓取动态页面;在连续加载web页面时,应设置加载等待(显示等待WebDriverWait,,隐式等待implicitly_wait,强制等待(sleep)),否则在进行页面内容获取操作时,会得不到相关内容
xlwt
- Workbook(构造xls对象):创建workbook、
- Add_sheet
- Write,read
Ajax( Asynchronous JavaScript and XML)在不重新加载整个页面的情况下,可以与服务器交换数据并更新部分网页内容
多行语句的写法
1::每行以\结尾,\为续行符 2:(),[], {}中无需使用\ 3:多行字符串(使用3引号或3双引号):""" """, ''' ''',也可作为多行注释
Lxml(css选择器 )
操作 方法 选择所有标签 * 选择标签 a 选择所有class=”link”的元素 .link 选择class=”link”的标签 a.link 选择id=”home”的标签 a#home 选择父元素为标签的所有标签 a > span 选择标签内部所有 a span 选择title属性为“home”的所有标签 a[titile=Home]
参考网址官网教程
数据库
mysql
- python3可使用:pymysql
- sql语句的参数传递时,参数在字符串以外,理念同于C(printf(“%s %d % f”,string, int, float))
- Mysql语句中的占位符均为%s,
- Mysql的端口号为3306
- (Unknown column ‘xxxx’ in ‘field list’”)解决方法:在MySQL中,不论是更新还是插入一个字符,得用‘str’,而不是直接str,即获取字符串接收的方式是’str‘