Hongbo

Oct 08, 2022

python1

python

Python IDE

  • visual studio code(VsCode)

  • PyCharm

  • IDLE(Shell)

Python 爬虫相关积累

  • urllib(python3,urllib进行了统一)

    • Request(请求):构造代理
    • Parse(解析)
  • BeautifulSoup

  • re

    方法 介绍
    Compile compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象
    Sub 用pattern的匹配项替换字符串中的指定字符
    Match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none
    Finall 在字符串中找到正则表达式所匹配的所有子串,并返回一个列表
    Split 用pattern匹配的串分割字符串,返回列表
    Search 扫描整个字符串并返回第一个成功的匹配

    参考网站:正则表达式基础 菜鸟教程

  • file(文件操作)[^3]

    方法 介绍
    Open 打开一个文件,并返回文件对象
    Read 从文件读取指定的字节数,如果未给定或为负则读取所有
    Write 将字符串写入文件,返回的是写入的字符长度
    Close 关闭文件对象

参考网站:菜鸟教程

  • Selenium

    webdriver(模拟浏览器):可抓取动态页面;在连续加载web页面时,应设置加载等待(显示等待WebDriverWait,,隐式等待implicitly_wait,强制等待(sleep)),否则在进行页面内容获取操作时,会得不到相关内容

    参考网站:官方教程 CSDN教程

  • xlwt

    • Workbook(构造xls对象):创建workbook、
    • Add_sheet
    • Write,read
  • Ajax( Asynchronous JavaScript and XML)在不重新加载整个页面的情况下,可以与服务器交换数据并更新部分网页内容

  • aspx:aspx文件是微软的在服务器端运行的动态网页文件,而不像静态的html文件。

  • 多行语句的写法

     1::每行以\结尾,\为续行符
     2:(),[], {}中无需使用\
     3:多行字符串(使用3引号或3双引号):""" """, ''' ''',也可作为多行注释
    
  • Lxml(css选择器 )

    操作 方法
    选择所有标签 *
    选择标签 a
    选择所有class=”link”的元素 .link
    选择class=”link”的标签 a.link
    选择id=”home”的标签 a#home
    选择父元素为标签的所有标签 a > span
    选择标签内部所有 a span
    选择title属性为“home”的所有标签 a[titile=Home]

​ 参考网址官网教程

数据库

  • mysql

    1. python3可使用:pymysql
    2. sql语句的参数传递时,参数在字符串以外,理念同于C(printf(“%s %d % f”,string, int, float))
    3. Mysql语句中的占位符均为%s,
    4. Mysql的端口号为3306
    5. (Unknown column ‘xxxx’ in ‘field list’”)解决方法:在MySQL中,不论是更新还是插入一个字符,得用‘str’,而不是直接str,即获取字符串接收的方式是’str‘
OLDER > < NEWER