第一次装到tesserocr就累了╯︿╰,一开始根本不需要用装这么多 –2023.6.10 13:58:2

请求库的安装

requests安装

  • pip3 install requests
  • 用于发送 HTTP 请求和处理响应
  • 可以方便地进行 GET、POST 等请求,设置请求头、请求参数、处理响应结果等操作。
  • 验证安装:进入python 输入import requests,如无错误提示即成功

selenium安装

  • pip3 install selenium
  • 模拟用户在浏览器中的操作,包括点击、输入、提交表单等
  • 可以驱动真实的浏览器(如 Chrome、Firefox)来加载动态生成的网页内容,并提取或交互其中的数据。通常与浏览器驱动配合使用,如 ChromeDriver 和 GeckoDriver。
  • 验证安装:同上

ChromeDriver 安装

  • 浏览器驱动,用于控制 Chrome 浏览器的行为

  • 作用:让 selenium 可以控制和与指定的浏览器进行交互

  • https://sites.google.com/a/chromium.org/chromedriver –exe文件放入环境变量配置

  • GeckoDriver 安装 –适用于 Firefox

  • 验证安装:

    • 环境变量:终端输入chromedriver

    • 使用: 打开浏览器

      from selenium import webdriver
      browser = webdriver.Chrome()
    • 出现闪退计版本出现问题【但是我在其他代码上用又不会闪退🤔–待解决】

PhantomJS安装 【不维护了】

  • 无界面的浏览器

  • 在后台执行网页加载和操作,无需显示浏览器界面

  • http://phantomjs.org/download.html –放入环境变量配置

  • 验证安装

    • 环境变量:终端输入phantomjs

    • 使用

      from selenium import webdriver
      browser = webdriver.PhantomJS()
      browser.get('https://www.baidu.com')
      print(browser.current_url)
    • 报错显示module 'selenium.webdriver' has no attribute 'PhantomJS' –由于维护困难和性能问题,Selenium 社区决定不再支持 PhantomJS 驱动。

    • 推荐使用无头浏览器(如 Chrome 或 Firefox)的 Headless 模式替代。

      from selenium import webdriver
      from selenium.webdriver.chrome.options import Options

      # 创建 ChromeOptions 对象,并设置无界面模式
      chrome_options = Options()
      chrome_options.add_argument('--headless') # 启用无界面模式

      # 创建 Chrome WebDriver,将 ChromeOptions 作为参数传递
      browser = webdriver.Chrome(options=chrome_options)

      browser.get('https://www.baidu.com')
      print(browser.current_url)

      browser.quit() # 关闭浏览器

aiohttp的安装

  • pip3 install aiohttp + pip3 install cchardet aiodns
    • 字符编码检测库 cchardet
    • 加速 DNS 的解析库 aiodns
  • 基于异步请求的 HTTP 客户端/服务器框架,适用于高性能、高并发的网络请求场景
  • 在处理大规模异步请求时具有优势,可以加快网络爬虫的速度。
  • 验证安装:进入python输入import aiohttp,如无错误提示即成功

解析库的安装

lxml 的安装

  • pip3 install lxml
  • 支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高
  • 验证安装:进入python 输入import lxml,如无错误提示即成功

Beautiful Soup 的安装

  • pip3 install beautifulsoup4

  • HTML 或 XML 的解析库,我们可以用它来方便地从网页中提取数据。它拥有强大的 API 和多样的解析方式

  • 验证安装

    from bs4 import BeautifulSoup  
    soup = BeautifulSoup('<p>Hello</p>', 'lxml')
    print(soup.p.string)
    # 输出hello即成功

pyquery 的安装

  • pip3 install pyquery
  • 强大的网页解析工具,它提供了和 jQuery 类似的语法来解析 HTML 文档,支持 CSS 选择器
  • 验证安装:进入python输入import pyquery,如无错误提示即成功

tesserocr 的安装

数据库的安装

MySQL 的安装

MySQL安装配置教程(超级详细、保姆级)_mysql安装教程_SoloVersion的博客-CSDN博客

MongoDB 的安装

Redis 的安装

存储库的安装

PyMySQL 的安装

PyMongo 的安装

redis-py 的安装

RedisDump 的安装

Web 库的安装

Flask 的安装

Tornado 的安装

App 爬取相关库的安装

Charles 的安装

mitmproxy 的安装

Appium 的安装

爬虫框架的安装

pyspider 的安装

Scrapy 的安装

Scrapy-Splash 的安装

Scrapy-Redis 的安装

部署相关库的安装

Docker 的安装

Scrapyd 的安装

Scrapyd-Client 的安装

Scrapyd API 的安装

Scrapyrt 的安装

Gerapy 的安装