scrapy讲解

scrapy是python的一个爬虫框架,本质就是封装好了很多处理的功能,比如网页解析、数据存储等。当然使用时还是要懂一定的爬虫知识,懒猫没事看到喜欢的也会使用,这一篇就是懒猫的复习一遍教学之旅。

接下来具体介绍下:

Scrapy是一个用Python编写的高级Web爬虫框架,旨在帮助开发人员快速、高效地从网站上提取结构化数据。

Scrapy提供了一组功能强大的工具和库,包括HTTP请求处理、数据提取、数据存储和导出等,可以轻松地提取各种类型的数据,并将其保存到CSV文件、JSON文件或数据库中。

Scrapy采用异步网络框架Twisted来处理请求和响应,并提供了多线程和分布式处理能力,具有很高的性能和可扩展性。它还支持自定义中间件和扩展,方便用户根据自己的需求对其进行定制和扩展。

安装scrapy

安装Scrapy之前,需要确保你已经安装了Python(必须3.7以上版本吧)和pip包管理工具。

使用pycharm安装

  1. 首页要安装pycharm下载安装,激活工具可以查看下方(也可以不是使用,有7天使用是免费),创建运行文件的目录即可。

  2. 点击左上角 pycharm->settings 会出现弹窗,在点击弹窗内项目:python->python解释器 (懒猫这边是mac截图,如果是windows,也是在设置中)

  • 点击添加解释器,然后选择之前下载好的且安装好的python该项目目录文件都会被默认改版本执行python版本(这边懒猫用的是3.7主要用习惯了)
  • 图片内解释器下方有个+号,

按照以下步骤安装Scrapy:

指令安装

按照以下步骤安装Scrapy:

  1. 打开命令行终端(Windows系统下为“命令提示符”或“PowerShell”,Mac或Linux系统下为“终端”);

  2. 输入以下命令来使用pip安装Scrapy:

1
pip install scrapy

如果遇到权限问题,则需要以管理员身份运行命令行终端或使用sudo命令。

  1. 安装完成后,可以通过输入以下命令来验证Scrapy是否成功安装:
1
scrapy version

如果成功安装,将会显示Scrapy版本号。

注意:在某些操作系统中,安装Scrapy可能还需要安装一些其他的依赖包,比如libffi、zlib等,具体情况可以参考Scrapy官方文档。