首页 语言 小心使用!从入门到精通,一文带你学会Python面向监狱爬虫

小心使用!从入门到精通,一文带你学会Python面向监狱爬虫

API (应用程序接口)是为了以标准的方式在不同的系统之间交换数据。但是,大多数时候,网站所有者并不提供任何 API。在这种情况下,我们只能使用 web 抓取提取数据了。

基本上,每个 web 页面都以 HTML 格式从服务器返回,这意味着我们的实际数据被很好地包装在 HTML 元素中。这使得检索特定数据的整个过程非常简单和直接。

本教程将是一个自始至终的指南,让你可以尽可能简单的使用 Python学习爬虫。首先,我将向你介绍一些基本的示例,让你熟悉 web 抓取。稍后,我们将使用这些知识从 Livescore.cz 中提取足球比赛的数据。

开始

为了让我们开始,你需要启动一个新的 Python3 项目,并安装 Scrapy (一个用于 Python 的 web 爬虫库)。我在本教程中使用了 pipenv,但是你也可以使用 pip 和 venv,或 conda。

pipenv install scrapy # Pipenv 安装 scrap 

现在,你已经有了 Scrapy,但是你仍然需要创建一个新的 web 抓取项目,为此 Scrapy 提供了一个命令行,可以为我们完成这项工作。

现在,让我们使用 scrapy clii 创建一个名为 web _ scraper 的新项目。

如果你像我一样使用 pipenv,请使用:

pipenv run scrapy startproject web_scraper 

或者在你自己的虚拟环境中,使用:

scrapy startproject web_scraper 

这将在工作目录中创建一个基本项目,其结构如下:

关于作者: dawei

【声明】:乐山站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

热门文章