网站首页 > 博客文章正文

python3的bs4模块的安装、介绍 python中bs4模块

baijin 2024-12-18 14:41:53 博客文章 13 ℃ 0 评论

1.bs4模块介绍

即：BeautifulSoup，就是一个python的第三方的库，使用之前需要安装。

用于爬虫。

使用：import bs4

2.bs4模块安装

方法一：

pip install bs4 #即可，我的有点慢，竟然掉线了

方法二：

换一种安装，也算学习到了。

2.1 去网站https://pypi.org/project/bs4/#files

2.2 下载bs4-0.0.1.tar.gz

图1

图2

2.2 放在/opt下

2.3 pip3.8 install /opt/bs4-0.0.1.tar.gz #第一次这样安装，还可以安装相关依赖，不错

图3

安装成功！记录一下下。

3.爬虫使用，相关语法：

3.1 bs4是什麽？

它的作用是能够快速方便简单的提取网页中指定的内容，给我一个网页字符串，

然后使用它的接口将网页字符串生成一个对象，然后通过这个对象的方法来提取数据。

3.2 lxml是什麽？

lxml是一个解析器，也是下面的xpath要用到的库，

bs4将网页字符串生成对象的时候需要用到解析器，就用lxml，或者使用官方自带的解析器 html.parser。

3.3 pip3.8 install lxml

图4

爬虫学得好，监狱进得早。

学习到此，请勿用于非法目的，纯技术。哈哈哈。