网络爬虫之Beautiful Soup + css selector

Beautiful Soup 是一个非常流行的 Python 库，用于解析 HTML 和 XML 文档并从中提取数据。它以简单易用著称，特别适合初学者和需要快速抓取网页数据的开发者。Beautiful Soup 提供了灵活的方式来搜索、遍历和修改 HTML/XML 文档的解析树，特别擅长处理结构不规范的网页内容。以下是对 Beautiful Soup 的详细介绍，包括其特点、安装方法、核心功能以及使用示例。

一、Beautiful Soup 的主要特点

简单易用的 API：

Beautiful Soup 提供了直观的接口，开发者可以通过标签名、CSS 选择器或属性来定位和提取网页元素。
即使不熟悉 HTML 或 XPath，也可以快速上手。

强大的解析能力：

支持多种解析器（如 html.parser、 lxml、 html5lib），可以处理格式不规范的 HTML。
lxml 解析器速度快且高效，html5lib 更擅长处理复杂或错误的 HTML。

灵活的搜索方法：

支持通过标签名、CSS 选择器（借助 select 方法）、正则表达式或自定义函数查找元素。
提供遍历 DOM 树的功能（如查找父节点、子节点、兄弟节点）。

与 HTTP 库集成：

Beautiful Soup 专注于解析 HTML/XML，通常与 requests 或其他 HTTP 客户端结合使用来获取网页内容。

跨平台和轻量：

轻量级库，安装简单，适用于小型项目或快速原型开发。
支持 Python 2 和 Python 3（推荐使用最新版本）。

局限性：

不直接支持动态网页（JavaScript 渲染的内容），需搭配 Selenium 或 requests-html。
对于大规模爬虫任务，性能不如 Scrapy。

二、安装 Beautiful Soup

安装 Beautiful Soup：

   pip install beautifulsoup4

推荐解析器：

lxml（推荐，速度快，需单独安装）：
bash pip install lxml
html5lib（处理复杂 HTML，较慢）：
bash pip install html5lib

搭配 HTTP 请求库：

通常与 requests 库一起使用来获取网页内容：
bash pip install requests

三、核心功能

解析 HTML/XML：

Beautiful Soup 将 HTML/XML 文档转换为解析树（BeautifulSoup 对象），可以像操作 Python 对象一样访问标签、属性和文本。
支持多种解析器：html.parser（Python 内置）、lxml（推荐）、html5lib。

查找元素：

find()：查找第一个匹配的元素。
find_all()：查找所有匹配的元素。
select()：使用 CSS 选择器查找元素。
支持通过标签名、属性、正则表达式或自定义函数查找。

提取数据：

提取标签的文本（.text 或 .get_text()）。
提取标签属性（如 href、class）。
支持嵌套标签的遍历。

遍历 DOM 树：

访问父节点（.parent）、子节点（.children）、兄弟节点（.next_sibling、.previous_sibling）。
支持递归搜索整个文档树。

修改文档：

可以修改标签内容、属性或结构（如添加/删除标签）。

四、使用示例

以下示例展示如何使用 Beautiful Soup 抓取和解析网页数据。假设我们要抓取一个简单的网页，提取公司名称和链接。以下是示例 HTML（为了演示，假设这是从网页获取的 HTML 片段）：

<html>
  <body>
    <h1>Company List</h1>
    <ul>
      <li><a href="/portfolio?company=apple" class="company">Apple</a><div class="location">Cupertino</div></li>
      <li><a href="/portfolio?company=google" class="company">Google</a><div class="location">Mountain View</div></li>
      <li><a href="/portfolio?company=deepmind" class="company">DeepMind</a><div class="location">London</div></li>
    </ul>
  </body>
</html>

示例 1：提取第一个公司的名称

from bs4 import BeautifulSoup
import requests

# 假设 HTML 已获取（这里直接使用字符串，实际中通过 requests 获取）
html_content = """
<html>
  <body>
    <h1>Company List</h1>
    <ul>
      <li><a href="/portfolio?company=apple" class="company">Apple</a><div class="location">Cupertino</div></li>
      <li><a href="/portfolio?company=google" class="company">Google</a><div class="location">Mountain View</div></li>
    </ul>
  </body>
</html>
"""

# 创建 BeautifulSoup 对象，使用 lxml 解析器
soup = BeautifulSoup(html_content, 'lxml')

# 查找第一个 <a> 标签的文本
company = soup.find('a').text
print(company)  # 输出: Apple

示例 2：提取所有公司名称和链接

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'lxml')

# 查找所有 class="company" 的 <a> 标签
companies = soup.find_all('a', class_='company')

# 提取名称和链接
for company in companies:
    name = company.text
    link = company['href']
    print(f"Company: {name}, Link: {link}")

输出：

Company: Apple, Link: /portfolio?company=apple
Company: Google, Link: /portfolio?company=google
Company: DeepMind, Link: /portfolio?company=deepmind

示例 3：使用 CSS 选择器提取公司所在地

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'lxml')

# 使用 CSS 选择器查找 class="location" 的 <div> 标签
locations = soup.select('div.location')

# 提取所有所在地
for loc in locations:
    print(loc.text)

输出：

Cupertino
Mountain View
London

示例 4：结合 requests 抓取真实网页

以下示例从一个真实网站（假设是 https://example.com）抓取标题和所有链接：

import requests
from bs4 import BeautifulSoup

# 发送 HTTP 请求
url = 'https://example.com'
response = requests.get(url)
response.raise_for_status()  # 确保请求成功

# 解析网页
soup = BeautifulSoup(response.text, 'lxml')

# 提取标题
title = soup.find('h1').text if soup.find('h1') else 'No title found'
print(f"Page Title: {title}")

# 提取所有 <a> 标签的链接
links = soup.find_all('a')
for link in links:
    href = link.get('href')  # 使用 .get() 避免属性不存在的错误
    if href:
        print(f"Link: {href}, Text: {link.text}")

输出（假设 example.com 的内容）：

Page Title: Example Domain
Link: https://www.iana.org/domains/example, Text: More information...

示例 5：处理嵌套标签和正则表达式

假设要提取所有 class 包含 “location” 的标签，并使用正则表达式匹配：

import re
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'lxml')

# 使用正则表达式查找 class 包含 "location" 的 <div>
locations = soup.find_all('div', class_=re.compile('location.*'))

for loc in locations:
    print(loc.text)

输出：

Cupertino
Mountain View
London

示例 6：遍历 DOM 树

提取每个公司名称旁边的所在地（通过兄弟节点）：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'lxml')

# 查找所有 <a> 标签
companies = soup.find_all('a', class_='company')

for company in companies:
    # 获取父节点 <li> 的下一个 <div> 兄弟节点
    location = company.find_parent('li').find('div', class_='location').text
    print(f"Company: {company.text}, Location: {location}")

输出：

Company: Apple, Location: Cupertino
Company: Google, Location: Mountain View
Company: DeepMind, Location: London

五、进阶功能

处理编码问题：

Beautiful Soup 自动检测编码，但如果网页编码复杂，可以手动指定：
python soup = BeautifulSoup(response.content, 'lxml', from_encoding='utf-8')

修改 HTML：

示例：将所有 <a> 标签的文本改为大写：
python for a in soup.find_all('a'): a.string = a.text.upper() print(soup.prettify()) # 输出修改后的 HTML

处理动态内容：

如果网页包含 JavaScript 渲染内容，需搭配 Selenium 或 requests-html 获取渲染后的 HTML，再用 Beautiful Soup 解析。

错误处理：

使用 .get() 获取属性以避免 KeyError：
python href = link.get('href', 'No href') # 如果 href 不存在，返回默认值

六、与 Bluemoss 的对比

相似点：
两者都用于静态网页抓取，适合初学者。
都支持从 HTML 提取结构化数据。
不同点：
模板化：Bluemoss 通过 Node 对象提供模板化抓取，适合快速定义结构化输出；Beautiful Soup 更灵活但需要手动组织数据。
选择器：Bluemoss 主要依赖 XPath，Beautiful Soup 支持标签名、CSS 选择器、正则表达式等多种方式。
功能范围：Beautiful Soup 不仅限于抓取，还支持修改和操作 DOM 树；Bluemoss 更专注于数据提取。
复杂性：Beautiful Soup 的 API 更通用，Bluemoss 的模板化设计更简洁但功能较窄。

七、适用场景

适合 Beautiful Soup 的场景：
小型或中等规模的网页抓取任务。
处理结构不规范的 HTML 文档。
需要灵活遍历 DOM 树或修改 HTML 的场景。
快速原型开发或学习网页抓取。
不适合的场景：
动态网页（需搭配 Selenium 或 requests-html）。
大规模分布式爬虫（推荐 Scrapy）。

八、注意事项

合法性：

抓取网页时需遵守目标网站的服务条款（robots.txt 和 Terms of Service）。
避免高频请求以免被封禁，建议使用 time.sleep() 或代理。

性能：

使用 lxml 解析器以获得最佳性能。
对于大型网页，find_all() 可能较慢，尽量使用精准的 CSS 选择器或标签定位。

错误处理：

检查 HTTP 请求状态（response.raise_for_status()）。
处理缺失标签或属性的情况，避免程序崩溃。

文档和资源：

官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/
PyPI：https://pypi.org/project/beautifulsoup4/
GitHub：https://github.com/waylan/beautifulsoup

九、总结

Beautiful Soup 是一个功能强大且易于上手的 Python 库，适合从静态网页中提取数据。它的灵活性和简单性使其成为网页抓取的首选工具之一，尤其适合初学者或小型项目。通过与 requests 等库结合，Beautiful Soup 可以处理各种网页抓取任务。如果需要处理动态内容或大规模爬虫，可以考虑搭配其他工具（如 Selenium 或 Scrapy）。

孙成新的个人博客

网络爬虫之Beautiful Soup + css selector

一、Beautiful Soup 的主要特点

二、安装 Beautiful Soup

三、核心功能

四、使用示例

示例 1：提取第一个公司的名称

示例 2：提取所有公司名称和链接

示例 3：使用 CSS 选择器提取公司所在地

示例 4：结合 requests 抓取真实网页

示例 5：处理嵌套标签和正则表达式

示例 6：遍历 DOM 树

五、进阶功能

六、与 Bluemoss 的对比

七、适用场景

八、注意事项

九、总结

发表回复取消回复

一、Beautiful Soup 的主要特点

二、安装 Beautiful Soup

三、核心功能

四、使用示例

示例 1：提取第一个公司的名称

示例 2：提取所有公司名称和链接

示例 3：使用 CSS 选择器提取公司所在地

示例 4：结合 requests 抓取真实网页

示例 5：处理嵌套标签和正则表达式

示例 6：遍历 DOM 树

五、进阶功能

六、与 Bluemoss 的对比

七、适用场景

八、注意事项

九、总结

发表回复 取消回复

发表回复取消回复