当前位置：首页 > Java > 正文

Java语言HTML解析完全指南（使用Jsoup轻松提取网页数据）

主机测评网
Java
2025-12-23
367

在当今互联网时代，Java HTML解析是开发网络爬虫、数据抓取工具或自动化测试脚本的重要技能。对于初学者来说，选择一个简单易用的HTML解析库至关重要。本文将带你从零开始，使用Jsoup——一个功能强大且语法简洁的HTML解析库，掌握如何在Java中高效地解析和操作HTML文档。

Java语言HTML解析完全指南（使用Jsoup轻松提取网页数据） Java HTML解析 Jsoup教程 HTML解析库 Java爬虫入门第1张

什么是Jsoup？

Jsoup是一个开源的Java库，专门用于处理真实世界的HTML。它提供了一套非常类似于jQuery的API，让你可以用CSS选择器轻松地查找和提取HTML元素、属性和文本内容。无论是解析本地HTML文件，还是从网络直接加载网页，Jsoup都能胜任。

第一步：添加Jsoup依赖

如果你使用Maven项目，在pom.xml中添加以下依赖：

<dependency>    <groupId>org.jsoup</groupId>    <artifactId>jsoup</artifactId>    <version>1.17.2</version></dependency>

如果你使用Gradle，则在build.gradle中添加：

implementation 'org.jsoup:jsoup:1.17.2'

第二步：解析HTML字符串

最简单的使用方式是从一个HTML字符串开始。下面是一个完整的示例：

import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;public class HtmlParserExample {    public static void main(String[] args) {        String html = "<html><head><title>示例页面</title></head>"                    + "<body><h2>欢迎来到我的网站</h2></body></html>";        // 解析HTML字符串        Document doc = Jsoup.parse(html);        // 获取标题        String title = doc.title();        System.out.println("页面标题: " + title);        // 获取h2标签的文本        Element h2 = doc.selectFirst("h2");        if (h2 != null) {            System.out.println("h2内容: " + h2.text());        }    }}

第三步：从URL加载并解析网页

Jsoup可以直接从网络加载网页，这对于Java爬虫入门非常有用：

import org.jsoup.Jsoup;import org.jsoup.nodes.Document;public class WebScraper {    public static void main(String[] args) {        try {            // 从URL加载网页            Document doc = Jsoup.connect("https://example.com")                                .userAgent("Mozilla/5.0")                                .timeout(5000)                                .get();            // 提取所有链接            doc.select("a[href]").forEach(link -> {                System.out.println("链接文本: " + link.text());                System.out.println("链接地址: " + link.attr("href"));            });        } catch (Exception e) {            e.printStackTrace();        }    }}