当前位置：首页 > Java > 正文

Java语言词法分析入门教程（从零开始理解Java编译第一步）

主机测评网
Java
2025-12-14
720

在学习 Java编程基础 的过程中，你是否好奇过：我们写的代码是如何被计算机理解的？其实，这一切都始于一个关键步骤——词法分析。本文将带你深入浅出地了解 Java词法分析 的基本原理、作用和实现方式，即使你是编程小白，也能轻松掌握！

Java语言词法分析入门教程（从零开始理解Java编译第一步） Java词法分析 Java编译原理 Java语法解析 Java编程基础第1张

什么是词法分析？

词法分析（Lexical Analysis）是编译过程的第一步。它的任务是将源代码（一串字符）转换成一系列有意义的“词”（称为记号或Token）。这些 Token 是后续语法分析的基础。

举个例子，对于如下 Java 代码：

int age = 25;

词法分析器会将其拆分为以下 Token 序列：

int → 关键字（Keyword）
age → 标识符（Identifier）
= → 赋值运算符（Operator）
25 → 整型字面量（Integer Literal）
; → 分号（Delimiter）

Java 中常见的 Token 类型

在 Java编译原理 中，词法分析器需要识别以下几类基本 Token：

关键字：如 public、class、if、while 等；
标识符：变量名、方法名、类名等，如 userName、calculateSum；
字面量：包括整数（42）、浮点数（3.14）、字符串（"Hello"）等；
运算符：如 +、-、*、/、== 等；
分隔符：如 ( ) { } [ ] ; , . 等；
注释：单行注释 // ... 和多行注释 /* ... */，通常会被词法分析器忽略。

手动实现一个简易词法分析器

为了帮助你理解 Java语法解析 的底层逻辑，我们用 Java 编写一个极简的词法分析器原型。它能识别整数、标识符和部分符号。

import java.util.ArrayList;import java.util.List;class SimpleLexer {    private String input;    private int pos = 0;    public SimpleLexer(String input) {        this.input = input;    }    public List<String> tokenize() {        List<String> tokens = new ArrayList<>();        while (pos < input.length()) {            char ch = input.charAt(pos);            if (Character.isWhitespace(ch)) {                pos++;                continue;            }            if (Character.isLetter(ch)) {                StringBuilder sb = new StringBuilder();                while (pos < input.length() &&                        (Character.isLetterOrDigit(input.charAt(pos)))) {                    sb.append(input.charAt(pos));                    pos++;                }                tokens.add("ID:" + sb.toString());            } else if (Character.isDigit(ch)) {                StringBuilder sb = new StringBuilder();                while (pos < input.length() && Character.isDigit(input.charAt(pos))) {                    sb.append(input.charAt(pos));                    pos++;                }                tokens.add("NUM:" + sb.toString());            } else if (ch == '=' || ch == '+' || ch == ';' || ch == '(' || ch == ')') {                tokens.add("SYM:" + ch);                pos++;            } else {                // 忽略其他字符（简化处理）                pos++;            }        }        return tokens;    }    public static void main(String[] args) {        String code = "int x = 100;";        SimpleLexer lexer = new SimpleLexer(code);        System.out.println(lexer.tokenize());        // 输出: [ID:int, ID:x, SYM:=, NUM:100, SYM:;]    }}

虽然这个例子非常简化，但它展示了词法分析的核心思想：逐字符扫描、分类、生成 Token。真实的 Java 编译器（如 javac）使用更复杂的有限状态自动机（DFA）和正则表达式来高效完成这项工作。