当前位置：首页 > C > 正文

手把手教你实现C语言词法分析器（从零开始构建编译器的第一步）

主机测评网
C
2025-12-15
457

在学习编译原理的过程中，C语言词法分析器是理解整个编译流程的起点。本文将带你从零开始，用通俗易懂的方式实现一个简单的词法分析器实现，即使你是编程小白也能轻松上手！

手把手教你实现C语言词法分析器（从零开始构建编译器的第一步） C语言词法分析器词法分析器实现 C语言编译器基础编程语言解析第1张

什么是词法分析器？

词法分析器（Lexer）是编译器的第一个阶段，它的任务是将源代码中的字符流转换成有意义的“词法单元”（Token）。例如，将 int a = 10; 拆分成：

int → 关键字（KEYWORD）
a → 标识符（IDENTIFIER）
= → 赋值运算符（ASSIGN）
10 → 整数常量（INTEGER_LITERAL）
; → 分号（SEMICOLON）

这是构建C语言编译器基础的关键一步，也是理解编程语言解析机制的核心。

设计思路

我们将实现一个简化版的C语言词法分析器，支持以下Token类型：

关键字：如 int, if, while 等
标识符：由字母、数字、下划线组成的变量名
整数常量
运算符：如 +, -, *, /, =
分隔符：如 (, ), {, }, ;

完整代码实现

下面是一个完整的C语言词法分析器示例，使用C语言编写：

#include <stdio.h>#include <stdlib.h>#include <string.h>#include <ctype.h>// 定义Token类型enum TokenType {    KEYWORD,    IDENTIFIER,    INTEGER_LITERAL,    OPERATOR,    SEPARATOR,    END_OF_FILE};// Token结构体struct Token {    enum TokenType type;    char* value;};// 关键字列表const char* keywords[] = {"int", "if", "else", "while", "return", NULL};// 判断是否为关键字int isKeyword(char* word) {    for (int i = 0; keywords[i] != NULL; i++) {        if (strcmp(word, keywords[i]) == 0)            return 1;    }    return 0;}// 获取下一个Tokenstruct Token getNextToken(FILE* file) {    struct Token token;    token.value = malloc(100);    int index = 0;    char ch;    // 跳过空白字符    while ((ch = fgetc(file)) != EOF && isspace(ch));    if (ch == EOF) {        token.type = END_OF_FILE;        token.value[0] = '\0';        return token;    }    // 处理标识符或关键字    if (isalpha(ch) || ch == '_') {        token.value[index++] = ch;        while ((ch = fgetc(file)) != EOF && (isalnum(ch) || ch == '_')) {            token.value[index++] = ch;        }        if (ch != EOF) ungetc(ch, file);        token.value[index] = '\0';        if (isKeyword(token.value)) {            token.type = KEYWORD;        } else {            token.type = IDENTIFIER;        }        return token;    }    // 处理整数    if (isdigit(ch)) {        token.value[index++] = ch;        while ((ch = fgetc(file)) != EOF && isdigit(ch)) {            token.value[index++] = ch;        }        if (ch != EOF) ungetc(ch, file);        token.value[index] = '\0';        token.type = INTEGER_LITERAL;        return token;    }    // 处理运算符    if (ch == '+' || ch == '-' || ch == '*' || ch == '/' || ch == '=') {        token.value[0] = ch;        token.value[1] = '\0';        token.type = OPERATOR;        return token;    }    // 处理分隔符    if (ch == '(' || ch == ')' || ch == '{' || ch == '}' || ch == ';') {        token.value[0] = ch;        token.value[1] = '\0';        token.type = SEPARATOR;        return token;    }    // 未知字符    token.value[0] = ch;    token.value[1] = '\0';    token.type = END_OF_FILE; // 可扩展为ERROR类型    return token;}// 主函数：测试词法分析器int main() {    FILE* file = fopen("test.c", "r");    if (!file) {        printf("无法打开文件 test.c\n");        return 1;    }    struct Token token;    do {        token = getNextToken(file);        if (token.type != END_OF_FILE) {            printf("Token: %-15s Type: %d\n", token.value, token.type);        }        free(token.value);    } while (token.type != END_OF_FILE);    fclose(file);    return 0;}

如何运行？

将上述代码保存为 lexer.c
创建一个测试文件 test.c，例如：
int main() { int a = 10; return 0; }
在终端中编译并运行：
gcc lexer.c -o lexer && ./lexer

你将看到类似如下的输出：

Token: int             Type: 0Token: main             Type: 1Token: (                Type: 4Token: )                Type: 4Token: {                Type: 4Token: int              Type: 0Token: a                Type: 1Token: =                Type: 3Token: 10               Type: 2Token: ;                Type: 4...