当前位置：首页 > C# > 正文

C#字符串模糊匹配实战指南（从零实现高精度文本相似度算法）

主机测评网
C#
2025-12-20
697

在实际开发中，我们经常会遇到用户输入错误、拼写偏差或数据格式不统一的问题。这时候，精确的字符串匹配（如 == 或 Equals()）就显得力不从心了。为了解决这类问题，C#模糊匹配 技术应运而生——它能判断两个字符串“有多像”，而不是“是否完全一样”。

C#字符串模糊匹配实战指南（从零实现高精度文本相似度算法） C#模糊匹配字符串相似度 C#字符串比较 Levenshtein距离第1张

什么是模糊匹配？

模糊匹配（Fuzzy Matching）是一种衡量两个字符串之间相似程度的技术。它广泛应用于：

搜索引擎的“你是不是要找...”功能
客户信息去重（如姓名、地址）
OCR识别后的文本校正
聊天机器人理解用户意图

在 C#字符串比较 中，最经典且实用的模糊匹配算法是 Levenshtein 距离（编辑距离）。

Levenshtein 距离原理

Levenshtein 距离 表示将一个字符串转换成另一个字符串所需的最少单字符编辑操作次数（插入、删除、替换）。例如：

"kitten" → "sitting"：需要3步（k→s, e→i, 插入g）
"C#模糊匹配" → "C#模胡匹配"：只需1步（糊→胡）

距离越小，字符串越相似。我们可以将其归一化为 0~1 的相似度分数，便于比较。

C# 实现 Levenshtein 距离算法

下面是一个完整的、适合初学者的 C# 模糊匹配实现：

using System;public static class FuzzyMatcher{    /// <summary>    /// 计算两个字符串之间的 Levenshtein 距离    /// </summary>    public static int LevenshteinDistance(string source, string target)    {        if (string.IsNullOrEmpty(source)) return string.IsNullOrEmpty(target) ? 0 : target.Length;        if (string.IsNullOrEmpty(target)) return source.Length;        int sourceLength = source.Length;        int targetLength = target.Length;        // 创建二维数组存储中间结果        int[,] matrix = new int[sourceLength + 1, targetLength + 1];        // 初始化第一行和第一列        for (int i = 0; i <= sourceLength; i++)            matrix[i, 0] = i;        for (int j = 0; j <= targetLength; j++)            matrix[0, j] = j;        // 动态规划填充矩阵        for (int i = 1; i <= sourceLength; i++)        {            for (int j = 1; j <= targetLength; j++)            {                int cost = (source[i - 1] == target[j - 1]) ? 0 : 1;                matrix[i, j] = Math.Min(                    Math.Min(matrix[i - 1, j] + 1,          // 删除                             matrix[i, j - 1] + 1),         // 插入                    matrix[i - 1, j - 1] + cost);           // 替换            }        }        return matrix[sourceLength, targetLength];    }    /// <summary>    /// 返回 0.0 ~ 1.0 的相似度分数（1.0 表示完全相同）    /// </summary>    public static double Similarity(string source, string target)    {        if (source == target) return 1.0;        if (string.IsNullOrEmpty(source) || string.IsNullOrEmpty(target)) return 0.0;        int distance = LevenshteinDistance(source, target);        int maxLength = Math.Max(source.Length, target.Length);        return 1.0 - (double)distance / maxLength;    }}

使用示例

现在，我们可以轻松比较任意两个字符串的相似度：

class Program{    static void Main()    {        string str1 = "C#模糊匹配";        string str2 = "C#模胡匹配";        double score = FuzzyMatcher.Similarity(str1, str2);        Console.WriteLine($"相似度: {score:P2}"); // 输出：相似度: 87.50%        // 判断是否“足够相似”        if (score > 0.8)        {            Console.WriteLine("这两个字符串很可能是同一个意思！");        }    }}