当前位置：首页 > C# > 正文

C#实现编辑距离（Levenshtein）算法详解（小白也能轻松掌握的字符串相似度计算方法）

主机测评网
C#
2025-12-19
806

在文本处理、拼写检查、DNA序列比对、自然语言处理等领域，我们经常需要衡量两个字符串之间的“相似程度”。这时，C#编辑距离算法就派上用场了。本文将手把手教你理解并实现经典的Levenshtein距离算法，即使你是编程新手，也能轻松掌握！

什么是编辑距离（Levenshtein Distance）？

编辑距离，又称Levenshtein距离，是由俄国科学家Vladimir Levenshtein在1965年提出的。它定义为：将一个字符串转换成另一个字符串所需的最少单字符编辑操作次数。允许的操作包括：

插入一个字符
删除一个字符
替换一个字符

C#实现编辑距离（Levenshtein）算法详解（小白也能轻松掌握的字符串相似度计算方法） C#编辑距离算法 Levenshtein距离 C#字符串比较动态规划算法第1张

举个例子

比如，字符串 "kitten" 和 "sitting" 的编辑距离是 3，因为可以通过以下三步完成转换：

kitten → sitten（替换 k 为 s）
sitten → sittin（替换 e 为 i）
sittin → sitting（在末尾插入 g）

C#实现Levenshtein距离算法

我们可以使用动态规划来高效地计算两个字符串之间的编辑距离。核心思想是构建一个二维数组 dp[i, j]，表示将字符串 str1 的前 i 个字符转换为 str2 的前 j 个字符所需的最小操作数。

算法步骤：

初始化一个 (m+1) × (n+1) 的二维数组，其中 m 和 n 分别是两个字符串的长度。
第一行和第一列分别表示空字符串到目标字符串所需的操作数（即插入或删除全部字符）。
遍历两个字符串，根据字符是否相等，决定当前单元格的值：
- 如果相等：取左上角的值（无需操作）
- 如果不等：取左、上、左上三个方向的最小值 + 1（对应插入、删除、替换）
右下角的值即为最终的编辑距离。

C#代码实现：

public static int LevenshteinDistance(string str1, string str2){    if (string.IsNullOrEmpty(str1))        return str2?.Length ?? 0;        if (string.IsNullOrEmpty(str2))        return str1.Length;    int m = str1.Length;    int n = str2.Length;        // 创建二维数组 dp    int[,] dp = new int[m + 1, n + 1];    // 初始化第一列：str1 转为空字符串需删除所有字符    for (int i = 0; i <= m; i++)        dp[i, 0] = i;    // 初始化第一行：空字符串转为 str2 需插入所有字符    for (int j = 0; j <= n; j++)        dp[0, j] = j;    // 填充 dp 表    for (int i = 1; i <= m; i++)    {        for (int j = 1; j <= n; j++)        {            if (str1[i - 1] == str2[j - 1])            {                // 字符相同，无需操作                dp[i, j] = dp[i - 1, j - 1];            }            else            {                // 取三种操作的最小值 + 1                dp[i, j] = Math.Min(                    Math.Min(dp[i - 1, j] + 1,     // 删除                             dp[i, j - 1] + 1),   // 插入                    dp[i - 1, j - 1] + 1); // 替换            }        }    }    return dp[m, n];}

如何使用这个函数？

你可以在你的 C# 项目中直接调用这个静态方法。例如：

class Program{    static void Main()    {        string word1 = "kitten";        string word2 = "sitting";                int distance = LevenshteinDistance(word1, word2);        Console.WriteLine($"\"{word1}\" 和 \"{word2}\" 的编辑距离是: {distance}");        // 输出: "kitten" 和 "sitting" 的编辑距离是: 3    }}