词条 | 编辑距离 |
释义 | 编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。 例如将kitten一字转成sitting: sitten (k→s) sittin (e→i) sitting (→g) 俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。 应用DNA分析 拼字检查 语音辨识 抄袭侦测 算法动态规划经常被用来作为这个问题的解决手段之一。 整数 Levenshtein距离(字符串 str1[1..m], 字符串 str2[1..n]) //声明变量, d[i , j]用于记录str1[1...i]与str2[1..j]的Levenshtein距离 int d[0..m, 0..n] //初始化 for i from 0 to m d[i, 0] := i for j from 0 to n d[0, j] := j //用动态规划方法计算Levenshtein距离 for i from 1 to m for j from 1 to n { //计算替换操作的代价,如果两个字符相同,则替换操作代价为0,否则为1 if str1[i]== str2[j] then cost := 0 else cost := 1 //d[i,j]的Levenshtein距离,可以有 d[i, j] := minimum( d[i-1, j] + 1, //在str2上j位置删除字符(或者在str1上i-1位置插入字符) d[i, j-1] + 1, //在str2上j-1位置插入字符(或者在str1上i位置删除字符) d[i-1, j-1] + cost // 替换操作 ) } //返回d[m, n] return d[m, n] wikisource上有不同的编程语言的版本。 pascal代码procedure levenshtein; var st1,st2:string; d:array[0..1000000] of integer; i,j,m,n,cost:integer; begin m:=length(st1); n:=length(st2); for i:=0 to m do d[i,0]:=i; for j:= 0 to n do d[0,j]:=j; for i:= 1 to m do for j:= 1 to n do begin if st1[i]=st2[j] then cost:=0 else cost:=1; if cost=0 then begin if (d[i-1,j]<d[i,j-1]) and (d[i-1,j]+1<d[i-1,j-1]+cost) then d[i,j]:=d[i-1,j]+1 else if d[i,j-1]+1< d[i-1,j-1]+cost then d[i,j]:=d[i,j-1]+1 else d[i,j]:=d[i-1,j-1]+cost; end; end; |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。