1. 개요
사운덱스 또는 Soundex는 유사한 발음을 가진 미국인의 이름을 검색하기 위해 색인화 하는 음성 알고리즘이다. 20세기 초 미국의 로버트 C. 러셀과 마거렛 킹 오델이 개발하였다.사운덱스는 1글자의 알파벳과 3자리의 숫자로 구성되어 있으며, 사소한 철자의 차이가 있더라도 비슷하게 발음되는 이름들을 컴퓨터의 도움 없이 비교적 손쉽게 검색할 수 있어 20세기 미국 인구조사에서 널리 활용되었다.
2. 변환 과정
- 먼저 이름의 첫 글자를 제외한 나머지 글자에서 모든 모음과 h, w, y를 삭제한다.
-
첫 글자는 그대로 두고 나머지 철자는 발음이 유사한 자음끼리 분류된 다음 규칙에 따라 코드를 부여한다.
알파벳 코드
B, F, P, V 1
C, G, J, K, Q, S, X, Z 2
D, T 3
L 4
M, N 5
R 6 - 동일한 코드가 연속으로 두 번 이상 반복된다면 첫 번째 코드만 남기고 삭제한다. 단, 동일한 코드 사이에 생략된 모음이 있는 경우에는 삭제하지 않는다. 예를 들어 Merrinz 라는 이름을 위의 과정까지 진행하면 M6652 라는 코드가 만들어졌을 것이다. 이 때 6이 연속으로 두 번 반복되므로 앞의 6만 남기고 뒤의 6은 삭제하여 M652로 바꾸는 것이다. 하지만 Shimamoto와 같은 경우 S553으로 코드화가 되었을텐데 이때 앞의 5(m)와 뒤의 5(m) 사이에는 생략된 모음 a가 있기 때문에 이 경우에는 5가 연속으로 반복되어도 삭제하지 않는다.
- 위의 과정으로 만들어진 코드의 숫자 부분이 3자리를 초과하면 앞의 세 자리만 남기고 뒷자리 숫자는 삭제한다. 3자리보다 짧으면 뒷자리에 0을 추가하여 세 자리로 만든다.