Реализация слова, в отличие от реализации фразы, не содержит кадров с паузами. Пусть даны две реализации слова:
X(0),...,X(i),...,X(m) и
Y(0),...,Y(j),...,Y(n) .
Первая реализация слова считается эталонной, вторая - новой.
Прежде чем сравнивать их между собой необходимо провести временную нормализацию, т.е. привести реализации слов к одинаковой длине. Линейное сжатие или растяжение одной реализации слова до величины другой не решает вопрос вследствие одного важного свойства речевого сигнала - неравномерности его протекания во времени. Это свойство речи выражается в трудно контролируемой зависимости времени образования и звучания ее элементов от контекста, темпа, диалектных и индивидуальных особенностей диктора. Поэтому сравнение должно опираться на нелинейную временную нормализацию.
Для этого находится деформирующая функция, применение которой минимизирует расхождение между эталонной и новой реализациями слов. Точнее находятся две функции:
ωX : {1,...,l} → {1,...,m}
ωY : {1,...,l} → {1,...,n}
( max{m,n}≤l<m+n )
такие, что
ωX(1)=1, ωY(1)=1, ωX(l)=m, ωY(l)=n,
ωX(i+1)=ωX(i) или ωX(i)+1 i=1,...,m-1
ωY(j+1)=ωY(j) или ωY(j)+1 j=1,...,n-1
и, кроме того, минимальна.
Здесь ρi,j=(SX(i)-SY(j))2, где SX(i), SY(j) - значения сегментирующей функции из соответствующих контуров.Сегментирующая функция должна характеризовать суммарное изменение используемых ею параметров речевого сигнала и зависит от двух кадров: текущего и предыдущего. В качестве параметров речевого сигнала мы будем использовать распределение энергии сигнала по частотным группам. Опишем процедуру нахождения контура сегментирующей функции
Δk(i)=| pki-pki-1 | ; i =1,...,m; k =1,...,20;
; k =1,...,20;
; i =1,...,m; k =1,...,20;
; i =1,...,m.
Аналогично находится контур сегментирующей функции
Процедура нахождения деформирующих функций ωX, ωY реализуется методом динамического программирования и дает возможность произвести внутреннее нелинейное выравнивание реализаций слов по времени.
Сначала строится матрица расстояний
Матрица D в свою очередь используется для нахождения функций
Зная деформирующие функции ωX , ωY мы можем для любого участка эталонной реализации слова найти соответствующий ему участок новой реализации. Применим это для разделения новой реализации слова на звуковые диады. Звуковая диада - переходный процесс от фонемы к фонеме, отображающий перестройку артикуляционного аппарата. В отличие от реализаций фонемы, реализации звуковой диады значительно меньше подвержены влиянию контекста и отражают взаимосвязь соседних фонем речевого потока. Границами диад являются центры квазистационарных участков фонем. Таким образом, диада состоит из второй половины первой фонемы и первой половины второй фонемы.
Эталонная реализация слова делится на звуковые диады вручную: отмечаются номера