При распознавании речевых сигналов, как правило, оперируют не с исходным речевым сигналом, а с его параметрами, вычисленными на кадре. Длина кадра обычно выбирается такой, чтобы длительность кадра по времени
.
,
где .
Кадр определяет периодическую функцию с периодом 1, заданную на сетке из точек вида
fl=f(xl)=sk+1, если l=Nt+k, где 0≤k≤N-1, t - целое.
Такую функцию можно разложить в ряд Фурье, т.е. представить в виде
.
Скалярное произведение для функций на сетке определяется сдедующим образом:
.
Функции gq(xl)=exp{2πiqxl} при 0≤q<N образуют ортонормированную систему относительно так введенного скалярного произведения. Коэффициенты Фурье можно найти по формуле
(*)
Непосредственное осуществление этих преобразований требует
ν(q) = qνD/N = 2-mqνD при q=0,1,...,N/2.
Здесь νD - частота дискретизации.
Значения спектра от
при q=0,1,...,N/2.
Удвоенное значение
c0=A0, cq=2|Aq| при q=1,...,N/2.
Одним из важнейших свойств слуха является разделение спектра звука на частотные группы. Слух может образовывать частотные группы на любом участке шкалы частот. В области частот ниже 500 Гц ширина частотных групп почти не зависит от средней частоты групп и составляет примерно 100 Гц. В области выше 500 Гц она увеличивается пропорционально средней частоте. Если частотные группы совместить в один ряд, то в диапазоне от 70 Гц до 7 кГц разместятся 20 частотных групп. Распределение энергии по частотным группам можно найти либо непосредственно с помощью гребенки соответствующих фильтров, либо с помощью коэффициентов разложения в ряд Фурье. Значение
.