Самоорганизующиеся
карты характеров (SOFMs, сети Кохонена). Нейронные сети, основанные
на воспроизведении топологических свойств
человеческого мозга, известны также как сети
Кохонена (Kohonen, 1982; Fausett, 1994; Haykin, 1994; Patterson, 1996).
Сигмоидная функция. Функция, график которой имеет S-образную форму, дающая приблизительно линейный отклик в середине входного диапазона и эффект насыщения на его концах.
См. разделы о логистической
функции и гиперболическом
тангенсе.
Симметричная матрица. Квадратная матрица является симметричной, если она совпадает со своей транспонированной матрицей (т.е. A = A'). Другими словами, нижний треугольник симметричной матрицы является "зеркальным отражением" верхнего треугольника (см. ниже).
|1 2 3 4| |2 1 5 6| |3 5 1 7| |4 6 7 1| |
Симметричное распределение. Если вы разобьете распределение пополам в точке среднего (или медианы), то распределения значений с двух сторон от этой центральной точки будут "зеркальным отображением" друг друга.
См. также раздел Описательные
статистики.
Симплекс-метод.
Этот алгоритм нелинейного
оценивания не использует производные функции потерь. Вместо
этого, при каждой итерации функция оценивается в
m+1 точках m-мерного пространства. Например, на
плоскости (т.е. при оценивании двух параметров)
программа будет вычислять значение функции
потерь в трех точках в окрестности текущего
минимума. Эти три точки определяют треугольник; в
многомерном пространстве получаемая фигура
называется симплексом.
Сингулярное разложение. Эффективный алгоритм оптимизации линейных моделей.
См. также псевдо-обратных
метод.
Скачкообразное
временное воздействие. В анализе временных рядов
скачкообразное временное воздействие приводит к
тому, что в течение интервенции в ряде
наблюдается резкий отрицательный или
положительный скачок значений, который
постепенно уменьшается и не приводит к
устойчивому изменению среднего ряда. Формула
воздействия имеет вид:
До интервенции:
Воздействиеt = 0
Момент интервенции: Воздействиеt
=
После интервенции: Воздействиеt
= *Воздействиеt-1
Это воздействие описывается двумя параметрами (дельта) и (омега). Если больше 0 и меньше 1
(границы стабильности системы), воздействие
будет постепенным. Если параметр близок к 0, то изменение
будет очень быстрым, и воздействие полностью
исчезнет через несколько наблюдений. Если
параметр близок к 1,
то изменение будет медленным и будет
воздействовать на ряд в течение многих
наблюдений. Заметим, при подгонке модели важны
оба параметра, иначе возможны парадоксальные
выводы. Например, пусть параметр незначительно
отличается от 0 (нуля), а параметр отличается
существенно, тогда это значит, что воздействие
сначала не приводит к скачкообразному изменению,
а потом показывает значительное изменение.
Скачкообразное
устойчивое воздействие. В анализе временных рядов при
скачкообразном устойчивом воздействии общее
среднее ряда просто сдвигается после
интервенции; сдвиг обозначается (омега).
Скорость обучения (для нейронных сетей). Управляющий параметр некоторых алгоритмов обучения, который контролирует величину шага при итерационной коррекции весов.
См. также главу Нейронные
сети.
Скорректированные
средние. Скорректированные средние - это
средние, полученные после удаления всех
различий, имеющихся в плане дисперсионного
анализа (см. Дисперсионный
анализ).
Случайные эффекты (в смешанной модели дисперсионного анализа). Термин случайные эффекты в контексте дисперсионного анализа используется для обозначения факторов плана, уровни которых не фиксируются заранее (факторы с фиксированными заранее уровнями называются фиксированными эффектами), а получаются из выборки в ходе эксперимента. Например, если нас интересует влияние образовательного уровня школы на теоретическую подготовленность учеников, можно сделать случайную выборку учебных заведений для оценивания дисперсии теоретической подготовленности (компоненты дисперсии), которая связана с различием между школами.
Для определения, является ли данный эффект в эксперименте случайным или фиксированным достаточно ответить на вопрос, каким образом выбираются (задаются) уровни соответствующего фактора в процессе повторения такого исследования. Например, если мы хотели бы повторить описанный пример, нам следовало бы сделать некоторую выборку из общего числа школ. Поэтому фактор "школа" в этом исследовании будет случайным фактором. С другой стороны, если бы мы хотели сравнить теоретическую подготовленность молодых людей и девушек в эксперименте с фиксированным фактором "пол", мы в любом случае получили бы две группы: юноши и девушки. Следовательно, в этом случае (и только в этом случае) для повторения исследования уровни фактора "пол" будут выбраны однозначно.
Для получения дополнительной информации см.
разделы Дисперсионный анализ
и Компоненты дисперсии и
смешанная модель ANOVA/ANCOVA.
Сокращение объема данных. Процедура сокращения объема данных имеет два различных подхода.
Сжатие данных путем уменьшения размерности. Этот термин обычно относится к аналитическим методам (обычно к многомерным методам разведочного анализа, таким как факторный анализ, многомерное шкалирование, кластерный анализ, каноническая корреляция или нейронные сети), которые включают сокращение размерности множества данных с помощью выделения определенного числа основных факторов, размерностей, кластеров и т.д., которые могут объяснить изменчивость исходных многомерных данных. Например, в плохо составленном опроснике все ответы, записанные в большом количестве пунктов, в действительности могут быть объяснены очень ограниченным набором "тривиальных" или искусственных факторов, например, двумя: (1) отношение респондентов к образованию (положительное или отрицательное) и (2) "социальная желательность" (смещение отклика респондента в направление социальной желательности).
Сокращение объема выборки без смещения
(разведочный графический анализ). Этот метод
уменьшения объема данных применяется для
графического анализа очень больших выборок.
Слишком большое количество точек данных
может завуалировать существующую структуру
(особенно на линейном графике или диаграмме
рассеяния). В таких случаях бывает полезно
отобразить только репрезентативное множество
данных, чтобы структура их не была скрыта большим
множеством точек. Иллюстрацию этих методов можно
найти в разделе Сокращение
объема выборки в главе Графические методы анализа
данных.
Соответствие 2000-ому году. В связи с приближением нового тысячелетия многих пользователей беспокоит вопрос о том, поддерживает ли используемое ими программное обеспечение соответствующие форматы дат, а именно, другие первые цифры обозначения года, кроме "19". Эта проблема уже давно активно обсуждается, поскольку она тесно связана с решением текущих задач моделирования, прогнозирования и т.п. Система STATISTICA является одной из немногих программ, которые не только "совместимы с проблемой 2000 года", но и предлагают разнообразные гибкие методы настройки интерфейса, соответствующие конкретным запросам аналитиков (например, различные варианты интерпретации таких форматов дат, как 1/1/20, где 20 может означать как 1920, так и 2020).
Софтмакс.
Функция активации, специально предназначенная
для классификационных
сетей с кодированием по методу один-из-N. Вычисляет
нормированную экспоненту (т.е. сумма выходов
равна единице). В сочетании с кросс-энтропийной
функцией ошибок позволяет модифицировать многослойный персептрон
для оценки вероятностей принадлежности
классам (Bishop, 1995; Bridle, 1990). См. Нейронные
сети.
Сохранение лучшей сети. Реализованная в пакете Нейронные сети STATISTICA возможность автоматически запоминать лучшую из сетей, обнаруженных в процессе обучения, с тем, чтобы по окончании экспериментов восстановить ее.
См. главу о нейронных
сетях.
Спектральная диаграмма. Первоначальное применение этого типа графиков было связано со спектральным анализом, чтобы исследовать поведение нестационарных временных рядов. На таких диаграммах в плоскости горизонтальных осей можно строить зависимость частот спектра от последовательных временных промежутков, а на оси Z отмечать спектральные плотности на каждом интервале (см. Shumway, 1988 г., стр. 82).
В том случае, когда необходимо исследовать связь между двумя переменными на различных уровнях третьей переменной, целесообразно использовать спектральный график вместо обычной 3М диаграммы рассеяния. Преимущества спектрального представления в конкретной ситуации хорошо видны на следующем рисунке, где показаны два изображения одного и того же набора данных.
На спектральной диаграмме хорошо видно, что зависимость между переменными Pressure и Yield меняется с колоколообразной на U-образную.
См. также раздел Вращение
данных (в трехмерном пространстве) в главе Графические методы анализа.
Сплайны (2М
графики). Кривая подгоняется к данным в
координатах XY с помощью процедуры сглаживания
бикубическими сплайнами.
Сплайны (3М графики). Кривая подгоняется к данным в координатах XYZ с помощью процедуры сглаживания бикубическими сплайнами.
Среднего/ст.откл.
алгоритм (для нейронных сетей). Алгоритм
(применяемый в нейронных
сетях) для определения коэффициентов
линейного масштабирования набора чисел.
Находятся среднее значение и стандартное
отклонение данных, затем масштабирующие
коэффициенты выбираются таким образом, чтобы
преобразованный набор данных имел заранее
заданные значения среднего и стандартного отклонения.
См. главу о нейронных
сетях.
Среднее. Среднее показывает "центральное положение" (центр) переменной и рассматривается совместно с доверительным интервалом. Обычно интерес представляют статистики (например, среднее), дающие информацию о популяции в целом. Чем больше размер выборки, тем более надежна оценка среднего. Чем больше изменчивость данных (больше разброс), тем оценка менее надежна (см. также раздел Элементарные понятия статистики).
Среднее = (xi)/n
где
n - число наблюдений (объем
выборки).
См. также раздел Описательные
статистики.
Среднеквадратическая
(RMS) ошибка. Для вычисления
среднеквадратической ошибки все отдельные
ошибки возводятся в квадрат, суммируются, сумма
делится на общее число ошибок, затем из всего
извлекается квадратный корень. Полученное в
результате число характеризует суммарную
ошибку. См. раздел о нейронных сетях.
Стандартизованная
DFFITS. Это другая мера влияния
соответствующего наблюдения на коэффициенты
регрессии. Формула вычисления стандартизованных
DFFITS
SDFITi = DFFITi/(si(i)1/2)
где
hi воздействие i-го
наблюдения
i = 1/N + hi
См также разделы о DFFITS, стьюдентизированных остатках
и о стьюдентизированных
удаленных остатках. Более подробная
информация дана в работах Hocking (1996) и Ryan (1997).
Стандартизованные значения остатков. Стандартизованные значения остатков вычисляются как разность между наблюдаемыми и предсказанными значениями, деленная на квадратный корень из среднеквадратичного значения остатков).
См. также разделы о расстояниях
Махаланобиса, удаленных
остатках и расстояниях
Кука.
Стандартная ошибка. Термин стандартная ошибка среднего был впервые введен Юлом (Yule, 1897). Эта величина характеризует стандартное отклонение выборочного среднего, рассчитанное по выборке размера n из генеральной совокупности, и зависит от дисперсии генеральной совокупности (сигма) и объема выборки (n):
= (2/n)1/2
где
2
- дисперсия генеральной
совокупности и
n - число наблюдений в выборке.
Поскольку дисперсия генеральной совокупности, как правило, неизвестна, то оценка стандартной ошибки вычисляется по формуле:
= (s2/n)1/2
где
s2 - выборочная дисперсия (наилучшая оценка
дисперсии популяции) и
n - объем выборки.
См. также раздел Описательные
статистики.
Стандартное отклонение. Стандартное отклонение (термин был впервые введен Пирсоном, 1894) - это широко используемая мера разброса или вариабельности (изменчивости) данных. Стандартное отклонение популяции определяется формулой:
= [(xi-µ)2/N]1/2
где
µ - среднее популяции
N - размер популяции.
Выборочное стандартное отклонение или оценка
стандартного отклонения вычисляется по формуле:
s = [(xi-x-bar)2/n-1]1/2
где
xbar - выборочное среднее
n - число
наблюдений в выборке.
См. также раздел Описательные
статистики.
Статистика Вальда. Таблица результатов с оценками параметров для модели пропорциональных интенсивностей Кокса включает значения статистики Вальда, а также ее p-уровни. Эта статистика является критерием значимости коэффициентов регрессии; это свойство основано на свойстве асимптотически нормальных свойствах оценок максимального правдоподобия, при этом используется следующая формула:
W = * 1/Var() *
В этой формуле
обозначает оценку параметра, а Var() соответствует
асимптотическому значению дисперсии оценки
параметра. Статистика Вальда имеет
распределение хи-квадрат.
Статистический уровень значимости (p-уровень). Статистическая значимость результата представляет собой меру уверенности в его "истинности" (в смысле "репрезентативности выборки"). Более точно, p-уровень - это показатель, обратно пропорциональный надежности результата. Более высокий p-уровень соответствует более низкому уровню доверия найденным в выборке результатам, например, зависимостям между переменными. А именно, p-уровень представляет собой вероятность ошибки, связанной с обобщением наблюдаемого результата на всю популяцию. Например, p-уровень = .05 (т.е. 1/20) показывает, что имеется 5% вероятность того, что найденная в выборке зависимость между переменными является лишь случайной особенностью данной выборки. Иными словами, если данная зависимость в популяции отсутствует, а вы многократно проводили бы подобные эксперименты, то примерно в одном из двадцати повторений эксперимента можно было бы ожидать такой же или более сильной зависимости между изучаемыми переменными. Во многих исследованиях p-уровень .05 рассматривается как "приемлемая граница" уровня ошибки.
См. также раздел Элементарные
понятия статистики.
Стационарные
ряды (в анализе временных рядов). В анализе
временных рядов стационарные ряды имеют
постоянные по времени среднее, дисперсию и
автокорреляции (т.е. сезонные зависимости
удаляются с помощью разностей).
Столбчатая
диаграмма отклонений. Столбчатая
"диаграмма отклонений" сходна со столбчатой
диаграммой по оси X, в которой отдельные
точки данных, представлены в виде вертикальных
столбцов; однако в столбчатой диаграмме
отклонений столбцы соединяют точки с линией
основания, выбираемой пользователем. Если
значение линии основания отлично от
минимального значения на оси Y, то отдельные
столбцы располагаются сверху или снизу от линии
основания в зависимости от направления
"отклонения" точек данных от этой линии.
Столбчатая диаграмма по X. На этой диаграмме для каждой точки данных (т.е. для каждой пары координат XY) рисуется один вертикальный столбец, соединенный с нижней осью X.
Горизонтальное положение столбца определяется
координатой X точки данных, а его высота -
соответствующим значением переменной Y.
Столбчатая диаграмма по левой оси Y. На этой диаграмме для каждой точки данных (т.е. для каждой пары координат XY) рисуется один горизонтальный столбец, соединенный с левой осью Y. Вертикальное положение столбца определяется координатой Y точки данных, а его длина - соответствующим значением переменной X.
Столбчатая
диаграмма по правой оси Y. На этой диаграмме
для каждой точки данных (т.е. для каждой пары
координат XY) рисуется один горизонтальный
столбец, соединенный с правой осью Y.
Вертикальное положение столбца определяется
координатой Y точки данных, а его длина -
соответствующим значением переменной X.
Столбчатая
диаграмма сверху. Эта диаграмма также
известна под названием "висячей" столбчатой
диаграммы. На ней для каждой точки данных (т.е. для
каждой пары координат XY) рисуется один
вертикальный столбец, соединенный с верхней осью
X. Горизонтальное положение столбца
определяется координатой X точки данных, а
его высота - соответствующим значением
переменной Y.
Стьюдента t-распределение. Распределение Стьюдента имеет следующую функцию плотности (для = 1, 2, ...):
f(x) = [(+1)/2] / (/2) * (*)-1/2 * |
[1 + (x2/)-(+1)/2 |
где
- число
степеней свободы
-
гамма-функция
- число
Пи (3.1415...)
На рисунке показаны различные p-значения для
распределения Стьюдента при 15 степенях свободы.
Стьюдентизированные остатки. В дополнение к стандартизованным остаткам имеется несколько методов для обнаружения выбросов или наблюдений с экстремальными значениями предикторов или зависимых переменных. Эти методы включают стьюдентизированные остатки, стьюдентизированные удаленные остатки, DFFITS и стандартизованные DFFITS. Стьюдентизированные остатки вычисляются по следующей формуле:
SRESi = (ei/s)/(1-i)1/2
где
ei ошибка i-го
наблюдения
hi воздействие для
i-го наблюдения
и i = 1/N + hi
Более подробная информация дана в работах Hocking
(1996) и Ryan (1997).
Стьюдентизированные
удаленные остатки. В дополнении к стандартизованным остаткам
имеется несколько методов для обнаружения
выбросов или наблюдений с экстремальными
значениями предикторов или зависимых
переменных. Эти методы включают стьюдентизированные остатки,
стьюдентизированные удаленные остатки, DFFITS и стандартизованные
DFFITS. Стьюдентизированные удаленные остатки
вычисляются по следующей формуле:
SDRESIDi = DRESIDi/ s(i)
где
DRESID = ei/(1-i
)
s(i) = 1/(C-p-1)1/2 * ((C-p)s2/1-hi)
- DRESIDi2)1/2
ei ошибка для i-го
наблюдения
hi воздействие
для i-го наблюдения
p число коэффициентов
модели
i = 1/N + hi
Более подробная информация дана в работах Hocking
(1996) и Ryan (1997).