Среднее усечённое

Среднее усечённое представляет собой статистическую меру центральной тенденции, рассчитанную как среднее значение для имеющегося набора данных, из которого исключены k % наибольших и k % наименьших значений. Как правило, процент удаляемых значений устанавливается в диапазоне от 5 % до 25 %.

Источник: Википедия

Связанные понятия

Винсоризованное среднее представляет собой винсоризованную статистическую меру центральной тенденции как некую конволюцию среднего арифметического и усеченного среднего.

Сре́днее значе́ние — числовая характеристика множества чисел или функций (в математике); — некоторое число, заключённое между наименьшим и наибольшим из их значений.

Сре́днее арифмети́ческое (в математике и статистике) множества чисел — число, равное сумме всех чисел множества, делённой на их количество. Является одной из наиболее распространённых мер центральной тенденции.

Мера центральной тенденции в статистике — число, служащее для описания множества значений одним-единственным числом (для краткости). Например, вместо перечисления величин зарплат всех сотрудников организации говорят о средней зарплате. Существует множество мер центральной тенденции; окончательный выбор меры всегда остается за исследователем.

Среднее Тьюки (средневзвешенное Тьюки) представляет собой меру центральной тенденции, относящуюся к разряду устойчивых (робастных) мер. Расчет среднего Тьюки может носить как одношаговый, так и итерационный характер.

Для определения средних или наиболее типичных значений совокупности используются показатели центра распределения. Основные из них — математическое ожидание, среднее арифметическое, среднее геометрическое, среднее гармоническое, среднее степенное, взвешенные средние, центр сгиба, медиана, мода.

Подробнее: Показатели центра распределения

Двоичная, бинарная или дихотомическая классификация — это задача классификации элементов заданного множества в две группы (предсказание, какой из групп принадлежит каждый элемент множества) на основе правила классификации. Контекст, в котором требуется решение, имеет ли объект некоторое качественное свойство, некоторые специфичные характеристики или некоторую типичную двоичную классификацию, включает...

Качественная, дискретная, или категорийная переменная — это переменная, которая может принимать одно из ограниченного и, обычно, фиксированного числа возможных значений, назначая каждую единицу наблюдения определённой группе или номинальной категории на основе некоторого качественного свойства. В информатике и некоторых других ветвях математики качественные переменные называются перечислениями или перечисляемыми типами. Обычно (хотя не в этой статье), каждое из возможных значений качественной переменной...

Кванти́ль в математической статистике — значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем (см. ниже).

Частотное распределение — метод статистического описания данных (измеренных значений, характерных значений). Математически распределение частот является функцией, которая в первую очередь определяет для каждого показателя идеальное значение, так как эта величина обычно уже измерена. Такое распределение можно представить в виде таблицы или графика, моделируя функциональные уравнения. В описательной статистике частота распределения имеет ряд математических функций, которые используются для выравнивания...

Т-критерий Вилкоксона — (также используются названия Т-критерий Уилкоксона, критерий Вилкоксона, критерий знаковых рангов Уилкоксона, критерий суммы рангов Уилкоксона) непараметрический статистический тест (критерий), используемый для проверки различий между двумя выборками парных или независимых измерений по уровню какого-либо количественного признака, измеренного в непрерывной или в порядковой шкале.. Впервые предложен Фрэнком Уилкоксоном. Другие названия — W-критерий Вилкоксона, критерий знаковых...

Подробнее: Критерий Уилкоксона

В статистике степенной закон (англ. power law) - это такая функциональная зависимость между двумя величинами, при которой относительное изменение одной величины приводит к пропорциональному относительному изменению другой величины, независимо от исходных значений этих величин: зависимость одной величины от другой представляет собой степенную функцию. Например, рассмотрим зависимость площади квадрата от длины его стороны. Если длина будет увеличена вдвое, то площадь увеличится вчетверо.

Медиа́на (от лат. mediāna — середина) в математической статистике — число, характеризующее выборку (например, набор чисел). Если все элементы выборки различны, то медиана — это такое число выборки, что ровно половина из элементов выборки больше него, а другая половина меньше него. В более общем случае медиану можно найти, упорядочив элементы выборки по возрастанию или убыванию и взяв средний элемент. Например, выборка {11, 9, 3, 5, 5} после упорядочивания превращается в {3, 5, 5, 9, 11} и её медианой...

Робастность (англ. robustness, от robust — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Выбросоустойчивый (робастный) метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.

Вариа́ция — различие значений какого-либо признака у разных единиц совокупности за один и тот же промежуток времени. Причиной возникновения вариации являются различные условия существования разных единиц совокупности. Вариация — необходимое условие существования и развития массовых явлений.

Проце́нт (лат. per cent «на сотню; сотая») — сотая часть; обозначается знаком «%»; используется для обозначения доли чего-либо по отношению к целому. Например, 17 % от 500 кг означает 17 частей по 5 кг каждая, то есть 85 кг. Справедливо также утверждение, что 200 % от 500 кг является 1000 кг, поскольку 1 % от 500 кг равен 5 кг, и 5 × 200 = 1000.

Анализ полных наблюдений (англ. listwise/casewise deletion, реже англ. complete-case analysis) — статистический метод обработки пропущенных данных, основанный на удалении всех наблюдений с неполными признаковыми описаниями. Считается самым простым способом разрешения проблемы пропущенных данных.

Коэффициент сходства (также мера сходства, индекс сходства) — безразмерный показатель сходства сравниваемых объектов. Также известен под названиями «мера ассоциации», «мера подобия» и др.

Ме́тод вы́борочных обсле́дований — способ определения свойств группы объектов (генеральной совокупности) на основании статистического исследования её части (выборки).

Проблема Гальтона, названная в честь сэра Фрэнсиса Гальтона, представляет собой проблему выведения заключений из кросс-культурных данных на основании статистического феномена, известного на сегодняшний день как сетевая автокорреляция. В настоящее время проблема признается проблемой общего характера, которая применяется ко всем неэкспериментальным исследованиям, а также к экспериментальному проектированию. Ее можно наиболее просто описать как проблему внешних зависимостей при проведении статистических...

Выборка или выборочная совокупность — часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).

Временно́й ряд (или ряд динамики) — собранный в разные моменты времени статистический материал о значении каких-либо параметров (в простейшем случае одного) исследуемого процесса. Каждая единица статистического материала называется измерением или отсчётом, также допустимо называть его уровнем на указанный с ним момент времени. Во временном ряде для каждого отсчёта должно быть указано время измерения или номер измерения по порядку. Временной ряд существенно отличается от простой выборки данных, так...

Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия, позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance).

Коэффициент Джини — статистический показатель степени расслоения общества данной страны или региона по отношению к какому-либо изучаемому признаку. Используется для оценки экономического неравенства.

Для того, чтобы оценить программу, необходимо собрать информацию о результатах её реализации. Наиболее убедительными и наглядными являются результаты проведения реального эксперимента: наблюдатель сразу собственными глазами может опознать произошедшие изменения. Однако в число серьёзных недостатков этого метода входят дороговизна проведения серьёзных полномасштабных экспериментов, а также сложность их проведения, ведь подчас качественное оценивание политических программ требует получения экспериментальных...

Подробнее: Эконометрические методы в оценивании

Ящик с усами, диаграмма размаха (англ. box-and-whiskers diagram or plot, box plot) — график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей.

Выборка по значимости (англ. importance sampling, далее ВЗ) — один из методов уменьшения дисперсии случайной величины, который используется для улучшения сходимости процесса моделирования какой-либо величины методом Монте-Карло. Идея ВЗ основывается на том, что некоторые значения случайной величины в процессе моделирования имеют бо́льшую значимость (вероятность) для оцениваемой функции (параметра), чем другие. Если эти «более вероятные» значения будут появляться в процессе выбора случайной величины...

Q-критерий Розенбаума — простой непараметрический статистический критерий, используемый для оценки различий между двумя выборками по уровню какого-либо признака, измеренного количественно.

В математической статистике, районированная выборка (другое название – стратифицированная выборка) – метод семплирования из генеральной совокупности, который позволяет улучшить точность статистических результатов при разбиении всего пространства событий на несколько областей-страт и независимой работе с этими стратами. Например, в каждой страте можно применять свою собственную выборку по значимости.

Статистическая мощность в математической статистике — вероятность отклонения основной (или нулевой) гипотезы при проверке статистических гипотез в случае, когда конкурирующая (или альтернативная) гипотеза верна. Чем выше мощность статистического теста, тем меньше вероятность совершить ошибку второго рода. Величина мощности также используется для вычисления размера выборки, необходимой для подтверждения гипотезы с необходимой силой эффекта.

Статистика широко применяется в оценивании программ. Способ, при помощи которого проводится оценка программы и соответствующих относящихся к программе факторов, в большой степени определяет те аналитические методы и статистические показатели, которые будут использоваться в процессе оценивания.

Подробнее: Применение статистики в оценивании

Анализ выживаемости (англ. survival analysis) — класс статистических моделей, позволяющих оценить вероятность наступления события.

Складной нож (англ. jackknife) — один из методов ресэмплинга (линейное приближением статистического бутстрэпа), используемый для оценки погрешности в статистическом выводе. Способ заключается в следующем: для каждого элемента вычисляется среднее значение выборки без учёта данного элемента, а затем — среднее всех таких значений. Для выборки из N элементов оценка получается путём вычисления среднего значения остальных N-1 элементов.

Шкала максимального различия (англ. maximum difference scaling, MaxDiff) — это методика исследования с очень специфичными предположениями о том, как люди осуществляют выбор: она предполагает, что респонденты оценивают все возможные пары позиций в рамках предложенного набора и выбирают пару, которая отображает максимальное отклонение в предпочтении или важности.

Индекс Аткинсона — один из индексов социального неравенства. Предложен в 1970 г. Энтони Барнсом Аткинсоном. Используется ведомством по переписи населения США.

Результативность (англ. effectiveness, синоним — эффективность) — отношение фактического результата (измеряемого показателя — т. н. «критерия результативности») к плановому.

Статистический параметр или параметр совокупности — это величина, которая индексирует семейство распределений вероятностей. Его можно расценивать как числовую характеристику совокупности или статистической модели.

Индекс товарного канала (англ. commodity channel index, англ. CCI) — технический индикатор, основанный на анализе текущего изменения отклонения цены от её среднего значения за определённый период и среднестатистического абсолютного значения этого параметра.

Цензурированная регрессия (англ. Censored regression) — регрессия, с зависимой переменной, наблюдаемой с ограничением (цензурированием) возможных значений. При этом модель может быть цензурирована только с одной стороны (снизу или сверху) или с обеих сторон. Цензурированная регрессия отличается от усеченной регрессии (англ. truncated regression), тем что значения факторов, в отличие от зависимой переменной, наблюдаются без ограничений.

Синтетический контроль (англ. Synthetic control method, SCM) — эконометрический метод анализа данных в рамках причинно-следственной модели Рубина, позволяющий проводить каузальную инференцию в сравнительных кейс-стади. Метод направлен на оценку эффектов исследуемого воздействия (например, экономической реформы) на примере небольшого числа кейсов с помощью моделирования их количественных показателей в гипотетической ситуации, где воздействие не было оказано, на основе ограниченного круга похожих контрольных...

В теории вычислительной сложности сложность алгоритма в среднем — это количество неких вычислительных ресурсов (обычно — время), требуемое для работы алгоритма, усреднённое по всем возможным входным данным. Понятие часто противопоставляется сложности в худшем случае, где рассматривается максимальная сложность алгоритма по всем входным данным.

Гетероскедастичность (англ. heteroscedasticity) — понятие, используемое в прикладной статистике (чаще всего — в эконометрике), означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна гомоскедастичности, означающей однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.

Кривая видового накопления - графическое представление числа видов, найденных на определенной территории (или в определенном биотопе и т. п.), как функции от кумулятивной совокупности исследовательских усилий, направленных на их нахождения. Исследовательское усилие может измеряться в количестве человеко-часов наблюдения, расставленных ловушек, километров буксировки трала судном, и т.д..

Округление — замена числа на его приближённое значение (с определённой точностью), записанное с меньшим количеством значащих цифр. Модуль разности между заменяемым и заменяющим числом называется ошибкой округления.

Система направленного движения (DMS от англ. directional movement system) или Индекс направленного движения (DMI от англ. directional movement index) — система технических индикаторов разработанная Уэллсом Уайлдером и представленная в июне 1978 года в его книге «Новые концепции в технических торговых системах» (англ. New Concepts in Technical Trading Systems).

Фиктивная переменная (англ. dummy variable) — качественная переменная, принимающая значения 0 и 1, включаемая в эконометрическую модель для учёта влияния качественных признаков и событий на объясняемую переменную. При этом фиктивные переменные позволяют учесть влияние не только качественных признаков, принимающих два значения, но и несколько возможных. В этом случае добавляются несколько фиктивных переменных. Фиктивная переменная может быть также индикатором принадлежности наблюдения к некоторой...

Трёхточечный метод или взвешенная трёхточечная оценка или PERT-оценка — метод оценки времени и усилий в управлении проектами. Он расширяет двукратный метод, состоящий только из наилучшего и наихудшего сценариев времени дополнительным параметром «наиболее вероятное время исполнения».

Диаграмма «стебель-листья» — схема представления статистических данных в описательной статистике. Даёт возможность визуально оценить форму и размах распределения данных. В отличие от гистограммы, не требует предварительной группировки данных в интервалы, хотя и для составления диаграммы «стебель-листья» может требоваться округление до двух десятичных знаков.

Для оценки качества воды в реках и водоёмах их разделяют по загрязнённости на несколько классов. Классы основаны на интервалах удельного комбинаторного индекса загрязнённости воды (УКИЗВ) в зависимости от количества критических показателей загрязнённости (КПЗ). Значение УКИЗВ определяется по частоте и кратности превышения ПДК по нескольким показателям и может варьировать в водах различной степени загрязнённости от 1 до 16 (для чистой воды 0). Большему значению индекса соответствует худшее качество...

Циклическая база данных (англ. Round-robin Database, RRD) — база данных, объём хранимых данных которой не меняется со временем, поскольку количество записей постоянно, в процессе сохранения данных они используются циклически. Как правило, используется для хранения информации, которая перезаписывается через равные интервалы времени.

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я