Как определить выбросы: 10 шагов (с изображениями)

Оглавление:

Как определить выбросы: 10 шагов (с изображениями)
Как определить выбросы: 10 шагов (с изображениями)

Видео: Как определить выбросы: 10 шагов (с изображениями)

Видео: Как определить выбросы: 10 шагов (с изображениями)
Видео: 5 простых шагов, как стать ДИЗАЙНЕРОМ ИНТЕРЬЕРА с нуля 2024, Ноябрь
Anonim

В статистике выброс или «выброс» - это данные, которые очень сильно отклоняются от любых других данных в выборке или наборе данных (набор данных называется данными). Часто выброс в наборе данных может служить предупреждением для статистиков об отклонении от нормы или экспериментальной ошибке в проведенных измерениях, что может привести к тому, что статистик удалит выброс из набора данных. Если статистик удаляет выбросы из набора данных, выводы, сделанные в результате исследования, могут быть очень разными. Поэтому знание того, как вычислять и анализировать выбросы, очень важно для обеспечения правильного понимания набора статистических данных.

Шаг

Вычислить выбросы, шаг 1
Вычислить выбросы, шаг 1

Шаг 1. Узнайте, как определить данные, которые могут быть выброшены

Прежде чем мы решим, удалять или нет данные с выбросами из набора данных, конечно, мы должны определить, какие данные могут потенциально стать выбросами. В общем, выброс - это данные, которые очень сильно отклоняются от других датумов в одном наборе данных, другими словами, выброс находится «вне» других датумов. Обычно легко обнаружить выбросы в таблице данных или (в частности) на графике. Если один набор датумов описывается визуально с помощью графика, выбросы данных будут казаться «очень далекими» от других датумов. Если, например, большинство датумов в наборе данных образуют прямую линию, выбросы данных не будут разумно интерпретироваться как образующие эту линию.

Давайте посмотрим на набор данных, представляющих температуру 12 различных объектов в комнате. Если 11 объектов имеют температуру около 70 по Фаренгейту (21 градус по Цельсию), а 12-й объект, духовка, имеет температуру 300 по Фаренгейту (150 градусов по Цельсию), сразу видно, что температура духовки, скорее всего, будет ниже. выброс

Вычислить выбросы, шаг 2
Вычислить выбросы, шаг 2

Шаг 2. Расположите опорные точки в наборе опорных точек от самой низкой до самой высокой

Первым шагом к вычислению выбросов в наборе данных является определение медианы (среднего значения) этого набора данных. Эта задача становится очень простой, если точки отсчета в наборе отсчетов расположены от самых маленьких до самых больших. Итак, прежде чем продолжить, расположите датумы в одном таком наборе данных.

Продолжим приведенный выше пример. Это наш набор данных, представляющих температуры нескольких объектов в комнате: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Если мы расположим точки отсчета от самого низкого до самого высокого, порядок отсчета станет следующим: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Вычислить выбросы, шаг 3
Вычислить выбросы, шаг 3

Шаг 3. Рассчитайте медианное значение набора данных

Медиана набора данных - это датум, где другая половина датума находится выше этого датума, а оставшаяся половина ниже него - в основном, эти данные являются датумом, который находится в «середине» набора данных. Если количество датумов в наборе данных нечетное, его очень легко найти: медиана - это данные, которые имеют одинаковые числа над и под ним. Однако, если количество баз данных в наборе баз данных четное, то, поскольку ни один элемент данных не помещается в середине, два элемента данных в середине усредняются для нахождения медианы. Следует отметить, что при вычислении выбросов медиане обычно присваивается переменная Q2-ni, потому что Q2 находится между Q1 и Q3, нижним и верхним квартилями, которые мы обсудим позже.

  • Не путать с набором датумов, в котором количество датумов четное - среднее значение двух средних датумов часто возвращает число, которого нет в самом наборе данных - это нормально. Однако, если две средние точки отсчета - это одно и то же число, среднее значение, конечно, также будет таким же числом, что тоже нормально.
  • В приведенном выше примере у нас есть 12 датумов. Две средние точки отсчета - это 6-я и 7-я точки отсчета - 70 и 71 соответственно. Таким образом, медиана нашего набора данных является средним из этих двух чисел: ((70 + 71) / 2), = 70.5.
Вычислить выбросы, шаг 4
Вычислить выбросы, шаг 4

Шаг 4. Вычислите нижний квартиль

Это значение, которое мы даем переменной Q1, представляет собой точку отсчета, которая представляет 25 процентов (или четверть) отсчета. Другими словами, это точка отсчета, которая делит пополам точки отсчета, расположенные ниже медианы. Если количество базовых данных ниже медианы четное, вы должны снова усреднить 2 базовых элемента в середине, чтобы найти Q1, точно так же, как если бы вы находили саму медиану.

В нашем примере есть 6 баз данных, которые лежат выше медианы, и 6 баз данных, которые лежат ниже медианы. Это означает, что, чтобы найти нижний квартиль, нам нужно будет усреднить 2 отсчета в середине из 6 отсчетов ниже медианы. 3-я и 4-я опорные точки 6 опорных точек ниже медианы равны 70. Итак, среднее значение равно ((70 + 70) / 2), = 70. 70 становится нашим Q1.

Вычислить выбросы, шаг 5
Вычислить выбросы, шаг 5

Шаг 5. Рассчитайте верхний квартиль

Это значение, которое мы даем переменной Q3, является датумом, на котором находится 25 процентов датумов в наборе данных. Поиск Q3 в значительной степени аналогичен поиску Q1, за исключением того, что в этом случае мы смотрим на данные выше медианы, а не ниже медианы.

Продолжая наш пример выше, 2 системы отсчета в середине из 6 отсчетов выше медианы равны 71 и 72. Среднее значение этих 2 отсчетов равно ((71 + 72) / 2), = 71, 5. 71, 5 - наш Q3.

Вычислить выбросы, шаг 6
Вычислить выбросы, шаг 6

Шаг 6. Найдите межквартильное расстояние

Теперь, когда мы нашли Q1 и Q3, нам нужно вычислить расстояние между этими двумя переменными. Расстояние от Q1 до Q3 находится путем вычитания Q1 из Q3. Значения, которые вы получаете для межквартильных расстояний, очень важны для определения границ исходных данных, не являющихся выбросами, в вашем наборе данных.

  • В нашем примере наши значения Q1 и Q3 равны 70 и 71,5. Чтобы найти межквартильное расстояние, мы вычитаем Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Следует отметить, что это также верно, даже если Q1, Q3 или оба являются отрицательными числами. Например, если бы наше значение Q1 было -70, наше правильное межквартильное расстояние было бы 71,5 - (-70) = 141,5.
Вычислить выбросы, шаг 7
Вычислить выбросы, шаг 7

Шаг 7. Найдите «внутреннее ограждение» в наборе данных

Выбросы обнаруживаются путем проверки того, попадает ли точка отсчета в границы числа, называемые «внутренняя граница» и «внешняя граница». База данных, выходящая за пределы внутреннего ограждения набора данных, называется «незначительным выбросом», а точка привязки, выходящая за пределы внешнего ограждения, называется «значительным выбросом». Чтобы найти внутреннее ограждение в вашем наборе данных, сначала умножьте межквартильное расстояние на 1, 5. Затем добавьте результат на Q3 и вычтите его из Q1. Полученные вами два значения являются внутренними границами ограждения вашего набора данных.

  • В нашем примере межквартильное расстояние составляет (71,5 - 70), или 1,5. Умножив 1,5 на 1,5, получится 2,25. Мы добавляем это число к Q3 и вычитаем Q1 на это число, чтобы найти границы внутреннего ограждения следующим образом:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Итак, границы нашего внутреннего забора 67, 75 и 73, 75.
  • В нашем наборе данных только температура духовки, 300 по Фаренгейту, выходит за эти пределы, поэтому эти данные являются незначительным отклонением. Однако мы до сих пор не подсчитали, является ли эта температура серьезным отклонением, поэтому не спешите с выводами, пока мы не сделаем наши расчеты.

    Вычислить выбросы, шаг 7
    Вычислить выбросы, шаг 7
Вычислить выбросы, шаг 8
Вычислить выбросы, шаг 8

Шаг 8. Найдите «внешнюю границу» в наборе данных

Это делается так же, как поиск внутреннего ограждения, за исключением того, что межквартильное расстояние умножается на 3 вместо 1,5. Затем результат добавляется к Q3 и вычитается из Q1, чтобы найти верхнюю и нижнюю границы внешнего ограждения.

  • В нашем примере умножение межквартильного расстояния на 3 дает (1, 5 x 3) или 4, 5. Мы находим границы внешнего ограждения так же, как и раньше:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Границы внешнего забора 65,5 и 76.
  • Базовые данные, которые лежат за границей внешнего ограждения, называются крупными выбросами. В этом примере температура духовки 300 по Фаренгейту явно находится за пределами внешнего ограждения, так что эти данные «определенно» являются серьезным отклонением.

    Вычислить выбросы Шаг 8
    Вычислить выбросы Шаг 8
Вычислить выбросы Шаг 9
Вычислить выбросы Шаг 9

Шаг 9. Используйте качественное суждение, чтобы определить, следует ли «отбрасывать» выбросы

Используя метод, описанный выше, можно определить, является ли элемент данных второстепенным, основным или вообще не выбросом. Однако не ошибитесь - обнаружение данных как выброса отмечает только эти данные как «кандидата» на удаление из набора данных, а не как данные, которые «следует» отбросить. «Причина», которая заставляет отклоняющуюся точку отсчета отклоняться от других данных в наборе данных, очень важна при определении, отбрасывать ее или нет. Как правило, выбросы, вызванные, например, ошибкой измерения, записи или планирования эксперимента, можно отбросить. С другой стороны, выбросы, которые не вызваны ошибкой и которые указывают на новую информацию или тенденции, которые ранее не прогнозировались, обычно «не» отбрасываются.

  • Другой критерий, который следует учитывать, заключается в том, оказывает ли выброс большого значения на среднее значение набора данных, то есть сбивает его с толку или заставляет казаться неправильным. Это очень важно учитывать, если вы собираетесь делать выводы на основе среднего значения вашего набора данных.
  • Давайте изучим наш пример. В этом примере, поскольку кажется «крайне маловероятным», что духовка достигла отметки 300 по Фаренгейту из-за непредсказуемых природных сил, мы можем почти наверняка заключить, что духовка была случайно оставлена включенной, что привело к аномальной высокой температуре. Кроме того, если мы не удаляем выбросы, среднее значение нашего набора данных будет (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 по Фаренгейту (32 градуса Цельсия).), а среднее значение, если мы удалим выбросы, будет (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 по Фаренгейту (21 градус Цельсия).

    Поскольку эти выбросы были вызваны человеческой ошибкой и было бы неверно сказать, что средняя температура в помещении достигает почти 90 по Фаренгейту (32 градуса Цельсия), нам лучше «выбросить» наши выбросы

Вычислить выбросы, шаг 10
Вычислить выбросы, шаг 10

Шаг 10. Знайте важность (иногда) сохранения выбросов

Хотя некоторые выбросы следует удалить из набора данных, поскольку они вызывают ошибки и / или делают результаты неточными или ошибочными, некоторые выбросы следует сохранить. Если, например, выброс выглядит естественным образом (то есть не является результатом ошибки) и / или дает новый взгляд на изучаемое явление, выброс не следует удалять из набора данных. Когда речь идет о выбросах, научные исследования обычно представляют собой очень деликатную ситуацию - неправильное удаление выбросов может означать отказ от информации, указывающей на новую тенденцию или открытие.

Например, предположим, что мы разрабатываем новое лекарство для увеличения размера рыбы в пруду с рыбками. Мы будем использовать наш старый набор данных ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), за исключением того, что на этот раз каждая система данных будет представлять вес рыбы. (в граммах) после введения другого экспериментального препарата с рождения. Другими словами, первое лекарство заставляет одну рыбу весить 71 грамм, второе лекарство заставляет другую рыбу весить 70 граммов и так далее. В этом случае 300 «все еще» является большим выбросом, но мы не должны отбрасывать эти данные, потому что, если предположить, что они были получены без ошибок, они представляют собой успех в исследовании. Препарат, который может заставить рыбу весить 300 граммов, работает лучше, чем все другие препараты, поэтому эти данные фактически являются «самыми» важными в нашем наборе данных, а не «наименее важными»

Рекомендуемые: