Статистическое распределение выборки

Статистическое распределение выборки

Разработка методов регистрации, описания и анализа статистических экспе­риментальных данных, полученных в результате наблюдения массовых случайных явлений, составляет предмет математической статистики.

Эти методы позволяют получать обоснованные выводы о параметрах или виде распределения случайных величин по совокупности наблюдений над ними – выборке .

Пусть проводится экспе­римент со случайной величиной . имеющей функцию распределения .

Определение. Выборкой объема из генеральной совокупности с функ­цией распределения называется последовательность наблюдае­мых значений случайной величины . соответствующих независи­мым повторениям эксперимента.

Замечание. Выборку объема можно определить как совокупность слу­чайно отобранных объектов из некоторого множества объектов – генераль­ной совокупности.

Пусть в результате эксперимента получены значения изучаемой случай­ной величины (среди них могут быть повторяющиеся значения).

Определение. Вариационным рядом выборки называется способ ее записи, при котором элементы выборки упорядочиваются по величине, то есть записы­ваются в виде последовательности . где .

Пусть в выборке объема число встречается раз .

Определение. Числа называют вариантами. Число называют частотой варианты . Число называют относительной частотой варианты .

Определение . Размахом выборки называется разность между максимальной и минимальной вариантой выборки .

Определение. Статистическим распределением выборки (статистическим рядом) называется последовательность пар или .

Обычно статистический ряд записывается в виде таблицы, первая строка которой содержит упорядоченные по величине варианты . а вторая – их частоты (или относительные частоты).

Пример. Записать вариационный ряд и статистическое распределение выборки 4,3,3,1,2,2,5,4,4,3,5,5,6,6,4. Определить размах выборки.

Решение. Объем выборки . Упорядочив варианты по величине, получим вариационный ряд 1,2,2,3,3,3,4,4,4,4,5,5,5,6,6. Размах выборки .

Статистическое распределение выборки

для контроля записи находим: .

При большом объеме выборки ее элементы (варианты) объединяют в группы, представляя результаты опыта в виде группированного статистического ряда. Для этого интервал, содержащий все варианты выборки, разбивается на частичных непересекающихся интервалов. Для упрощения вычислений частичные интервалы выбирают одинаковой длины . После того, как частичные интервалы выбраны, определяют частоты – количество вариант, попавших в -й интервал (варианта, совпадающая с верхней границей интервала, относится к последующему интервалу). Получающийся статистический ряд в верхней строке содержит середины интервалов группировки, а в нижней – частоты .

В зависимости от объема выборки число интервалов группировки берется от 6 до 20. Следует помнить, что группировка вносит погрешность в дальнейшие вычисления, которая растет с уменьшением числа интервалов.

Для наглядности представления полученных статистических экспериментальных данных весьма целесообразно наряду со статистическим распределением выборки давать графическое представление.

Определение. Полигоном частот (относительных частот) группированной выборки называется ломаная с вершинами в точках (в точках ).

Определение. Гистограммой частот (относительных частот) группированной выборки называется ступенчатая фигура, составленная из прямоугольников, построенных на частичных интервалах группировки, высоты которых равны .

Отсюда следует, что площадь гистограммы равна объему выборки, а площадь гистограммы относительных частот — единице.

Пример. Представить выборку 55 наблюдений в виде группированного статистического ряда, используя 7 интервалов группировки. Построить полигон и гистограмму частот группированной выборки.

5.189.137.82 © studopedia.ru Не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования. Есть нарушение авторского права? Напишите нам.

Статистическое распределение выборки

На практике сплошное исследование (каждого объекта из интересующей нас совокупности) проводят крайне редко. К тому же, если эта совокупность содержит большое число объектов или исследование объекта требует нарушения его функционального стандарта, то сплошное исследование нереально. В таких случаях из всей совокупности случайно отбирают ограниченное число объектов иподвергают их исследованию.

Введем основные понятия, связанные с выборками.

Генеральной совокупностью называемся совокупность объектов, из которых производится выборка.

Выборочной совокупностью (выборкой) называется совокупность случайно отобранных объектов из генеральной совокупности.

Число объектов в совокупности называется ее объемом.

Пример 1. Пусть из 2000 изделий отобрано для обследования 100 изделий Тогда объем генеральной совокупности N = 2000. а объем выборки п = 100 .

Выборку можно осуществлять двумя способами. Если после исследования объект из выборки возвращается в генеральную совокупность, то такая выборка называется повторной (возвратной). Если объект не возвращается в генеральную совокупность, то выборка называется бесповторной (безвозвратной).

Выборка называется репрезентативной (представительной), если по ее данным можно достаточно уверенно судить об интересующем нас признаке генеральной совокупности.

Различают два вида способов отбора: без расчленения генеральной совокупности на части и с расчленением. К первому виду относятся простые случайные отборы (повторные либо бесповторные), когда объекты извлекают по одному из генеральной совокупности; такой отбор можно производить с использованием таблицы случайных чисел.

Второй способ отбора включает в себя следующиеразновидности соответственно способам расчленения генеральной совокупности. Отбор, при котором объекты отбираются из каждой «типической» части генеральной совокупности, называется типическим. Например, отбор деталей из продукции каждого станка, а не из их общего количества, является типическим. Если генеральную совокупность делят на число групп, равное объему выборки, с последующим отбором из каждой группы, но одному объекту, то такой отбор называется механическим. Серийным называется отбор, при котором объекты отбираются не по одному, а сериями. Этот способ используется, когда исследуемый признак имеет незначительные колебания в различных сериях.

На практике часто употребляется комбинирование перечисленных способов отбора. Например, генеральную совокупность разбивают на серии одинакового объема, затем случайным образом отбирают несколько серий и в завершение случайным извлечением отдельных объектов составляют выборку. Конкретная комбинация способов отбора объектов из генеральной совокупности определяется требованием репрезентативности выборки.

Статистическое распределение выборки

Пусть из генеральной совокупности извлечена выборка объема п. в которой значение х1 некоторого исследуемого признака Х наблюдалось п1 раз, значение х2 – п2 раз, и т.д. значение хk – пk раз. Значения хi называются вариантами, а их последовательность, записанная в возрастающем порядке, — вариационным рядом. Числа пi называются частотами, а их отношения к объему выборки

относительными частотами. При этом .

Модой М0 называется варианта, имеющая наибольшую частоту.

Медианой mе называется варианта, которая делит пополам вариационный ряд на две части с одинаковым числом вариант в каждой.

Размахом варьирования называется разность между максимальной и минимальной вариантами или длина интервала, которому принадлежат все варианты выборки:

Перечень вариант и соответствующих им частот называется статистическим распределением выборки.

Здесь имеется аналогия с законом распределения случайной величины: в теории вероятностей — это соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике — это соответствие между наблюдаемыми вариантами и их частотами (относительными частотами). Нетрудно видеть, что сумма относительных частот равна единице: ∑ wi = 1.

Пример 2. Выборка задана в виде распределения частот:

Статистическое распределение выбоки

Графическое представление статистического ряда распределения может иметь вид:

1. Полигона, если вариационный ряд дискретный;

2. Гистограммы, если вариационный ряд интегральный.

Полигоном частот называется ломаная, отрезки которой соединяют точки (x1 ; n1 ), (x2 ; n2 ), …, (xk ; nk ) в декартовой системе координат, где на оси абсцисс откладывают варианты xi . а на оси ординат – соответствующие им частоты ni .

Полигон относительных частот – ломаная, отрезки которой соединяют точки (x1 ; w1 ), (x2 ; w2 ), …, (xk ; wk ) в декартовой системе координат, где на оси абсцисс откладывают варианты xi . а на оси ординат – соответствующие им частоты wi .

Гистограммой частот называется ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной

а высоты равны отношению . т. н. плотность частоты .

Площадь i -го частичного прямоугольника равна ni . площадь гистограммы частот – объекту выборки n .

Гистограмма относительных частот ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной h. а высоты равны отношению . т. н. плотность относительной частоты .

Площадь i -го частичного прямоугольника равна wi . площадь гистограммы относительных частот – единице.

Аналитическое представление статистического распределения выборки называется эмпирической функцией распределения .

Эмпирическая функция распределения – функция . определяющая для каждого значения x относительную частоту события .

где nx – число вариант, меньших x ,

n – объём выборки.

1. Значения принадлежат отрезку [0; 1];

2. – неубывающая функция;

3. Если x1 – наименьшая варианта, то при . Если xk – наибольшая варианта, то при .

График называется кумулятой .

Пример 1. Из 100 транзисторов в среднем бывает два бракованных. Проверили десять партий по 100 транзисторов в каждой. Отклонение количества бракованных транзисторов от среднего заданы таблицей

Статистическим распределением выборки.

Лекция 2. Статистические ряды распределения.

Цели и задачи изучения темы

изучить понятия статистического ряда распределения, вариационного ряда распределения (дискретного/интервального); исследовать статистическое распределение выборки; определять величины интервала; изучить статистическую таблицу и графические способы изображения статистических данных.

1. Понятие статистического ряда распределения, вариационного ряда распределения (дискретного/интервального).

2. Статистическое распределение выборки.

3. Определение величины интервала. Формула Стерджесса.

4. Статистическая таблица (подлежащее статистической таблицы, сказуемое статистической таблицы, групповая таблица, комбинационная таблица, простая таблица, сложная таблица).

5. Графический способ изображения статистических данных.

Понятие статистического ряда распределения, вариационного ряда распределения (дискретного/интервального).

Результаты сводки и группировки материалов статистического наблюдения оформляются в виде статистических рядов распределения.

Статистический ряд распределения представляет собой упорядоченное расположение единиц изучаемой совокупности по какому-либо признаку.

Ряды распределения, образованные по атрибутивному признаку, называют атрибутивными.

Вариационные ряды распределения — ряды распределения, образованные по количественному признаку. Вариационный ряд предполагает расположение единиц совокупности в порядке возрастания (или убывания) значений признака.

Отдельное значение варьируемого признака, которое он принимает в вариационном ряду, называется вариантой. Численности отдельных вариант или групп вариационного ряда, показывающие, как часто встречаются те или иные варианты в ряду распределения, называют частотами.

Пусть требуется изучить генеральную совокупность относительно некоторого количественного признака (показателя) X. Извлечем из генеральной совокупности выборку. При этом оказалось, что значение случайной величиныX, равное x1. наблюдалось п1 раз, значение х2 — п2 раз. хk — nk раз. Объем выборки — Статистическое распределение выборки

Наблюдаемые значения xi есть варианты, а последовательность вариант, записанных в возрастающем порядке, есть вариационный ряд. Числанаблюдений ni . есть частоты, а их отношение к объему выборки Статистическое распределение выборки — относительные частоты.

Вариационные ряды распределения подразделяются на дискретные и интервальные.

Дискретными называются вариационные ряды, в которых значения признаков, положенных в основу их образования, являются дискретными и часто выражены целыми числами. Примерами дискретных вариационных рядов являются распределение рабочих по тарифному разряду; распределение отделов по числу работников и т.п.

Дискретные ряды распределения строятся по дискретным признакам, которые варьируются в ограниченных пределах.

Дискретный ряд распределения обычно оформляется в виде статистического распределения выборки.

Статистическим распределением выборки.

Статистическим распределением выборкиназывают перечень вариант и соответствующих им частот (или относительных частот).

Статистическое распределение выборки можно задать в виде таблицы, в первой графе которой располагаются варианты. а во второй — соответствующие этим вариантам частоты ni . или относительные частоты Pi .

Статистическое распределение выборки

Интервальными называются вариационные ряды, в которых значения признаков, положенных в основу их образования, выражены в определенных пределах (интервалах). Частоты в этом случае относятся, не к отдельным значениям признака, а ко всему интервалу.

Интервальные ряды распределения строятся по непрерывным количественным признакам, а также по дискретным признакам, варьирующим в значительных пределах.

Интервальный ряд можно представить статистическим распределением выборки с указанием интервалов и соответствующих им частот. При этом в качестве частоты интервала принимают сумму частот вариант, попавших в этот интервал.

При группировке по количественным непрерывным признакам важное значение имеет определение размера интервала.

3. Определение величины интервала. Формула Стерджесса.

Величина интервала — разность между наибольшим и наименьшим значениями признака в каждой группе, называемыми границами интервала.

Статистическое распределение выборки Интервалы групп могут быть равными и неравными. Интервалы устанавливаются в зависимости от характера распределения единиц совокупности по данному признаку. Если вариация (изменение) признака проявляется в сравнительно узких границах и распределение носит более или менее равномерный характер, то целесообразно устанавливать равные интервалы. В этом случае величину интервала определяют по формуле:

где хтах. хт1п — соответственно максимальное и минимальное значения признака в ряду;

к -число интервалов (групп).

Часто строят ряды с равновеликими интервалами. При построении вариационного ряда с равными интервалами определяют число групп (к) и величину интервала (h ).

Оптимальное число групп (интервалов) может быть определено по формуле Стерджесса:

где n — число единиц совокупности.

Сами интервалы могут быть закрытыми(с указанием нижней и верхней границ) и открытыми(с указанием лишь одной из границ интервала).

При количественных группировках следует обращать внимание на правильное обозначение нижней и верхней границ интервала. При образовании интервалов по дискретным признакам это достигается посредством обозначения верхней и нижней границ смежных интервалов значениями признаков, отличных на единицу.

При построении интервальных вариационных рядов по непрерывным признакам необходимо указать, в какой интервал входит значение признака, являющегося границей смежных интервалов. То есть для устранения неопределенности необходимо решить вопрос о том, считать ли верхние границы каждой группы «включительно» или «исключительно».

После того как в результате сводки, материал статистического наблюдения сгруппирован, он, как правило, представляется в виде таблиц.

4. Статистическая таблица (подлежащее статистической таблицы, сказуемое статистической таблицы, групповая таблица, комбинационная таблица, простая таблица, сложная таблица).

Статистическая таблица форма наиболее рационального, наглядного и систематического изложения числовых результатов сводки и группировки статистических, материалов в виде ряда строк и столбцов. Основными элементами статистической таблицы являются подлежащее и сказуемое.

Подлежащее статистической таблицы — объекты изучения или перечень групп совокупности, характеризуемые цифровыми данными.

Сказуемое статистической таблицы — это цифровые показатели, которые характеризуют изучаемый объект. Сказуемое таблицы отражает то, что в ней говорится о подлежащем с помощью цифровых данных.

В зависимости от характера построения подлежащего различают простые, групповые и комбинационные таблицы.

Простой называется таблица, в подлежащем которой содержится перечень объектов наблюдения, например перечень работников предприятия.

Групповойназывается таблица, в подлежащем которой объекты наблюдения разгруппированы по одному признаку, например по профессиям работников предприятия. Комбинационной называется таблица, в подлежащем которой объекты наблюдения разгруппированы по двум и более признакам в комбинации, например, по категориям работников, в том числе и по полу.

По структуре сказуемого различают простые и сложные таблицы.

Простая таблицапредусматривает разработку показателей, характеризующих изучаемые объекты независимо друг от друга.

Сложная таблица предусматривает разработку показателей, характеризующих изучаемые объекты в комбинации.

Например, при характеристике объема перевозок в сказуемом таблицы можно дать перечень признаков, характеризующих объем перевозок по типам тяги и по видам движения. Это будет таблица с простой разработкой сказуемого.

Можно построить таблицу, сказуемое которой будет содержать перечень признаков по типам тяги и в том числе по видам движения. Это будет таблица со сложной разработкой сказуемого.

Наряду с таблицами, для наглядного изображения данных наблюдения и сводки, в статистике используются графики.

©2015-2017 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.

§13. Статистическое распределение выборки

Пусть для изучения количественного (дискретного или непрерывного) признака Х из генеральной совокупности извлечена выборка, причем значение x1 наблюдалось n1 раз, значение x2 наблюдалось n2 раз, …, значение xk наблюдалось nk раз.

Наблюдаемые значения xi (i = 1, 2, …, n) признака Х называют вариантами, а последовательность всех вариант, записанных в возрастающем порядке, – вариационным рядом. Числа наблюдений ni называют частотами. их сумма Статистическое распределение выборкиобъемвыборки. Отношения частот к объему выборки Статистическое распределение выборкиотносительными частотами .

Статистическим распределением выборки называют перечень вариант xi вариационного ряда и соответствующих им частот ni (сумма всех частот равна объему выборки n) или относительных частот Wi (сумма всех относительных частот равна единице). Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

Заметим, что в теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике – соответствие между наблюдаемыми вариантами и их частотами (или относительными частотами).

Пример. Задано распределение частот выборки объема n = 20:

Статистическое распределение выборки

Статистическое распределение выборки

В данной выборке получены следующие варианты x1 = 2; x2 = 6; x3 = 12,

соответствующие частоты n1 = 3; n2 = 10; n3 = 7.

Напишем распределение относительных частот.

Решение. Найдем относительные частоты, для чего разделим частоты на объем выборки Статистическое распределение выборки= 3 + 10 + 7 = 20.

Статистическое распределение выборкиСтатистическое распределение выборкиСтатистическое распределение выборки

Напишем распределение относительных частот:

Статистическое распределение выборки

Статистическое распределение выборки

Контроль: сумма всех относительных частот Статистическое распределение выборкиравна единице:

Статистическое распределение выборки.

§14. Эмпирическая функция распределения

Пусть известно статистическое распределение частот количественного признака Х. Введем обозначения: Статистическое распределение выборки число наблюдений, при которых наблюдалось значение признака, меньше х; n – общее число наблюдений (объем выборки). Ясно, что относительная частота события Х<х равна Статистическое распределение выборки. Если х изменяется, то, вообще говоря, изменится и относительная частота, то есть относительная частотаСтатистическое распределение выборкиесть функция от х. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Определение. Эмпирическая функция распределения (функция распределения выборки) – функция F * (x), определяющая для каждого значения х относительную частоту события X

Статистическое распределение выборки,

где Статистическое распределение выборки─ число вариант, меньших х;n – объем выборки.

Например, для того чтобы найти F * (x2 ), надо число вариант, меньших x2. разделить на объем выборки:

Статистическое распределение выборки.

В отличие от эмпирической функции распределения выборки функцию распределения F(x) генеральной совокупности называют теоретической функцией распределения. Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция F(x) определяет вероятность события X

Из теоремы Бернулли следует, что относительная частота события XСтатистическое распределение выборки. Уже отсюда следует целесообразность использования эмпирической функции распределения выборки для приближенного представления теоретической (интегральной) функции распределения генеральной совокупности. Такое заключение подтверждается и тем, что F * (x) обладает всеми свойствами F(x).

Из определения функции F * (x) вытекают следующие ее свойства:

Значения эмпирической функции принадлежит отрезку [0; 1];

F * (x) – неубывающая функция;

Если x1 ─ наименьшая варианта, то F * (x) = 0 при х < х1 ;

если хk ─ наибольшая варианта, то F * (x) = 1 при х > xk .

Итак, эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.

Пример. Построить эмпирическую функцию по данному распределению выборки:

Решение. Найдем объем выборки (сумма всех частот ni ):

Наименьшая варианта равна 2 (x1 = 2), следовательно, F * (x) = 0 при х ≤ 2 (по свойству 3 функции F * (x));

значения, меньшие 6 (х<6), а именно x1 = 2, наблюдались n1 = 12 раз, следовательно, Статистическое распределение выборкипри 2

значения х<10, а именно x1 = 2, x1 = 2 наблюдались n1 + n2 = 12 + 18 = 30 раз, следовательно Статистическое распределение выборкипри 6<х≤10.

Так как х =10 – наибольшая варианта, то F * (x) = 1 при х>10 (по свойству 4 функции F * (x)).

Искомая эмпирическая функция имеет вид:

Статистическое распределение выборки

Ниже приведен график полученной эмпирической функции.

На графике на соответствующих осях откладывают значения функции F * (x) и интервалы вариант

Статистическое распределение выборки

Рис. 5. График эмпирической функции.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *