Выборку из генеральной совокупности используют потому что. Генеральная и выборочная совокупности

http://www.hi-edu.ru/e-books/xbook096/01/index.html?part-011.htm – очень полезный сайт!

Выборочный метод исследования является основным статистическим методом. Это естественно, так как объем изучаемых объектов как правило бесконечен (и даже, если конечен, то весьма затруднительно перебрать все объекты, приходится довольствоваться лишь их частью, выборкой).

Генеральная и выборочная совокупности

Генеральной совокупностью называется совокупность всех исследуемых в данном эксперименте элементов.

Выборочной совокупностью (или выборкой) называется конечная совокупность объектов, случайно отобранных из генеральной совокупности.

Объемом совокупности (выборочной или генеральной) называется число объектов этой совокупности.

Пример генеральной и выборочной совокупностей

Допустим, исследуется психологическая предрасположенность человека к делению данного отрезка в отношении золотого сечения. Так как происхождение самого понятия золотого сечения продиктовано антропометрией человеческого тела, то понятно, что в данном случае генеральной совокупностью является любое антропогенное существо достигшее физической зрелости и приобретшее окончательные пропорции, то есть - вся взрослая часть человечества. Объем этой совокупности практически бесконечен.

Если же эта предрасположенность исследуется исключительно в художественной среде, то генеральная совокупность - это люди, имеющие непосредственное отношение к дизайну: художники, архитекторы, дизайнеры. Таких людей тоже очень много, и можно считать, что объем генеральной совокупности в данном случае тоже бесконечен.

И в том, и в другом случае для исследования мы вынуждены ограничиться разумными объемами выборок, выбирая в качестве представителей той и другой совокупностей студентов технических специальностей (как людей, далеких от художественного мира) или студентов специальности дизайн (как людей, имеющих непосредственное отношение к миру художественных образов).

Репрезентативность

Основной проблемой выборочного метода является вопрос о том, насколько точно объекты, отобранные из генеральной совокупности для исследования, представляют изучаемые характеристики генеральной совокупности, то есть - вопрос о репрезентативности выборки.

Итак, выборка называется репрезентативной (представительной), если она достаточно точно представляет количественные соотношения генеральной совокупности.

Разумеется, трудно сказать, что именно скрывается за расплывчатой формулировкой достаточно точно . Вопросы репрезентативности вообще являются наиболее спорными в любом экспериментальном исследовании. Имеется масса ставших уже классическими примеров, когда недостаточная представительность выборки приводила экспериментаторов к абсурдным результатам.

Как правило, вопросы репрезентативности решаются при помощи экспертной оценки, когда научное сообщество принимает точку зрения группы авторитетных специалистов по поводу корректности проведенного исследования.

Пример репрезентативности

Вернемся к примеру с делением отрезка. Вопросы репрезентативности выборок лежат здесь в самой основе исследования: мы ни в коем случае не должны смешивать группы испытуемых по признаку принадлежности их к художественной среде.

Статистическое распределение наблюдаемого признака

Частота наблюдаемого значения

Пусть в результате испытания в выборке объема наблюдаемый признакпринял значения,, …, причем значениенаблюдалосьраз, значение-раз, и т. д., значениенаблюдалосьраз. Тогда частотой наблюдаемого значенияназывается число, значения- числои т. д.

Относительная частота наблюдаемого значения

Относительной частотой наблюдаемого значенияпризнаканазывается отношение частотык объемувыборки:

Понятно, что сумма частот наблюдаемого признака должна давать объем выборки

а сумма относительных частот должна давать единицу:

Эти соображения можно использовать для контроля при составлении статистических таблиц. Если равенства не соблюдаются, то при протоколировании результатов эксперимента была допущена ошибка.

Статистическое распределение наблюдаемого значения

Статистическим распределением наблюдаемого признака называется соответствие между наблюдаемыми значениями признака и отвечающими им частотами (или относительными частотами).

Как правило, статистическое распределение записывается в виде двухстрочной таблицы, в которой в первой строке указываются наблюдаемые значения признака, а во второй - соответствующие им частоты (или относительные частоты):

Если наблюдаемый признак характеризуется непрерывной случайной величиной , принимающей значения из интервала, то его статистическое распределение описывается частотами попадания в частичные интервалы:

Исследование обычно начинается с некоторого предположения, требующего проверки с привлечением фактов. Это предположение - гипотеза - формулируется в отношении связи явлений или свойств в некоторой совокупности объектов. Для проверки подобных предположений на фактах необходимо измерить соответствующие свойства у их носителей. Но невозможно измерить, например, тревожность у всех подростков. Поэтому при проведений исследования ограничиваются лишь относительно небольшой группой представителей соответствующих совокупностей людей.

Генеральная совокупность - это все множество объектов, в отношении которого формулируется исследовательская гипотеза. Теоретически считается, что объем генеральной совокупности не ограничен. Практически же объем генеральной совокупности всегда ограничен и может быть различным в зависимости от предмета наблюдения и той задачи, которую предстоит решать психологу. Обычно генеральная совокупность включает в себя очень большое число объектов- студентов вуза, школьников, работников предприятия, пенсионеров и т.д. Сплошное исследование генеральных совокупностей чрезвычайно затруднительно, поэтому, как правило, изучается небольшая часть генеральной совокупности, называемая выборочной совокупностью, или выборкой.

Выборка - это ограниченная по численности группа объектов (в психологии - испытуемых, респондентов), специально отбираемая из генеральной совокупности для изучения ее свойств. Соответственно, изучение на выборке свойств генеральной совокупности называется выборочным исследованием. Практически все психологические исследования являются выборочными, а их выводы распространяются на генеральные совокупности.

К выборке применяется ряд обязательных требований, определенных, прежде всего, целями и задачами исследования. Она должна быть такой, чтобы обосновалась генерализация выводов выборочного исследования - обобщение, распространение их на генеральную совокупность.

Выборка должна удовлетворять следующим условиям:



1. Это группа объектов, доступная для изучения. Объем выборки опре­деляется задачами и возможностями наблюдения и эксперимента.

2. Это часть заранее намеченной генеральной совокупности.

3. Это группа, отобранная случайным образом так, чтобы любой объект генеральной совокупности имел одинаковую вероятность попасть в выборку.

Основные критерии обоснованности выводов исследования - это репрезентативность выборки и статистическая достоверность (эмпири­ческих) результатов.

Репрезентативность - иными словами, ее представительность - это способность характеризовать соответствующую генеральную совокупность с определенной точностью и достаточной надежностью. Если выборка испытуемых по своим характеристикам репрезентативна генеральной совокупности, то есть основания, полученные при ее изучении результаты распространить на всю генеральную совокупность.

В идеале репрезентативная выборка должна быть такой, чтобы каж­дая из основных изучаемых психологом характеристик, черт, особенностей личности и т. п. представлялась в ней пропорционально этим же особенностям в генеральной совокупности.

Ошибки репрезентативности возникают в двух случаях:

1. Малая выборка, характеризующая генеральную совокупность.

2. Несовпадение свойств (параметров) выборки с параметрами генеральной совокупности.

Статистическая достоверность , или статистическая значимость, результатов исследования определяется при помощи методов статистического вывода. Эти методы будут подробнее рассмотрены в теме «Проверка гипотез». Отметим, что они предъявляют определенные требования к численности, или объему выборки.

Наибольший объем выборки необходим при разработке диагности­ческой методики - от 200 до 1000-2500 человек.

Если необходимо сравнить 2 выборки, их общая численность должна быть не менее 50 человек; численность сравниваемых выборок должна быть приблизительно одинаковой.

Если изучается взаимосвязь между какими-либо свойствами, то объем выборки должен быть не меньше 30-35 человек.

Чем больше изменчивость изучаемого свойства, тем больше должен быть объем выборки. Поэтому изменчивость можно уменьшить, увеличивая однородность выборки, например по полу, возрасту и т.д. При этом, естественно, уменьшаются возможности генерализации выводов.

Зависимые и независимые выборки. Обычна ситуация исследования, когда интересующее исследователя свойство изучается на двух или более выборках с целью их дальнейшего сравнения. Эти выборки могут находиться в различных соотношениях - в зависимости от процедуры их организации. Независимые выборки характеризуются тем, что вероятность отбора любого испытуемого одной выборки не зависит от отбора любого из испытуемых другой выборки. Напротив, зависимые выборки характеризуются тем, что каждому испытуемому одной выборки поставлен в соответствие по определенному критерию испытуемый из другой выборки.

Наиболее типичным примером независимой выборки является, например, сравнение мужчин и женщин по уровню интеллекта.

Необходимость проводить выборочные исследования, может быть вызвана различными причинами:

    часто полное исследование изучаемого явления слишком дорого стоящее и длительное;

    иногда возможность использовать полученную информацию при полном исследовании может исчерпаться раньше, чем завершится процесс его подготовки;

    в некоторых случаях в результате проверки качества изделия происходит уничтожение исследуемого объекта.

Пример:

    предположим, совокупность — это все учащиеся школы (600 человек из 20 классов, по 30 человек в каждом классе). Предмет изучения — отношение к курению.

Генеральная совокупность — это набор объектов, о которых необходимо получить информацию.

Генеральная совокупность состоит из всех объектов, которые имеют качества, свойства, интересующие исследователя. Иногда генеральная совокупность — это все взрослое население определённого региона (например, когда изучается отношение потенциальных избирателей к кандидату), чаще всего задаётся несколько критериев, определяющих объекты исследования. Например, женщины 10-89 лет, использующие крем для рук определённой марки не реже одного раза в неделю, и имеющие доход не ниже 5 тысяч рублей на одного члена семьи.

Выборка — это небольшой набор объектов, извлеченных из генеральной совокупности.

Выборочная совокупность — это необходимый для исследования минимум результатов (случаев, испытуемых, объектов, событий, образцов) отобранных с помощью определённой процедуры из генеральной совокупности.

Примеры:

    выявление реакции клиентов фирмы на нововведения, все клиенты фирмы представляют собой генеральную совокупность. Те клиенты, которых обзвонили, образуют выборку.

    При аудиторской проверке фирм с большим числом сделок приходится довольствоваться изучением отобранного числа сделок. Все сделки фирмы образуют генеральную совокупность, отобранные — выборку.

    генеральную совокупность образуют все призывники определенного года.

    все лампы, изготовленные за определенное время на некотором предприятии, образуют генеральную совокупность. Те лампы, которые отобраны для контроля, — выбору.

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной. Выборка будет репрезентативной при обследовании большой группы людей, если внутри этой группы есть представители разных подгрупп, только так можно сделать верные выводы. .

Репрезентати́вность — соответствие характеристик выборки характеристикам популяции или генеральной совокупности в целом. Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определённой выборки на всю генеральную совокупность, из которой она была собрана.

Также репрезентативность можно определить, как свойство выборочной совокупности представлять параметры генеральной совокупности, значимые с точки зрения задач исследования.

Пример: выборка, состоящая из 60 учеников старших классов, гораздо хуже представляет совокупность, чем выборка из тех же 60 человек, в которую войдут по 3 ученика из каждого класса. Главной причиной тому — неравное возрастное распределение в классах. Следовательно, в первом случае репрезентативность выборки низкая, а во втором случае репрезентативность высокая (при прочих равных условиях).

Задача 1. В городе, насчитывающем 253 000 жителей, имеющих право голосовать, исследуйте политические симпатии будущих избирателей.

Решение

    Выборку можно построить, опрашивая каждого 15-о покупателя, выходящего из крупного торгового центра. Такая выборка будет отражать мнение посетителей торгового центра, но вряд ли будет представлять точку зрения всех жителей города.

    Другой метод построения выборки — провести опрос по телефону каждого 100-го жителя города, взяв номера из телефонного справочника. Такая систематическая выборка даст информацию о точке зрения группы людей, имеющих телефон, находящихся дома и отвечающих на телефонные звони. Но она не отражает мнения всех жителей города.

    Еще один метод построить выборку может заключаться в том, чтобы опросить участников митинга, организованного несколькими политическими партиями. Такая выборкка даст информацию о жителях, активно участвующих в политической жизни города.

Итак, нужны такие способы образования выборки, которые представляли бы всю генеральную совокупность, т. е. выборка должна быть репрезентативной (представительной).

Задача 2. Определить, является ли репрезентативной выборка:

1) число автомобильных аварий в июне, если необходимо составить статистический отчет по авариям в городе за год;

2) городские жители при подсчете числа автомобилей на душу населения в стране;

3) люди в возрасте от 40 до 50 лет при выяснении рейтинга молодежной телепрограммы.

Решение

1) Выборка не является репрезентативной. Летом нет снега и наледи на дорогах, а это одна из основных причин аварий.

2) Выборка не является репрезентативной. Понятно, что в городе машин намного больше, чем в сельских районах. Это необходимо учитывать.

3) Выборка не является репрезентативной. Люди в возрасте от 40 до 50 лет едва ли проявят интерес к программе, ориентированной на молодежную аудиторию. При использовании такой выборки рейтинг может сильно упасть, но это не отразит реального положения вещей. Для формирования выборочной совокупности применяются различные способы отбора. Статистические данные должны быть представлены так, чтобы ими можно было пользоваться.

Параметры генеральной совокупности и выборки

N - генеральная совокупность, которая подразделяется на страты N 1 , N 2 и так далее.

Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными.

N - объем выборки.

В основе статистических выводов проведенного исследования лежит распределение случайной величины Х, наблюдаемые же значения х 1 , х 2 , х 3 называются реализациями случайной величины x.

Распределение случайной величины X в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением

Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение о виде распределения может быть как статистически верным, так и ошибочным.

Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное.

Важнейшими параметрами распределений являются математическое ожидание а и дисперсия σ 2 - мера разброса данных.

Стандартное отклонение σ - степень отклонения данных наблюдений или множеств от среднего значения.

Задача 3. Михаил вместе со своими друзьями решил измерить рост своих собак (по холке). Найдите: среднее значение; отклонение роста.

Решение

    Математическое ожидание или среднее значение можно найти по формуле:


    Теперь посчитаем отклонение роста каждой собаки от среднего или математического ожидания, то есть посчитаем дисперсию.


Стандартное отклонение это всего лишь квадратный корень из дисперсии.

σ \ = 147,32

Таким образом, зная стандартное отклонение мы знаем, что значит «нормальный рост», и что является очень высокой и очень маленькой собакой.

Ответ: 394, 21,704; 147,32.

Задача 4. Наблюдение в контрольной лаборатории за сроком годности 50 электроламп одинаковой мощности, взятых наудачу из большой партии выпущенных заводом ламп этой же мощности, привело к следующим данным о нарушении установленного гарантийного срока горения:

Отклонение в Ч

10 мального распределения, которое отражает отклонение фактического срока горения лампочек от гарантийного.

Решение.

Среднее отклонение

Таким образом, искомое нормальное распределение характеризуется следующими значениями параметров: а = 0,4; σ 2 = 318; σ = 17,8.

Отсюда плотность вероятности:

Соответствующая этой плотности функция распределения будет выглядеть:

В результате изучения материала главы 2 обучающийся должен:

знать

  • основные понятия генеральной и выборочной совокупностей;
  • методы оценивания, виды и свойства оценок параметров генеральной совокупности;
  • основные методы статистической проверки гипотез относительно параметров одномерной и многомерной генеральных совокупностей;

уметь

  • находить по выборочным данным оценки параметров одномерной и многомерной генеральных совокупностей;
  • анализировать свойства параметров;
  • проверять гипотезы относительно параметров и вида распределения генеральной совокупности;
  • сравнивать параметры нескольких генеральных совокупностей;

владеть

  • навыками статистического оценивания параметров одномерной и многомерной генеральных совокупностей;
  • навыками проверки гипотез относительно параметров и вида распределения генеральной совокупности при проведении социально-экономических исследований с использованием аналитического программного обеспечения.

Распределение генеральной совокупности

Вероятностно-статистические методы анализа данных предполагают, что закономерности, которым подчиняется исследуемая переменная (случайная величина), полностью определяются комплексом условий ее наблюдения. Математически эти закономерности задаются соответствующим законом распределения вероятностей. Однако при проведении статистических исследований более удобным является понятие генеральной совокупности.

Таким образом, математические понятия "генеральная совокупность", "случайная величина" и "закон распределения вероятностей", соответствующие данному комплексу условий, можно считать в определенном смысле синонимами.

Генеральной совокупностью называют множество всех мыслимых наблюдений, которые могли бы быть произведены при данном комплексе условий .

Поскольку в определении речь идет о мысленно возможных наблюдениях (или объектах), то генеральная совокупность есть понятие абстрактное, и ее не следует смешивать с реальными совокупностями, подлежащими статистическому исследованию. Так, обследовав даже все предприятия подотрасли, мы можем рассматривать их как представителей гипотетически возможной более широкой совокупности предприятий, которые могли бы функционировать в рамках комплекса условий.

Генеральная совокупность может быть как конечной, так и бесконечной. Конечная совокупность имеет место, например, при обследовании семейных бюджетов, когда выборка берется из совокупности семей, фактически имеющихся в стране. Затем осуществляются наблюдения за доходами и расходами отобранных семей. Бесконечная генеральная совокупность наблюдается, например, в научных исследованиях, когда нас интересует средний результат большого числа экспериментов.

В простейшем случае генеральная совокупность есть одномерная случайная величина х с функцией распределения, которая определяет вероятность того, что х примет значение, меньшее фиксированного действительного числа.

В общем случае изучаются генеральные совокупности, включающие несколько признаков (обычно более двух). Рассматриваемое множество признаков обозначается вектором, имеющим k компонент, каждая из которых характеризует соответствующий признак. Для анализа вектора X используются многомерные статистические методы .

Таким образом, объектом исследования в многомерном анализе является случайный вектор X, или случайная точка в ft-мерном евклидовом пространстве, система к случайных (одномерных) величин, ft-мерная случайная величина

Функцией распределения случайного вектора называется детерминированная неотрицательная величина, определяемая по формуле

где-мерный вектор фиксированных действительных чисел.

Детерминированная неотрицательная величина F(X)

Различают:

  • непрерывные k -мерные случайные величины, все компоненты которых – непрерывные (одномерные) случайные величины;
  • дискретные k -мерные случайные величины, все компоненты которых – дискретные случайные величины;
  • смешанные k -мерные случайные величины, среди компонент которых есть как дискретные, так и непрерывные случайные величины.

Функция распределения F(X) для непрерывной k -мерной случайной величины является непрерывной по определению.

Плотность распределения вероятностей непрерывной k -мерной случайной величины удовлетворяет условию

Плотность f(X) обладает следующими свойствами:

Площадь, ограниченная сверху графиком плотности, всегда равна единице:

где через k обозначено общее число (кратность) интегралов;

Вероятность попадания точки () в какую-нибудь область G равна

Из определения плотности следует, что если проинтегрировать совместную плотность распределения двух величин х 1, х 2 по одной, например в бесконечных пределах, то получим плотность распределения вероятностей другой величины:

Аналогично имеем

Плотности вероятностей, функции распределения подсистем, случайных величин системы к случайных величин называют частными или маргинальными распределениями .

Условными распределениями случайного вектора X называются распределения подсистемы, его компонент при условии, что остальные компоненты являются фиксированными. Эти компоненты будут отделяться от нефиксируемых косой чертой.

Для непрерывной случайной величины справедливы, например, формулы, определяющие плотность условного распределения двумерной случайной величины (), являющейся подсистемой системы () при условии, что в ней фиксированы три последние компоненты:

Подсистема, компонент и дополнительная подсистема компонент вектора X называются независимыми (стохастически, вероятностно), если справедливо равенство

В частности, компоненты вектора X называются независимыми , если

В случае независимости справедливы аналогичные формулы для произведений плотностей или вероятностей маргинальных распределений и совпадение условных распределений с соответствующими маргинальными (23].

Распределение случайной величины содержит всю информацию о ее статистических свойствах. Много ли нужно знать значений случайной величины, чтобы построить ее распределение? Для этого нужно исследовать ее генеральную совокупность .

Генеральная совокупность - множество всех значений, которые может принимать данная случайная величина.

Число единиц в генеральной совокупности называется ее объемом N . Эта величина может быть конечной и бесконечной. Например, если исследуется рост жителей некоторого города, то объем генеральной совокупности будет равен числу жителей города. Если выполняется любой физический эксперимент, то объем генеральной совокупности будет бесконечным, т.к. число всех возможных значений любого физического параметра равно бесконечности.

Исследование генеральной совокупности не всегда возможно и целесообразно. Оно невозможно, если объем генеральной совокупности бесконечен. Но и при конечных объемах полное исследование не всегда оправдано, поскольку требует больших затрат времени и труда, а абсолютная точность результатов обычно не требуется. Менее точные результаты, но со значительно меньшими затратами сил и средств можно получить при исследовании только части генеральной совокупности. Такие исследования называются выборочными.

Статистические исследования, проводимые только на части генеральной совокупности, называются выборочными, а исследуемая часть генеральной совокупности называется выборкой.

На рисунке 7.2 символически показаны генеральная совокупность и выборка в виде множества и его подмножества.

Рисунок 7.2 Генеральная совокупность и выборка

Работая с некоторым подмножеством данной генеральной совокупности, часто составляющим незначительную ее часть, мы получаем результаты, по точности вполне удовлетворительные для практических целей. Исследование большей части генеральной совокупности только увеличивает точность, но не изменяет сути результатов, если выборка взята правильно со статистической точки зрения.

Для того, чтобы выборка отражала свойства генеральной совокупности и результаты были достоверными, она должна быть репрезентативной (представительной).

У некоторых генеральных совокупностей любая их часть является репрезентативной в силу их природы. Однако в большинстве случаев необходимо принимать специальные меры для обеспечения репрезентативности выборок.

Одним из главных достижений современной математической статистики считается разработка теории и практики метода случай ных выборок, обеспечивающих репрезентативность отбора данных.

Выборочные исследования всегда проигрывают в точности по сравнению с исследованием всей генеральной совокупности. Однако с этим можно примириться, если величина погрешности будет известной. Очевидно, что чем больше объем выборки будет приближаться к объему генеральной совокупности, тем погрешность будет меньшей. Отсюда ясно, что проблемы статистического вывода становятся особенно актуальными при работе с малыми выборками (N ? 10-50).



error: