Является ли выборка частью генеральной совокупности. Генеральная и выборочная совокупности

Понятие репрезентативности. Концептуальный объект и генеральная совокупность. Проектируемый объект. Проектируемая и реальная генеральная совокупности.

Мы знаем, что социологическая наука имеет дело не с текучей непосредственностью жизни, а с данными, организованными по определенным правилам в пространстве признаков. Под данными имеются в виду значения переменных, приписанные единицам исследования - объектам. Эти объекты - сообщества, институции, люди, тексты, вещи - образуют в пространстве признаков многообразные и нередко причудливые конфигурации, давая исследователю возможность высказывать обобщающие суждения о действительности.

Как только речь заходит о действительности, обнаруживается, что полученные данные относятся, строго говоря, только к регистрационным документам (анкетам, бланкам интервью, протоколам наблюдения и т. п.). Нет никаких гарантий, что действительность за окнами лаборатории (скажем, по ту сторону шкал) не окажется иной. До выборочной процедуры мы еще не дошли, но уже встает вопрос о репрезентативности данных: можно ли распространить сведения, полученные в процессе обследования, на объекты, находящиеся за пределами нашего конкретного опыта? Ответ однозначен: можно. В противном случае наши наблюдения не выходили бы за рамки «здесьи-теперь-совокупности». Они относились бы не к москвичам, а к тем, кто только что был опрошен по телефону в Москве; не к читателям газеты «Неделя», а к тем, кто прислал в редакцию по почте заполненный отрывной купон. После завершения опроса мы обязаны считать, что и «москвичи», и «читатели» остались прежними. Мы верим в стабильность мира потому, что научные наблюдения обнаруживают удивительное постоянство.

Любое единичное наблюдение распространяется на более широкую сферу наблюдений, и проблема репрезентации заключается в том, чтобы установить степень соответствия между параметрами обследованной совокупности и «реальными» характеристиками объекта. Выборочная процедура предназначена как раз для того, чтобы реконструировать реальный объект исследования и генеральную совокупность из отдельных моментных наблюдений.

Понятие выборочной репрезентативности близко понятию внешней валидности; только в первом случае производится экстраполяция одной и той же характеристики на более широкую совокупность единиц, а во втором - переход из одного смыслового контекста в другой. Выборочная процедура осуществляется каждым человеком тысячу раз на дню, при этом никто особенно не задумывается над репрезентативностью наблюдений. Опыт заменяет калькуляцию. Чтобы узнать, хорошо ли посолена каша, вовсе не обязательно съедать всю кастрюлю - здесь более эффективны методы неразрушающего контроля, в том числе выборочная проверка: нужно попробовать одну ложечку. При этом надо быть уверенным, что каша хорошо перемешана. Если каша перемешана плохо, имеет смысл провести не один замер, а серию, т. е. попробовать в разных местах кастрюли - это уже выборка. Сложнее убедиться в том, что ответ студента на экзамене репрезентирует его знания, а не является случайной удачей либо неудачей. Для этого и задаются несколько вопросов. Предполагается, что, если бы студент ответил на все возможные вопросы по предмету, результат был бы «истинный», т. е. отражал реальные знания. Но тогда никто не смог бы выдержать экзамен.



В основании выборочной процедуры всегда лежит «если бы» - предположение о том, что экстраполяция наблюдений существенноне изменит полученный результат. Поэтому генеральную совокупность можно определить как «объективную возможность» выборочной совокупности.

Проблема несколько усложняется, если разобраться в том, что имеется в виду под объектом исследования. Изучив достаточно многочисленную совокупность людей, социолог приходит к выводу, что переменная «радикализм-консерватизм» положительно коррелирует с возрастом: в частности, старшие поколения обнаруживают скорее консервативность, чем революционность. Но обследованный объект - выборочная совокупность - не существует в реальности как таковой. Он сконструирован процедурой отбора респондентов и проведения интервью, а затем сразу же исчезает, растворяется в массиве. Действительно, выборочная совокупность, с которой непосредственно «снимаются» данные, порождается процедурой, но в то же время она растворена в большой совокупности, которую представляет или репрезентирует с разной степенью точности и надежности. Социологические заключения относятся не к обследованным на прошлой неделе респондентам, а к идеализированным объектам: «старшим поколениям», «молодежи», тем, кто обнаруживает «радикализм» или «консерватизм». Речь идет о категориальных обобщениях, не ограниченных пространственно-временными обстоятельствами. В этом отношении выборочная процедура помогает освободиться от наблюдений и перейти в мир идей.

Таким образом, у нас есть возможность провести разграничение объекта исследования и генеральной совокупности: объект - не просто совокупность единиц, а понятие, в соответствии с которым осуществляется идентификация и отбор единиц исследования. В этом отношении справедливо гегелевское предписание считать истинным только то бытие, которое соответствует своему понятию. Теоретически объем понятия, обозначающего объект исследования, должен соответствовать объему генеральной совокупности. Однако такое соответствие достигается крайне редко.

Нам понадобится понятие концептуального объекта - идеального конструкта, обозначающего рамки темы. «Россияне», «аудитория центральных газет», «электорат», «демократическая общественность» - таковы типичные объекты исследовательского интереса социологов. Несомненно, концептуальному объекту должна соответствовать вполне реальная генеральная совокупность. Для этого необходимо предусмотреть еще один объект исследования - проектируемый объект. Проектируемый объект - это совокупность доступных исследователю единиц. Задача состоит в том, чтобы установить группы, являющиеся недоступными либо труднодоступными для сбора данных.

Очевидно, что обследовать объект, обозначаемый как «россияне», практически невозможно. Среди россиян немало людей находится в тюрьмах, исправительно-трудовых учреждениях, в следственных изоляторах и иных труднодоступных для интервьюера местах. Эту группу придется «вычесть» из проектируемого объекта. «Вычесть» придется и многих пациентов психиатрических больниц, детей, часть престарелых. Вряд ли гражданскому социологу удастся обеспечить нормальные шансы на попадание в выборку и военнослужащим. Аналогичные проблемы сопровождают обследование читателей, избирателей, жителей малых городов, посетителей театров.

Перечисленные затруднения - лишь малая часть тех, зачастую непреодолимых препятствий, с которыми сталкивается социолог на полевой стадии исследования. Специалист должен предвидеть эти затруднения и не строить иллюзий по поводу полной реализации проектируемого объекта. В противном случае его ждут разочарования.

Итак, объект исследования не совпадает с генеральной совокупностью примерно так же, как карта местности не совпадает с самой местностью.

Долго думали-гадали, Генералы все писали на большом листу. Было гладко на бумаге, да забыли про овраги, А по ним ходить, -

эти слова из старинной солдатской песни вполне применимы к проектированию выборки, если учесть, что ходить придется по квартирам.

Несомненно, генеральная совокупность - это та совокупность, из которой производится выборка единиц. Однако так только кажется. Выборка производится из той совокупности, из которой производится фактический отбор респондентов. Назовем ее реальной. Различия между проектируемой и реальной совокупностями можно увидеть воочию, сравнив списки «проектированных» респондентов и опрошенных фактически.

Реальный объект - та совокупность, которая сформировалась на стадии полевого исследования с учетом ограничений в доступности первичной социологической информации. Помимо заключенных, военнослужащих и больных, меньшую вероятность попасть в выборку имеют жители удаленных от транспортных коммуникаций сел, особенно если обследование производится осенью; те, кого, как правило, нет дома, не склонны к разговорам с посторонними людьми и т. п. Бывает, что интервьюеры, пользуясь отсутствием контроля, пренебрегают точным исполнением своих обязанностей и опрашивают не тех, кого положено опрашивать по инструкции, а тех, кого легче «достать». Например, посещать квартиры респондентов интервьюерам приказано по вечерам, когда легче застать их дома. Если исследование проводится, предположим, в ноябре, то уже в пять часов вечера в средней полосе России на улице совершенно темно. Во многих городах таблички с названиями улиц и номерами домов встречаются не часто. Если обязанности интервьюеров выполняют студентки местного пединститута, можно представить степень отклонения реального объекта от проектируемого. Иногда исследователи поступают еще проще: заполняют анкеты сами. Эти затруднения являются одним из источников так называемых систематических ошибок выборки.

Существуют достаточно эффективные способы контроля заполнения вопросников и приемы ремонта выборки, в частности «взвешивание» основных типологических групп респондентов: группы тех, кого не хватает, увеличиваются, а избыточные группы уменьшаются. Так реальный массив подгоняется под проектируемый и это вполне оправданно.

Генеральная совокупность – совокупность элементов, удовлетворяющих неким заданным условиям; именуется также изучаемой совокупностью. Генеральная совокупность (Universe) - все множество объектов (субъектов) исследования, из которого выбираются (могут выбираться) объекты (субъекты) для обследования (опроса).

ВЫБОРКА или выборочная совокупность (Sample) - это множество объектов (субъектов), отобранных специальным образом для обследования (опроса). Любые данные, полученные на основании выборочного обследования (опроса), имеют вероятностный характер. На практике это означает, что в ходе исследования определяется не конкретное значение, а интервал, в котором определяемое значение находится.

Характеристики выборки:

Качественная характеристика выборки – что именно мы выбираем и какие способы построения выборки мы для этого используем.

Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки:

Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.

Существует необходимость в сборе первичной информации.

Объём выборки - число случаев, включённых в выборочную совокупность.

Зависимые и независимые выборки.

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми .

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми.

Типы выборки.

Выборки делятся на два типа:

Вероятностные;

Не вероятностные;

Репрезентативная выборка - выборочная совокупность, в которой основные характеристики совпадают с характеристиками генеральной совокупности. Только для этого типа выборки результаты обследования части единиц (объектов) можно распространять на всю генеральную совокупность. Необходимое условие для построения репрезентативной выборки - наличие информации о генеральной совокупности, т.е. либо полный список единиц (субъектов) генеральной совокупности, либо информация о структуре по характеристикам, существенно влияющим на отношение к предмету исследования.

17. Дискретный вариационный ряд, ранжирование, частота, частность.

Вариационным рядом (статистическим рядом) – называется последовательность вариант, записанных в порядке возрастания и соответствующих им весов.

Вариационный ряд может быть дискретным (выборка значений дискретной случайной величины) и непрерывным (интервальным) (выборка значений непрерывной случайной величины).

Дискретный вариационный ряд имеет вид:

Наблюдаемые значения случайной величины х1, х2, …, хk называются вариантами, а изменение этих значений называются варьированием.

Выборка (выборочная совокупность) – совокупность наблюдений, отобранных случайным образом из генеральной совокупности.

Число наблюдений в совокупности называется ее объемом.

N – объем генеральной совокупности.

n – объем выборки(сумма всех частот ряда).

Частотой варианты хi называется число ni (i=1,…,k), показывающее, сколько раз эта варианта встречается в выборке.

Частостью (относительной частотой, долей) варианты хi (i=1,…,k) называется отношение ее частоты ni к объему выборки n.
wi =ni /n

Ранжирование опытных данных - операция, заключающаяся в том, что результаты наблюдений над случайной величиной, т. е. наблюдаемые значения случайной величины, располагают в порядке неубывания.

Дискретным вариационным рядом распределения называется ранжированная совокупность вариантов хi с соответствующими им частотами или частностями.

Распределение случайной величины содержит всю информацию о ее статистических свойствах. Много ли нужно знать значений случайной величины, чтобы построить ее распределение? Для этого нужно исследовать ее генеральную совокупность .

Генеральная совокупность - множество всех значений, которые может принимать данная случайная величина.

Число единиц в генеральной совокупности называется ее объемом N . Эта величина может быть конечной и бесконечной. Например, если исследуется рост жителей некоторого города, то объем генеральной совокупности будет равен числу жителей города. Если выполняется любой физический эксперимент, то объем генеральной совокупности будет бесконечным, т.к. число всех возможных значений любого физического параметра равно бесконечности.

Исследование генеральной совокупности не всегда возможно и целесообразно. Оно невозможно, если объем генеральной совокупности бесконечен. Но и при конечных объемах полное исследование не всегда оправдано, поскольку требует больших затрат времени и труда, а абсолютная точность результатов обычно не требуется. Менее точные результаты, но со значительно меньшими затратами сил и средств можно получить при исследовании только части генеральной совокупности. Такие исследования называются выборочными.

Статистические исследования, проводимые только на части генеральной совокупности, называются выборочными, а исследуемая часть генеральной совокупности называется выборкой.

На рисунке 7.2 символически показаны генеральная совокупность и выборка в виде множества и его подмножества.

Рисунок 7.2 Генеральная совокупность и выборка

Работая с некоторым подмножеством данной генеральной совокупности, часто составляющим незначительную ее часть, мы получаем результаты, по точности вполне удовлетворительные для практических целей. Исследование большей части генеральной совокупности только увеличивает точность, но не изменяет сути результатов, если выборка взята правильно со статистической точки зрения.

Для того, чтобы выборка отражала свойства генеральной совокупности и результаты были достоверными, она должна быть репрезентативной (представительной).

У некоторых генеральных совокупностей любая их часть является репрезентативной в силу их природы. Однако в большинстве случаев необходимо принимать специальные меры для обеспечения репрезентативности выборок.

Одним из главных достижений современной математической статистики считается разработка теории и практики метода случай ных выборок, обеспечивающих репрезентативность отбора данных.

Выборочные исследования всегда проигрывают в точности по сравнению с исследованием всей генеральной совокупности. Однако с этим можно примириться, если величина погрешности будет известной. Очевидно, что чем больше объем выборки будет приближаться к объему генеральной совокупности, тем погрешность будет меньшей. Отсюда ясно, что проблемы статистического вывода становятся особенно актуальными при работе с малыми выборками (N ? 10-50).

Лекция 6. Элементы математической статистики

Вопросы для контроля знаний и подведения итога прочитанной лекции

1. Дайте определение случайной величины.

2.Напишите формулы для математического ожидания и дисперсии дискретной и непрерывной случайных величин.

3. Дайте определение локальной интегральной предельная теорем Лапласа

4. Напишите формулы, задающие биномиальное распределение, гипергеометрическое распределение, распределение Пуассона, равномерное распределение и нормальное распределение.

Цель: Изучить основные понятия математической статистики

1. Генеральная совокупность и выборка

2. Статистическое распределение выборки. Полигон. Гистограмма.

3. Оценки параметров генеральной совокупности по ее выборке

4. Генеральная и выборочная средние. Методы их расчета.

5. Генеральная и выборочная дисперсии.

6. Вопросы для контроля знаний и подведения итога прочитанной лекции

Мы приступаем к изучению элементов математической статистики, в которой разрабатываются научно обоснованные методы сбора статистических данных и их обработки.

1. Генеральная совокупность и выборка. Пусть требуется изучить множество однородных объектов (это множество называется статистической совокупностью) относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным - контролируемый размер детали.

Лучше всего произвести сплошное обследование, т.е. изучить каждый объект. Однако в большинстве случаев по разным причинам это сделать невозможно. Препятствовать сплошному обследованию может большое число объектов, недоступность их. Если, например, нужно знать среднюю глубину воронки при взрыве снаряда из опытной партии, то, производя сплошное обследование, мы уничтожим всю партию.

Если сплошное обследование невозможно, то из всей совокупности выбирают для изучения часть объектов.

Статистическая совокупность, из которой отбирают часть объектов, называется генеральной совокупностью. Множество объектов, случайно отобранных из генеральной совокупности, называют выборкой.

Число объектов генеральной совокупности и выборки называют соответственно объемом генеральной совокупности и объемом выборки.

Пример 10.1. Плоды одного дерева (200 шт.) обследуют на наличие специфического для данного сорта вкуса. Для этого отбирают 10 шт. Здесь 200 - объем генеральной совокупности, а 10 - объем выборки.

Если выборку отбирают по одному объекту, который обследуют и снова возвращают в генеральную совокупность, то выборка называется повторной. Если объекты выборки уже не возвращаются в генеральную совокупность, то выборка называется бесповторной.



На практике чаще используется бесповторная выборка. Если объем выборки составляет небольшую долю объема генеральной совокупности, то разница между повторной и бесповторной выборками незначительна.

Свойства объектов выборки должны правильно отражать свойства объектов генеральной совокупности, или, как говорят, выборка должна быть репрезентативной (представительной). Считается, что выборка репрезентативна, если все объекты генеральной совокупности имеют одинаковую вероятность попасть в выборку, т. е. выбор производится случайно. Например, для того чтобы оценить будущий урожай, можно сделать выборку из генеральной совокупности еще не созревших плодов и исследовать их характеристики (массу, качество и пр.). Если вся выборка будет сделана с одного дерева, то она не будет репрезентативной. Репрезентативная выборка должна состоять из случайно выбранных плодов со случайно выбранных деревьев.

2. Статистическое распределение выборки. Полигон. Гистограмма. Пусть из генеральной совокупности извлечена выборка, причем х 1 наблюдалось n 1 , раз, х 2 - п 2 раз, ..., х k - n k раз и n 1 +n 2 +…+ п k = п - объем выборки. Наблюдаемые значения x 1 , x 2 , …, x k называют вариантами, а последовательность вариант, записанная в возрастающем порядке, - вариационным рядом. Числа наблюдений n 1 , n 2 , …, n k называют частотами, а их отношения к объему выборки , , …, - относительными частотами. Отметим, что сумма относительных частот равна единице: .

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот. Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (непрерывное распределение). В качестве частоты, соответствующей интервалу, принимают сумму частот вариант, попавших в этот интервал. Для графического изображения статистического распределения используют полигоны и гистограммы.

Для построения полигона на оси Ох откладывают значения вариант х i , на оси Оу - значения частот п i (относительных частот ).

Пример 10.2. На рис. 10.1 показан полигон следующего распределения

Полигоном обычно пользуются в случае небольшого числа вариант. В случае большого числа вариант и в случае непрерывного распределения признака чаще строят гистограммы. Для этого интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала п i , - сумму частот вариант, попавших в i -интервал. Затем на этих интервалах, как на основаниях, строят прямоугольники с высотами (или , где п - объем выборки).

Площадь i частичного прямоугольника равна , (или ).

Следовательно, площадь гистограммы равна сумме всех частот (или относительных частот), т.е. объему выборки (или единице).

Пример 10.3. На рис. 10.2 показана гистограмма непрерывного распределения объема n = 100, приведенного в следующей таблице.

100 р бонус за первый заказ

Выберите тип работы Дипломная работа Курсовая работа Реферат Магистерская диссертация Отчёт по практике Статья Доклад Рецензия Контрольная работа Монография Решение задач Бизнес-план Ответы на вопросы Творческая работа Эссе Чертёж Сочинения Перевод Презентации Набор текста Другое Повышение уникальности текста Кандидатская диссертация Лабораторная работа Помощь on-line

Узнать цену

Генеральная совокупность - вся изучаемая выборочным методом статистическая совокупность объектов и/или явлений общественной жизни, имеющих общие качественные признаки или количественные переменные.

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей:
- Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
- Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
- Юридические лица России (2,2 млн. на начало 2005 года)
- Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Корректное определение Г.С. и ее характеристик чрезвычайно важно для выбора дизайна исследования - стратегии построения репрезентативной выборки (см. ). Важнейшими характеристиками Г.С. являются ее объем и доступность элементов для определения.

С точки зрения объема, принято выделять конечные и бесконечные Г.С. Это деление является чисто техническим, оно обусловлено особенностями процедур оценивания объема и ошибок репрезентативной вероятностной (случайной) выборки. Конечными считаются Г.С., численность которых сопоставима с объемом выборки. Если объем выборки превышает несколько процентов от численности Г.С., ошибку выборки необходимо оценивать с поправкой на объем Г.С.

Бесконечными называются Г.С., объем которых, по сравнению с объемом репрезентативной случайной выборки, несоизмеримо велик. Строго говоря, все Г.С. в социальных науках конечны (даже если их численность составляет несколько миллиардов), однако на практике Г.С. можно считать бесконечной, если объем выборки, обеспечивающий приемлемый уровень ошибки, не превышает 1-2 % от ее численности. Иногда понятие бесконечности связывают непосредственно с объемом Г.С., например, более ста тысяч объектов.

Г.С., принадлежность к которым очевидна или легко устанавливается, называются конкретными. Для конкретных Г.С. несложно определить объем и получить относительно полный список их элементов - основу выборки (см. Выборки основа ). Например, список совершеннолетних жителей города можно получить в адресном столе, а списки студентов крупного города - в университетах. Если конкретная Г.С. очень велика (например, население страны), списки могут быть получены для всех ее структурных частей. Построение репрезентативной выборки случайной (см. ) для конкретных Г.С. технически всегда возможно; проблемы могут возникнуть в связи с недостатком времени, квалифицированного персонала или материальных ресурсов.

Г.С., принадлежность к которой можно установить только в результате целенаправленных процедур или специальных исследований, называются гипотетическими. К таким Г.С. относятся, например, аудитории СМК (нельзя узнать, видел ли человек конкретный рекламный ролик, если не спросить его об этом), любители определенных видов аквариумных рыбок, эксперты по узкой проблеме и т.п. Для определения объема некоторых гипотетических Г.С. также необходимы специальные исследования. Возможность построения репрезентативной выборки случайной (см. ) для гипотетичных Г.С. большого объема во многих случаях представляется проблематичной.

ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ ПАРАМЕТР - статистический термин, применяемый для обозначений любой количественной характеристики генеральной совокупности (см. ). Математическое ожидание (см. ), дисперсия (см. ), вероятность (см. ) положительного ответа, коэффициент корреляции между двумя случайными величинами (см. ) являются Г.С.П. Аналогичные характеристики выборки (см. ) называются статистиками выборочными (см. ).

Выборка (Выборочная совокупность) - множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.
Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Характеристики выборки:

Качественная характеристика выборки - кого именно мы выбираем и какие способы построения выборки мы для этого используем.

Количественная характеристика выборки - сколько случаев выбираем, другими словами объём выборки.

Объём выборки — число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30—35.