-
Ошибки статистического наблюдения и меры борьбы с ними.
Всякое статистическое наблюдение
ставит задачу получения таких данных,
которые точнее бы отображали
действительность. Точность
и достоверность собираемой статистической
информации – важнейшая задача
статистического наблюдения.
Под точностью
статистической информации понимается
уровень соответствия величины изучаемого
показателя показателю, получаемому
посредством статистического наблюдения
действительному его значению. Чем ближе
величина показателей, полученных в
результате статистического наблюдения,
к фактическим их значениям, тем выше
точность статистического наблюдения.
В зависимости от
характера и степени влияния на конечные
результаты наблюдения, а так же исходя
из источников и причин возникновения
неточностей, допускаемых в процессе
статистического наблюдения, обычно
выделяют ошибки регистрации и ошибки
репрезентативности (представительности).
Ошибки
регистрации
возникают вследствие неправильного
установления фактов в процессе наблюдения
или неправильной их записи. Они
подразделяются на случайные
и систематические
и могут быть как при сплошном, так и при
несплошном наблюдении – рис. 2.1.
Ошибки
репрезентативности (представительности)
свойственны несплошному наблюдению.
Они возникают в результате того, что
состав отобранной для обследования
части единиц совокупности недостаточно
полно отображает состав всей совокупности,
хотя регистрация сведений по каждой
отобранной для обследования единице
была проведена точно. Ошибки
репрезентативности, так же как и ошибки
регистрации могут быть случайными и
систематическими:
-
случайные
ошибки репрезентативности
– это отклонения, возникающие при
несполошном наблюдении из-за того, что
совокупность отобранных единиц
наблюдения неполно воспроизводит всю
совокупность в целом; -
систематические
ошибки репрезентативности
– это отклонения, возникающие вследствие
нарушения принципов случайного отбора
единиц изучаемой совокупности.
Ошибки регистрации
Систематические ошибки
Случайные ошибки
– ошибки регистрации, которые могут
быть допущены как опрашиваемыми в их
ответах, так и регистраторами при
заполнении бланков.
Преднамеренные
ошибки получаются в результате
того, что опрашиваемый, зная действительное
положение дела, сознательно сообщает
неправильные данные.
Непреднамеренные
ошибки вызываются различными
случайными причинами (небрежность,
невнимание регистратора; неисправность
измерительных приборов).
Рис.
2.1. Виды ошибок регистрации.
Для
выявления и устранения допущенных при
регистрации ошибок может применяться
счетный и логический контроль собранного
материала.
Счетный
контроль
заключается в проверке точности
арифметических расчетов, применявшихся
при составлении отчетности или заполнении
формуляров обследования.
Логический
контроль
заключается в проверке ответов на
вопросы программы наблюдения путем их
логического осмысления или путем
сравнения полученных данных с другими
источниками по этому же вопросу.
Примером
логического сравнения могут служить
листы переписи населения: в переписном
листе двухлетний ребенок имеет высшее
образование, а девятилетний мальчик
женат. Ясно, что полученные ответы на
вопросы не верны и требуют уточнения и
исправления допущенных ошибок.
Так же примером
логического контроля может являться
сопоставление сведений о фонде заработной
платы, содержащихся в отчете по труду
и в отчете по издержкам обращения.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Как мы уже знаем, репрезентативность — свойство выборочной совокупности представлять характеристику генеральной. Если совпадения нет, говорят об ошибке репрезентативности — мере отклонения статистической структуры выборки от структуры соответствующей генеральной совокупности. Предположим, что средний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной — 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, а в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокупностями — генеральной, на которую направлен теоретический интерес социолога и представление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес социолога, которая выступает одновременно как объект обследования и средство получения информации о генеральной совокупности.
Наряду с термином «ошибка репрезентативности» в отечественной литературе можно встретить другой — «ошибка выборки». Иногда они употребляются как синонимы, а иногда «ошибка выборки» используется вместо «ошибки репрезентативности» как количественно более точное понятие.
Ошибка выборки — отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.
На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результаты предшествующих опросов. В качестве контрольных параметров обычно применяются социально-демографические признаки. Сравнение средних генеральной и выборочной совокупностей, на основе этого определение ошибки выборки и ее уменьшение называется контролированием репрезентативности. Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой способ контроля называется апостериорным, т.е. осуществляемым после опыта.
В опросах Института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изучения общественного мнения (ВЦИОМ) использует для подобных целей такие показатели, как пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента, которые заимствуются в Государственном комитете по статистике РФ. В том и другом случае генеральная совокупность известна. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.
Специалисты ВЦИОМ обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим образованием больше времени проводят дома и легче идут на контакт с интервьюером, т.е. являются легко достижимой группой по сравнению с мужчинами и людьми «необразованными»35.
Ошибка выборки обусловливается двумя факторами: методом формирования выборки и размером выборки.
Ошибки выборки подразделяются на два типа — случайные и систематические. Случайная ошибка — это вероятность того, что выборочная средняя выйдет (или не выйдет) за пределы заданного интервала. К случайным ошибкам относят статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности.
Второй тип ошибок выборки — систематические ошибки. Если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смещение выборки в пользу зажиточных слоев, т.е. систематическая ошибка.
Таким образом, систематические ошибки — результат деятельности самого исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов исследования. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и измерению.
Они возникают, когда, например:
- выборка не соответствует задачам исследования (социолог решил изучить только работающих пенсионеров, а опросил всех подряд);
- налицо незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, а оказалось, что не работает только 10%);
- отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры).
Внимание! В отличие от случайных ошибок систематические ошибки при возрастании объема выборки не уменьшаются.
Обобщив все случаи, когда происходят систематические ошибки, методисты составили их реестр. Они полагают, что источником неконтролируемых перекосов в распределении выборочных наблюдений могут быть следующие факторы:
- нарушены методические и методологические правила проведения социологического исследования;
- выбраны неадекватные способы формирования выборочной совокупности, методы сбора и расчета данных;
- произошла замена требуемых единиц наблюдения другими, более доступными;
- отмечен неполный охват выборочной совокупности (недополучение анкет, неполное их заполнение, труднодоступность единиц наблюдения).
Намеренные ошибки социолог допускает редко. Чаще ошибки возникают из-за того, что социологу плохо известна структура генеральной совокупности: распределение людей по возрасту, профессии, доходам и т.д.
Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать систематические ошибки, точно предвидя их источники, лучше всего заранее — в самом начале исследования.
Вот некоторые способы избежать ошибок выборки:
- каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;
- отбор желательно производить из однородных совокупностей;
- надо знать характеристики генеральной совокупности;
- при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.
Если выборочная совокупность (или просто выборка) составлена правильно, то социолог получает надежные результаты, харастеризующие всю генеральную совокупность. Если она составлена неправильно, то ошибка, возникшая на этапе составления выборки, на каждом следующем этапе проведения социологического исследования приумножается и достигает в конечном счете такой величины, которая перевешивает ценность проведенного исследования. Говорят, что от такого исследования больше вреда, нежели пользы.
Подобные ошибки могут произойти только с выборочной совокупностыо. Чтобы избежать или уменьшить вероятность ошибки, самый простой способ — увеличивать размеры выборки (в идеале до объема генеральной: когда обе совокупности совпадут, ошибка выборки вообще исчезнет). Экономически такой метод невозможен. Остается другой путь — совершенствовать математические методы составления выборки. Они то и применяются на практике. Таков первый канал проникновения в социологию математики. Второй канал — математическая обработка данных.
Особенно важной проблема ошибок становится в маркетинговых исследованиях, где используются не очень большие выборки. Обычно они составляют несколько сотен, реже — тысячу респондентов. Здесь исходным пунктом расчета выборки выступает вопрос об определении размеров выборочной совокупности. Численность выборочной совокупности зависит от двух факторов:
- стоимости сбора информации,
- стремления к определенной степени статистической достоверности результатов, которую надеется получить исследователь.
Конечно, даже не искушенные в статистике и социологии люди интуитивно понимают, что чем больше размеры выборки, т.е. чем ближе они к размерам генеральной совокупности в целом, тем более надежны и достоверны полученные данные. Однако выше мы уже говорили о практической невозможности сплошных опросов в тех случаях, когда они проводятся на объектах, численность которых превышает десятки, сотни тысяч и даже миллионы. Понятно, что стоимость сбора информации (включающая оплату тиражирования инструментария, труда анкетеров, полевых менеджеров и операторов по компьютерному вводу) зависит от той суммы, которую готов выделить заказчик, и слабо зависит от исследователей. Что же касается второго фактора, то мы остановимся на нем чуть подробнее.
Итак, чем больше величина выборки, тем меньше возможная ошибка. Хотя необходимо отметить, что при желании увеличить точность вдвое вам придется увеличить выборку не в два, а в четыре раза. Например, чтобы сделать в два раза более точной оценку данных, полученных путем опроса 400 человек, вам потребуется опросить не 800, а 1600 человек. Впрочем, вряд ли маркетинговое исследование испытывает нужду в стопроцентной точности. Если пивовару необходимо узнать, какая часть потребителей пива предпочитает именно его марку, а не сорт его конкурента, — 60% или 40%, то на его планы никак не повлияет разница между 57%, 60 или 63%.
Ошибка выборки может зависеть не только от ее величины, но и от степени различий между отдельными единицами внутри генеральной совокупности, которую мы исследуем. Например, если нам нужно узнать, какое количество пива потребляется, то мы обнаружим, что внутри нашей генеральной совокупности нормы потребления у различных людей существенно различаются (гетерогенная генеральная совокупность). В другом случае мы будем изучать потребление хлеба и установим, что у разных людей оно различается гораздо менее существенно {гомогенная генеральная совокупность). Чем больше различия (или гетерогенность) внутри генеральной совокупности, тем больше величина возможной ошибки выборки. Указанная закономерность лишь подтверждает то, что нам подсказывает простой здравый смысл. Таким образом, как справедливо утверждает В. Ядов, «численность (объем) выборки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая численность может обеспечить статистически достоверные выводы».
Определение объема выборки зависит также от уровня доверительного интервала допустимой статистической ошибки. Здесь имеются в виду так называемые случайные ошибки, которые связаны с природой любых статистических погрешностей. В.И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5%-ной ошибки:
Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособного населения составляет 100 тыс. человек, выявили, что 33% опрошенных покупателей предпочитают продукцию местного мясокомбината, то с 95%-ной вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.
Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки.
Концепция репрезентативности часто встречается в статистических отчетах и при подготовке выступлений и отчетов. Пожалуй, без него сложно представить какое-либо представление информации для ознакомления.
Содержание
- 1 Репрезентативность — что это?
- 2 Другие определения
- 3 Репрезентативная выборка
- 4 Вероятностная выборка
- 5 Вероятностные выборки
- 6 Выборка потребителей
- 7 Размер выборки
- 8 Понятие ошибки репрезентативности
- 9 Виды ошибок
- 10 Преднамеренные и непреднамеренные ошибки репрезентативности
- 11 Валидность, надежность, репрезентативность. Расчет ошибок
- 12 Репрезентативные системы
Репрезентативность — что это?
Репрезентативность отражает степень, в которой выбранные объекты или части соответствуют содержанию и значению набора данных, из которого они были выбраны.
Другие определения
Репрезентативность можно понимать в разных контекстах. Но по своему смыслу репрезентативность — это соответствие характеристик и свойств выбранных единиц генеральной совокупности, которые точно отражают характеристики всей генеральной базы данных в целом.
Кроме того, репрезентативность информации определяется как способность данных выборки представлять параметры и свойства совокупности, которые важны с точки зрения проводимых исследований.
Репрезентативная выборка
Принцип выборки заключается в выборе наиболее важных свойств, которые точно отражают общую совокупность данных. Для этого используются различные методы, позволяющие получить точные результаты и общее представление о генеральной совокупности, используя только выборочные материалы, описывающие качество всех данных.
Таким образом, нет необходимости изучать весь материал, но достаточно учесть выборочную репрезентативность. Что это? Это набор отдельных данных, чтобы получить представление об общей массе информации.
В зависимости от метода они делятся на вероятностные и маловероятные. Вероятностный — это выборка, которая создается путем вычисления наиболее важных и интересных данных, которые в будущем будут репрезентативными для генеральной совокупности. Это осознанный выбор или случайная выборка, однако оправданная своим содержанием.
Маловероятно — это одна из разновидностей случайной выборки, составленной по принципу обычной лотереи. В этом случае мнение лица, взявшего такую пробу, не принимается во внимание. Используется только слепая жребий.
Вероятностная выборка
Вероятностные выборки также можно разделить на несколько типов:
- Один из самых простых и понятных принципов — нерепрезентативная выборка. Например, этот метод часто используется при проведении социальных опросов. При этом участники опроса не выбираются из общей массы по каким-либо конкретным критериям, а информация берется от первых 50 человек, принявших участие.
- Выборка вероятностей — это еще одна разновидность выборки невероятности, которая часто используется для исследования больших наборов данных. Для этого используется множество условий и правил. Выбираются объекты, которые должны им соответствовать. То есть на примере социального опроса можно предположить, что будет опрошено 100 человек, но при составлении статистического отчета будет учитываться только мнение определенного количества людей, которые будут соответствовать установленным требованиям.
- Преднамеренные выборки отличаются тем, что они имеют ряд требований и условий для отбора, но все же полагаются на совпадения, не преследуя цели получения хорошей статистики.
Вероятностные выборки
Для вероятностных выборок рассчитывается ряд параметров, которым будут соответствовать объекты в выборке, и среди них различными способами могут быть выбраны именно те факты и данные, которые будут представлены как репрезентативность данных выборки. Эти методы расчета требуемых данных могут быть:
- Простая случайная выборка. Он заключается в том, что среди выделенного сегмента методом полностью случайной лотереи выбирается необходимый объем данных, который будет репрезентативной выборкой.
- Систематическая и случайная выборка позволяет составить систему расчета необходимых данных на основе случайно выбранного сегмента. Итак, если первое случайное число, указывающее порядковый номер данных, выбранных из общей совокупности, равно 5, следующими данными для выбора могут быть, например, 15, 25, 35 и так далее. Этот пример ясно объясняет, что даже случайный выбор может быть основан на систематических вычислениях требуемых входных данных.
Выборка потребителей
Осмысленная выборка — это способ взглянуть на каждый отдельный сегмент, и на основе его оценки составляется генеральная совокупность, отражающая характеристики и свойства всей базы данных. Таким образом, собирается больше данных, отвечающих требованиям репрезентативной выборки. Легко выбрать набор параметров, которые не будут включены в общее количество, без потери качества выбранных данных, представляющих генеральную совокупность. Таким образом определяется репрезентативность результатов исследования.
Размер выборки
Не последняя проблема, которую необходимо решить, — это размер выборки для репрезентативной репрезентативности населения. Размер выборки не всегда зависит от количества источников в генеральной совокупности. Однако репрезентативность выборки напрямую зависит от того, на сколько сегментов в конечном итоге следует разделить результат. Чем больше таких сегментов, тем больше данных включается в итоговую выборку. Если результаты требуют общих обозначений и не требуют конкретики, то в результате выборка становится меньше, поскольку, не вдаваясь в детали, информация представлена более поверхностно, а значит, ее прочтение будет общим.
Понятие ошибки репрезентативности
Репрезентативная систематическая ошибка — это конкретное несоответствие между характеристиками населения и данными выборки. При проведении выборочного исследования невозможно получить абсолютно точные данные, как при полном изучении генеральных популяций и выборки, представленной только частью информации и параметров, в то время как более детальное изучение возможно только при изучении всей совокупности численность населения. Поэтому некоторые ошибки и ошибки неизбежны.
Виды ошибок
При составлении репрезентативной выборки возникают некоторые ошибки:
- Случайный.
- Стандарт.
- Не намеренно.
- Систематический.
- Предел.
- Умышленное.
Причиной появления случайных ошибок может быть прерывистый характер исследования генеральной совокупности. Обычно ошибка случайной репрезентативности незначительна по величине и характеру.
Между тем систематические ошибки возникают, когда нарушаются правила отбора данных из генеральной совокупности.
Средняя ошибка — это разница между средним значением выборки и основной совокупностью. Это не зависит от количества единиц в выборке. Он обратно пропорционален размеру выборки. Таким образом, чем больше объем, тем меньше среднее значение ошибки.
Предельная ошибка — это наибольшая возможная разница между средним значением выполненной выборки и всей генеральной совокупностью. Эта ошибка характеризуется как максимум возможных ошибок в данных условиях их возникновения.
Преднамеренные и непреднамеренные ошибки репрезентативности
Ошибки искажения данных могут быть преднамеренными или непреднамеренными.
Итак, причины появления преднамеренных ошибок — это подход к отбору данных с использованием метода выявления трендов. Непреднамеренные ошибки возникают и на этапе подготовки выборочного наблюдения, формирования репрезентативной выборки. Чтобы избежать таких ошибок, необходимо создать хорошую основу выборки для списков единиц выборки. Он должен полностью соответствовать целям выборки, быть надежным и охватывать все аспекты исследования.
Валидность, надежность, репрезентативность. Расчет ошибок
Расчет ошибки репрезентативности (Mm) среднего арифметического (M).
Стандартное отклонение: размер выборки (> 30).
Репрезентативная ошибка (Мр) и относительная величина (Р): размер выборки (n> 30).
В случае, если необходимо изучить совокупность, где размер выборки невелик и менее 30 единиц, количество наблюдений уменьшится на одну единицу.
Величина ошибки прямо пропорциональна размеру выборки. Репрезентативность информации и расчет степени возможности составления точного прогноза отражает определенное значение предельной погрешности.
Репрезентативные системы
В процессе оценки представления информации используется не только репрезентативная выборка, но и лицо, получающее информацию, также использует репрезентативные системы. Таким образом, мозг обрабатывает определенный объем информации, создавая репрезентативную выборку всего потока информации, чтобы качественно и быстро оценить предоставленные данные и понять суть проблемы. Ответьте на вопрос: «Представление — что это?» — В масштабе человеческого сознания это довольно просто. Для этого мозг использует все подчиненные органы чувств, в зависимости от типа информации, которую необходимо изолировать от общего потока. Поэтому проводится различие между:
- Система визуального представления, в которой задействованы органы зрительного восприятия глаза. Людей, которые часто используют эту систему, называют визуалами. С помощью этой системы человек обрабатывает информацию, поступающую в виде изображений.
- Система кинестетической репрезентации — это обработка потока информации путем ее восприятия через обонятельные и тактильные каналы.
- Система слухового представления. Основной используемый орган — слух. Информация, предоставленная в виде аудио- или голосового файла, обрабатывается именно этой системой. Людей, которые лучше всего воспринимают информацию на слух, называют аудиалами.
- Система цифрового представления используется вместе с другими как средство получения информации извне. Это субъективно-логическое восприятие и понимание полученных данных.
Так что же такое репрезентативность? Простая выборка из набора или целостная процедура обработки информации? Мы можем однозначно сказать, что репрезентативность во многом определяет наше восприятие потоков данных, помогая выделить самые тяжелые и наиболее важные из них.
Содержание
- Пример об ошибке репрезентативности
- Ошибки статистического наблюдения и основные приёмы их устранения
- Репрезентативность — что это за процесс? Ошибка репрезентативности
- Репрезентативность — что это?
- Другие определения
- Репрезентативная выборка
- Вероятностная выборка
- Вероятностные выборки
- Выборка потребителей
- Размер выборки
- Понятие ошибки репрезентативности
- Виды ошибок
- Преднамеренные и непреднамеренные ошибки репрезентативности
- Валидность, надежность, репрезентативность. Расчет ошибок
- Репрезентативные системы
Пример об ошибке репрезентативности
Лекция 4.1 Выборочный метод
К настоящему времени Вы заработали баллов: 0 из 0 возможных.
ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТЬ
Генеральная совокупность — вся подлежащая изучению совокупность объектов (наблюдений).
Генеральная совокупность носит гипотетический характер. Она представляет собой совокупность всех мыслимых наблюдений, которые могли бы быть произведены при данных условиях. Даже если бы у нас была возможность провести сплошное исследование всей совокупности признака, все равно в нее не попали бы объекты, которое по какой то причине отсутствуют на текущий момент, но должны были существовать при данных условиях.
Та часть объектов, которая отобрана для непосредственного изучения, называется выборочной совокупностьюили выборкой
Сущность выборочного метода
Сущность выборочного метода состоит в том, чтобы по некоторой части генеральной совокупности выносить суждение о её свойствах в целом
Чтобы по данным выборки иметь возможность судить о генеральной совокупности, она должна быть репрезентативной(представительной).
Репрезентативная выборка сохраняет и повторяет структуру генеральной совокупности.
Если две выборки взяты из одной генеральной совокупности, то разница в получаемых оценках (например, средних) будет носить случайный характер, как следствие ошибки репрезентативности
Ошибка репрезентативности возникает по причине того, что мы исследуем не всю совокупность, а только её части (выборки). Мы получаем случайную комбинацию элементов из генеральной совокупности.
Для того, чтобы минимизировать различия однородных (взятых из одной генеральной совокупности) выборок необходимо правильным образом их формировать.
Наилучшим способом формирования репрезентативной выборки является случайный отбор элементов из генеральной совокупности без расчленения на части или группы (случайная выборка).
Пример об ошибке репрезентативности
Рассмотрим следующий пример.
Исследователь задался вопросом: «существуют ли различия в эмпатических способностях между психологами и педагогами?». Для того чтобы это прояснить он набрал две группы испытуемых в соответствии с их профессиональной деятельностью и предложил им заполнить опросник на эмпатические способности. Далее, он рассчитал среднее значение в каждой группе.
В группе психологов среднее составило 23,4 балла, а в группе педагогов 21,1. Таким образом, разница в средних между группами составила2,3 балла (23,4 — 21,1 = 2,3).
Если бы представители этих профессий не отличались по изучаемому признаку, тогда разница в средних равнялась бы нулю.
Однако, можно ли считать эту разницу в 2,3 балла достаточной, чтобы судить о реальных различиях между группами? Может сложится так, что психологи и педагоги по эмпатии в реальности не отличаются (выборки однородны), а разница в 2,3 балла, полученная исследователем носит случайный характер, как ошибка репрезентативности.
Таким образом, мы можем сформулировать две гипотезы:
Гипотезы являются альтернативами по отношению к друг другу. Принятие одной из них как верной влечет за собой исключение «истинности» другой.
СТАТИСТИЧЕСКАЯ ГИПОТЕЗА
Статистическая гипотеза – это любое предположение о виде или параметрах неизвестного закона распределения (закона распределения генеральной совокупности)
В статистике принято формулировать пару гипотез. Первая гипотеза называется нулевой, а вторая – альтернативной.
Нулевая гипотеза Н | Альтернативная гипотеза Н1 |
1. 1. Является проверяемой 2. Обычно гипотеза об отсутствии явления (например, различий или зависимости) | Является логическим отрицанием нулевой |
Поскольку нулевая гипотеза является проверяемой, то её можно отвергать и принимать | Альтернативную гипотезу принимают как следствие отрицания нулевой гипотезы |
пример:
· Н (нулевая): Женщины не отличаются от мужчин по среднему уровню развития эмпатических способностей (средние значения равны)
· Н1 (альтернативная): Средний уровень эмпатических способностей выше у женщин по сравнению с мужчинами
пример:
· Н (нулевая): Линейная корреляция между самооценкой и тревожностью равна 0
· Н1 (альтернативная): Самооценка отрицательно связана с тревожностью (линейная корреляция меньше нуля / чем выше самооценка, тем ниже тревожность и наоборот)
Вопрос:Какая из двух формулировок соответствует нулевой гипотезе Н?
· А) между психологами и педагогами нет различий по среднему уровню выраженности эмпатии
· Б) между психологами и педагогами есть различия по среднему уровню выраженности эмпатии
Статистический критерий
Правило, по которому нулевая гипотеза отвергается или принимается, называется статистическим критерием.
Статистика – это специально составленная выборочная характеристика (распределение), у которой есть критическое значение такое, что если верна нулевая гипотеза, то вероятность (α) того, что случайная величина превысит это критическое значение, мала (Кремер Н.Ш., 2004).
Критическое значение делит распределение «нулевой гипотезы» на две области: область допустимых значений и область критических значений
Таким образом, критические значения позволяют исследователю либо принять, либо отвергнуть нулевую гипотезу.
В математической статистике можно подбирать критические значение для разных альфа-уровней (уровней значимости). Чаще всего:
1. Критическое значение, которое выделяет критическую область с вероятностью α
Источник
Ошибки статистического наблюдения и основные приёмы их устранения
Всякое статистическое наблюдение должно быть полным и достоверным. Однако по ряду причин степень точности данных может быть различной.
Все ошибки наблюдения подразделяются на два вида:
Ошибки регистрации возникают вследствие неправильного установления фактов в процессе наблюдения или неправильной их записи.
Ошибки регистрации могут возникать как при сплошном наблюдении, так и при несплошном и имеют следующие виды:
Случайные ошибки – это ошибки, которые возникают в результате небрежной описки или невнимательного отношения регистратора при заполнении формуляра (ошибки в подсчёте).
Систематические ошибки – это ошибки, которые искажают сведения по каждой отдельной единице наблюдения в одном и том же направлении.
Систематические ошибки делятся на:
Преднамеренные ошибки (сознательные, тенденциозные ошибки), возникающие в результате сознательного искажения статистической информации. К ним относятся: приписки, неправильные сведения об объёме выпущенной продукции, об остатках сырья и материалов и т. д.
Непреднамеренные ошибки – это ошибки, которые возникают в результате случайных причин, т.е. неумышленно (неисправность измерительных приборов, невнимательность регистратора и т.д.).
Ошибки репрезентативности свойственны несплошному наблюдению. Они возникают в результате выборочного наблюдения, когда отобранная часть единиц совокупности недостаточно полно отражает состав всей изучаемой совокупности.
Ошибки репрезентативности (так же, как и ошибки регистрации) могут быть случайными и систематическими.
Случайные ошибки оцениваются с помощью математических методов.
Систематические ошибки – это отклонения, которые возникают в результате случайного отбора единиц изучаемой совокупности. Их размеры не поддаются количественной оценке.
Для выявления и устранения допущенных при регистрации ошибок применяются следующие методы:
а) внешний контроль;
б) логический контроль;
в) счётный контроль.
При внешнем контроле проверяется: правильность оформления документов; наличие всех необходимых записей, которые предусмотрены инструкцией и т.д.
Логический контроль заключается в проверке ответов на вопросы программы наблюдения путём сопоставления полученных данных с другими источниками.
Сущность счётного (арифметического) контроля заключается в счётной проверке всех итоговых показателей, которые содержатся в отчётности или формуляре исследования. Задачей такого контроля является исправление итогов и отдельных числовых показателей.
В ряде случаев, при счётном контроле данных статистического наблюдения применяется метод балансовой увязки показателей (наличие на начало отчётного периода плюс поступления минус расход должно быть равно наличию на конец отчётного периода). Такой метод применяют: при проверках поголовья скота, при учёте поступления и расхода сырья и материалов и т.д.
Указанные методы проверки достоверности статистического наблюдения позволяют сократить до минимального значения допуск ошибок.
Источник
Репрезентативность — что это за процесс? Ошибка репрезентативности
Понятие репрезентативности часто встречается в статистических отчетностях и при подготовке выступлений и докладов. Пожалуй, без нее трудно представить себе какой-либо из видов подачи информации на обозрение.
Репрезентативность — что это?
Репрезентативность отражает, насколько выбранные объекты или части соответствуют содержанию и смыслу совокупности данных, из которой они были выбраны.
Другие определения
Понятие репрезентативности можно раскрывать в разных контекстах. Но по своему смыслу репрезентативность – это соответствие черт и свойств выбранных единиц из общей совокупности, которые точно отражают характеристики всей генеральной базы данных в целом.
Также репрезентативность информации определяют как способность выборочных данных представить параметры и свойства совокупности, важные с точки зрения проводимого исследования.
Репрезентативная выборка
Принцип формирования выборки заключается в избрании наиболее важных и точно отображающих свойства общей совокупности данных. Для этого используются различные методы, которые позволяют получать точные результаты и общее представление о генеральной совокупности, используя только выборочные материалы, описывающие качества всех данных.
Таким образом, нет необходимости изучать весь материал, а достаточно рассмотреть выборочную репрезентативность. Что это? Это выборка отдельных данных для того, чтобы иметь понятие об общей массе информации.
Их в зависимости от способа различают как вероятностные и невероятностные. Вероятностная – это выборка, которая производится путем вычисления наиболее важных и интересных данных, являющихся в дальнейшем представителями генеральной совокупности. Это обдуманный выбор или случайная выборка, тем не менее, обоснованная своим содержанием.
Невероятностная – это одна из разновидностей случайной выборки, составляющаяся по принципу обычной лотереи. В таком случае не учитывается мнение того, кто составляет такую выборку. Используется лишь слепой жребий.
Вероятностная выборка
Вероятностные выборки также могут подразделяться на несколько видов:
- Одна из самых простых и понятных принципов – это нерепрезентативная выборка. К примеру, такой способ часто используется при проведении социальных опросов. При этом участники опроса не выбираются из толпы по каким-либо определенным признакам, и получение информации производится у первых 50 людей, принявших участие в нём.
- Преднамеренные выборки отличаются тем, что имеют ряд требований и условий при отборе, однако все же полагаются на случайное совпадение, не преследуя своей целью достижение хорошей статистики.
- Выборка на основании квот – это еще одна из вариаций невероятностной выборки, которая часто используется для исследования больших совокупностей данных. Для нее используется множество условий и норм. Подбираются объекты, которые должны им соответствовать. То есть на примере социального опроса можно предположить, что опрошены будут 100 человек, но только мнение некоторого числа людей, которые будут соответствовать установленным требованиям, будут учтены при составлении статистического отчета.
Вероятностные выборки
Для вероятностных выборок исчисляется ряд параметров, которым объекты в выборке будут соответствовать, и среди них разными способами могут избираться именно те факты и данные, которые будут представлены как репрезентативность данных выборки. Такими способами вычисления нужных данных могут быть:
- Простая случайная выборка. Заключается в том, что среди выбранного сегмента совершенно случайным методом лотереи выбирается необходимое количество данных, которые будут являться репрезентативной выборкой.
- Систематическая и случайная выборка дает возможность составить систему вычисления необходимых данных на основе случайно выбранного сегмента. Таким образом, если первое случайное число, которое указывает на порядковый номер данных, выбранных из общей совокупности, будет 5, то последующими данными, которые будут выбраны, могут стать, например, 15, 25, 35 и так далее. Этот пример наглядно объясняет, что даже случайный выбор может основываться на систематических вычислениях необходимых исходных данных.
Выборка потребителей
Осмысленная выборка – это способ, который заключается в рассмотрении каждого отдельного сегмента, и на основании его оценки составляется совокупность, отражающая характеристики и свойства общей базы данных. Таким образом набирается большее количество данных, соответствующих требованиям репрезентативной выборки. Можно легко отобрать некоторое количество вариантов, которые не войдут в общее число, не потеряв при этом качество отобранных данных, представляющих общую совокупность. Таким способом определяется репрезентативность результатов исследования.
Размер выборки
Не последний вопрос, который необходимо решить, – это размер выборки для репрезентативного представления генеральной совокупности. Размер выборки не всегда зависит от количества исходников в генеральной совокупности. Однако репрезентативность выборочной совокупности напрямую зависит от того, на сколько сегментов должен быть в итоге разделён результат. Чем больше таких сегментов, тем больше данных попадает в результативную выборку. Если результаты требуют общего обозначения и не требуют конкретики, тогда, соответственно, выборка становится меньше, поскольку, не вдаваясь в детали, информация излагается более поверхностно, а значит, ее прочтение будет общим.
Понятие ошибки репрезентативности
Ошибка репрезентативности – это конкретные расхождения между характеристиками генеральной совокупности и выборочных данных. При проведении любого выборочного исследования невозможно получить абсолютно точные данные, как при полном исследовании генеральных совокупностей и выборки, представленной лишь частью сведений и параметров, тогда как более детальное изучение возможно только при исследовании всей совокупности. Таким образом, неизбежны некоторые погрешности и ошибки.
Виды ошибок
Различают некоторые ошибки, которые возникают при составлении репрезентативной выборки:
- Систематические.
- Случайные.
- Преднамеренные.
- Непреднамеренные.
- Стандартные.
- Предельные.
Основанием для появления случайных ошибок может быть несплошной характер исследования общей совокупности. Обычно случайная ошибка репрезентативности имеет незначительный размер и характер.
Систематические ошибки между тем возникают при нарушении правил отбора данных из общей совокупности.
Средняя ошибка – это разница между усредненными значениями выборки и основной совокупностью. Она не зависит от количества единиц в выборке. Она обратно пропорциональна объему выборки. Тогда чем больше объем, тем меньше значение средней ошибки.
Предельная ошибка – это наибольшая возможная разница между усредненными значениями сделанной выборки и общей совокупностью. Такая ошибка охарактеризовывается как максимум вероятных ошибок при заданных условиях их появления.
Преднамеренные и непреднамеренные ошибки репрезентативности
Ошибки смещения данных бывают преднамеренными и непреднамеренными.
Тогда причинами появления преднамеренных ошибок является подход к подбору данных по методу определения тенденций. Непреднамеренные ошибки возникают еще на стадии подготовки выборочного наблюдения, формирования репрезентативной выборки. Для недопущения подобных ошибок необходимо создать хорошую основу для выборки, составляющей списки единиц отбора. Она должна полностью соответствовать целям проведения выборки, быть достоверной, охватывающей все аспекты исследования.
Валидность, надежность, репрезентативность. Расчет ошибок
Расчет ошибки репрезентативности (Мм) средней арифметической величины (М).
Среднее квадратическое отклонение: численность выборки (>30).
Ошибка репрезентативности (Мр) и относительная величина (Р): численность выборки (n>30).
В том случае, когда приходится изучать совокупность, где количество выборки мало и составляет меньше 30 единиц, тогда число наблюдений станет меньше на одну единицу.
Величина ошибки прямо порциональна объему выборки. Репрезентативность информации и вычисление степени возможности составления точного прогноза отражает определенная величина предельной ошибки.
Репрезентативные системы
Не только в процессе оценки подачи информации используется репрезентативная выборка, но и сам человек, получающий информацию, использует репрезентативные системы. Таким образом, мозг обрабатывает некоторое количество информации, создавая репрезентативную выборку из всего потока информации, чтобы качественно и быстро оценить подаваемые данные и понять суть вопроса. Ответить на вопрос: «Репрезентативность — что это?» — в масштабах человеческого сознания довольно просто. Для этого мозг использует все подвластные органы чувств, в зависимости от того, какую именно информацию необходимо вычленить из общего потока. Таким образом, различают:
- Визуальную репрезентативную систему, где задействуются органы зрительного восприятия глаза. Люди, часто использующие подобную систему, называются визуалами. С помощью этой системы человек обрабатывает информацию, поступающую в виде изображений.
- Аудиальная репрезентативная система. Главный орган, который используется – это слух. Информация, подаваемая в виде звуковых файлов или речи, обрабатываются именно этой системой. Люди, лучше воспринимающие информацию на слух, называются аудиалами.
- Кинестетическая репрезентативная система представляет собой обработку потока информации, путем восприятия его с помощью обонятельных и осязательных каналов.
- Дигитальная репрезентативная система используется вместе с другими как средство получения информации извне. Это субъективно-логическое восприятие и осмысление полученных данных.
Итак, репрезентативность — что это? Простая выборка из множества или неотъемлемая процедура при обработке информации? Однозначно можно сказать, что репрезентативность во многом определяет наше восприятие потоков данных, помогая вычленить из него наиболее веские и значимые.
Источник
2.4. Точность статистического наблюдения
Под точностью статистического наблюдения понимают степень соответствия значения наблюдаемого показателя, вычисленного по материалам обследования, его действительной величине. Расхождение, или разница, между ними называется ошибкой статистического наблюдения.
Различают две группы ошибок:
- ошибки регистрации;
- ошибки репрезентативности.
Ошибки регистрации присущи любому статистическому наблюдению, как сплошному, так и несплошному. Они делятся на случайные ошибки регистрации и систематические ошибки регистрации.
Случайными ошибками регистрации называют ошибки, возникающие вследствие действия случайных факторов. К ним можно отнести различного рода непреднамеренные описки: например, вместо возраста человека «15 лет» указано «5 лет», у Ивановой Марии Петровны в графе пол отмечен «Мужской» и т. п. Такие ошибки легко выявляются методом логического анализа, например, если человеку 8 лет, но имеется высшее образование, а в графе «Семейное положение» указано «Состоит в браке», то, естественно, следует исправить возраст. Если объем исследуемой совокупности велик или велика доля отбора при выборочном наблюдении, случайные ошибки регистрации имеют тенденцию взаимопогашаться вследствие действия закона больших чисел, поскольку ошибки, как правило, разнонаправлены и искажают статистический показатель как в большую, так и в меньшую сторону. При небольшом объеме наблюдения требуется тщательная выверка его результатов — логический анализ данных.
Систематические ошибки регистрации чаще всего имеют однонаправленные искажения: они либо увеличивают, либо уменьшают статистический показатель, и, что характерно, подобная ситуация повторяется от обследования к обследованию. Так, по результатам переписей (практически всех!) число замужних женщин превышает число женатых мужчин — мужчинам приятнее ощущать себя неженатыми, а для женщины как бы «стыдно» быть не замужем. Другой пример, когда человек округляет свой возраст — вместо 32 лет говорит 30, вместо 79-80 и т. п. (это явление широко известно и даже получило свое название — «аккумуляция возрастов»). Систематические ошибки регистрации могут возникать и из-за неточностей измерительных приборов, если сбор информации проводят путем непосредственного наблюдения.
Ошибки репрезентативности присущи только несплошному обследованию. Они также делятся на случайные и систематические ошибки.
Случайные ошибки репрезентативности возникают из-за того, что обследованию подвергается не вся совокупность в целом, а только ее часть, и, следовательно, при несплошном наблюдении они присутствуют всегда. В теории статистики разработаны специальные методы для оценки величин таких ошибок, на их основе для наблюдаемых показателей строят доверительные интервалы, т.д. эти ошибки вычисляются и находятся как бы «под контролем».
Хуже обстоит дело, если наряду со случайными ошибками имеются и ошибки систематические.
Систематические ошибки репрезентативности возникают, если при несплошном наблюдении кардинально нарушаются технологии отбора единиц из генеральной совокупности объектов, но чаще — если в ходе обследования не удается получить информацию обо всех отобранных для наблюдения единицах, например, вследствие отказа отвечать на вопросы анкеты, или если человека не удалось застать дома и т. п.
Ошибки статистического наблюдения для наглядности можно изобразить в виде схемы (рис. 2.1).
Рис.
2.1.
Виды ошибок статистического наблюдения
Для повышения точности наблюдения необходимо:
- правильно разработать формуляр статистического наблюдения: вопросы должны быть четкими, однозначными, не допускающими двойного толкования;
- иметь хорошо обученный персонал для проведения обследования;
- строго придерживаться выбранной технологии обследования (если проводится несплошное наблюдение) и помнить, что если не удается опросить какую-то конкретную единицу, отобранную для наблюдения, замена ее на другую единицу может привести к возникновению систематической ошибки репрезентативности;
- провести логический анализ данных, основанный на логических взаимосвязях показателей, после сбора всей совокупности анкет или формуляров;
- целесообразно провести и арифметический контроль данных, т.д. заново пересчитать расчетные величины, если какие-либо показатели получаются в результате определенных арифметических действий;
- предпринять определенные меры по восстановлению данных при наличии незаполненных анкет или формуляров либо при получении результатов обследования сделать поправку на неответы респондентов.