Co nam mówią sondaże?

Co nam mówią sondaże?

9
0
SHARE

Osoby_Błażej Żmija_BŻ Do napisania tego tekstu skłoniły mnie spotkane na paru forach opinie, że sondaże robione na grupie ok. 1000 osób nic nie mówią o tym, co sądzi społeczeństwo. Studenci matematyki już na drugim lub trzecim roku mają przedmiot Prawdopodobieństwo, na którym uczą się między innymi o matematycznych podstawach sondaży. Chciałbym się teraz z Państwem tą wiedzą, przynajmniej częściowo, podzielić.

Moim celem będzie odpowiedzieć na dwa pytania: co dokładnie mówią sondaże, oraz czemu zapytanie tylko około 1000 osób wystarczy.

Odpowiedź na pierwsze pytanie jest dosyć prosta: mając wyniki przeciętnego sondażu, możemy założyć, że na 95% wyniki nie różnią się o więcej niż 3 punkty procentowe od rzeczywistości. Innymi słowy, jeżeli jakaś partia otrzyma w sondażu np. 10% to możemy być praktycznie pewni, że w rzeczywistości popiera ją ok. 7-13% wyborców. Stąd generalnie sondaże nie różnią się pod względem kolejności partii czy kandydatów a procentowe poparcia w badaniach robionych w tym samym czasie nawet przez różne ośrodki statystyczne są zawsze mniej więcej takie same. Jak najbardziej jednak możliwe jest, bez żadnych manipulacji itp., że w jednym sondażu mamy zbliżone wyniki dwóch partii, kiedy w innym z tego samego czasu dystans między nimi wynosi ok. 5 punktów procentowych.

Skąd wzięły się akurat 95% i 3%? No cóż, nie stoi za tym niestety żadna matematyka, po prostu, ustalając takie parametry, możemy dostać bardzo dobre informacje badając stosunkowo małą grupę ludzi. Dokładniej o tym będzie poniżej. Czemu nie przyjąć 100% pewności i 0% błędu? Przeprowadzenie badań dających tak dokładne wyniki wymagałoby spytania każdego obywatela o zdanie, co byłoby bardzo kosztowne. Poza tym do zdobycia takich danych służą, przynajmniej teoretycznie, wybory krajowe czy lokalne.

Niestety na pytanie, czemu sondaże są prawie zawsze robione na grupie ok. 1000 losowych osób, nie da się odpowiedzieć tak łatwo i krótko jak na wcześniejsze. Aby nie burzyć ciągłości tekstu techniczną i bardziej matematyczną część postanowiłem umieścić na końcu. Ze wspomnianego fragmentu warto zapamiętać przede wszystkim, że podstawę wszelkich badań statystycznych stanowi bardzo zaawansowana matematyka. Otrzymaliśmy tam również wzór, który pozwala nam odpowiedzieć, ile co najmniej osób powinniśmy zapytać o zdanie, aby mieć odpowiednio duże prawdopodobieństwo, że wyniki nie różnią się zbytnio od rzeczywistości. W poprzednim akapicie napisałem, jakie założenia przyjmujemy. Podstawmy je więc do wspomnianego wzoru. Po przeliczeniach dostaniemy w zaokrągleniu wynik n>1067, skąd już widać, że wystarczy zapytać o zdanie co najmniej 1068 losowych osób, aby uzyskane wyniki miały wymaganą przez nas wcześniej dokładność. Tym samym odpowiedzieliśmy, co prawda bardzo pobieżnie, na drugie z zadanych we wstępie pytań.

Teoretycznie, jak wynika z powyższych rozważań, każdy sondaż powinien dość dobrze przybliżać rzeczywistość. Wyniki niektórych badań nijak się jednak mają do rzeczywistości, co czasem da się stwierdzić od razu, a czasem wychodzi po czasie, np. dopiero po wyborach. Celowo w tekście nie wspominałem o tym problemie, gdyż może on mieć wiele różnych przyczyn, np. źle dobrana grupa pytanych osób lub celowe wprowadzanie w błąd opinii publicznej, których opisaniem mam zamiar zająć się za jakiś czas w następnym tekście.

Na koniec dla zainteresowanych matematyką osób postaram się, choćby pokrótce, pokazać matematyczną stronę wcześniejszych wywodów.

Zacznijmy od początku. Otóż jest naturalne, że chcielibyśmy, aby z jak największym prawdopodobieństwem wyniki naszego sondażu jak najmniej różniły się od rzeczywistości. Formalnie: wybierzmy pewną partię polityczną i oznaczmy przez d(n) – liczbę głosów popierających ją po spytaniu n osób w sondażu oraz przez m – prawdziwe poparcie dla niej. Chcemy dobrać takie n, aby
P(|m – d(n)/n| < a) > b,
gdzie P oznacza prawdopodobieństwo oraz a i b są pewnymi stałymi, co do których chcielibyśmy, żeby a było jak najmniejsze, a b jak największe.

Dalej niestety potrzebne są bardziej zaawansowane informacje na temat m.in. teorii miary i całki (która swoją drogą stanowi podstawę rachunku prawdopodobieństwa) oraz Centralnego Twierdzenia Granicznego, których wytłumaczenie w krótki i przystępny sposób przekracza ramy tego tekstu (zainteresowanych odsyłam np. do wikipedii). Przekształcając więc nierówność P(|m – d(n)/n| < a) > b z poprzedniego akapitu za pomocą wymienionych wyżej narzędzi, dostajemy nierówność:
n > [F((b+1)/2)/(2a)]^2, gdzie „^2″
oznacza, że wyrażenie po prawej stronie w nawiasach kwadratowych podnosimy do kwadratu. Ponadto F oznacza funkcję odwrotną do funkcji przyporządkowującej każdej liczbie rzeczywistej x całkę od minus nieskończoności do x z funkcji e do potęgi -(t^2)/2 po dt, gdzie e oznacza podstawę logarytmu naturalnego. Jest to wspomniany w tekście wzór, do którego wstawiamy ustalone wcześniej wartości: a=3% i b=95%. Po przeliczeniach dostajemy wyniki takie jak w tekście.

Błażej Żmija

BRAK KOMENTARZY

Zostaw odpowiedź