Metodologia badania

Cel badania 
Celem badania jest zebranie informacji na temat polskiej społeczności internetowej, określenie profilu użytkowników internetu, intensywności korzystania z sieci, a także stworzenie rankingu najbardziej popularnych stron WWW i programów. Wyniki badania posłużą również do projektowania kampanii reklamowych.

Panel 
Badanie Megapanel PBI/Gemius jest badaniem typu panelowego. Panel to metoda badawcza, w której badani biorą udział w badaniu przez długi czas, a pomiar najczęściej ma charakter ciągły. Osoby uczestniczące w panelu (paneliści) dobierane są zgodnie z celami badania. W badaniu Megapanel PBI/Gemius uczestniczy wylosowana grupa Polaków korzystających z internetu, reprezentująca całą populację internautów w Polsce.

Metoda panelowa ma wiele zastosowań. Jednym z przykładów jest badanie oglądalności telewizji przeprowadzane na panelu składającym się z tysiąca wylosowanych gospodarstw domowych, które zgodziły się zainstalować na telewizorach specjalne mierniki śledzące oglądalność stacji telewizyjnych. Metodą panelową badane są w Polsce również budżety gospodarstw domowych przez Główny Urząd Statystyczny.

Badanie oglądalności internetu prowadzone jest za pomocą niewielkiego programu komputerowego, tzw. NetPanel, który zbiera dane dotyczące odwiedzanych przez panelistów witryn. Dane z NetPanel transmitowane są do centrum obliczeniowego, gdzie podlegają obróbce statystycznej.

Specyfika badań w internecie 
Internet charakteryzuje się dużym rozdrobnieniem badanych witryn. Badanie obejmuje kilka tysięcy witryn. Dla porównania, liczba stacji telewizyjnych , których sygnał jest na terenie Polski dostępny to ok. 300. Zbadanie wysoce zróżnicowanego medium wymaga stworzenia panelu o dużej liczebności, znacznie większej niż liczebność przeciętnej próby w innych badaniach. Próba osób uczestniczących w badaniu wynosi nie mniej niż 15 tysięcy osób miesięcznie.

Rekrutacja do panelu i operat 
Rekrutacja do Panelu prowadzona jest metodą CAWI (rekrutacja przez sieć WWW). W losowaniu systematycznym wybierane są komputery, na których następnie wyświetlane są kwestionariusze rekrutacyjne. Skłonność użytkowników internetu do uczestnictwa w badaniu nie jest jednakowa we wszystkich grupach internautów. Specyfiką badań przeprowadzanych za pośrednictwem internetu jest większe prawdopodobieństwo dostania się do próby osób korzystających z internetu częściej (heavy-users), także nieco lepiej wykształconych niż średni internauta i z dłuższym stażem w internecie. Struktura próby jest wyrównywana poprzez ważenie ostatecznego panelu do struktury Internautów uzyskanej z badania NetTrack SMG/KRC i audytu site-centric.

Rekrutacja do Panelu odbywa się w sposób ciągły, z natężeniem dostosowanym do liczebności Panelu. Kwestionariusze rekrutacyjne wyświetlane są na stronach i aplikacjach internetowych, których sumaryczny zasięg wśród użytkowników internetu wynosi nie mniej niż 90%. Operatem losowania jest zbiór Cookie nadanych przez system audytu Site-Centric monitorujący witryny i aplikacje internetowe. Kwestionariusze wyświetlane są wyłącznie na witrynach i aplikacjach objętych audytem. Cookie jest przydzielane jednorazowo każdemu profilowi przeglądarki internetowej w momencie wyświetlania jednej ze stron na których przeprowadzana jest rekrutacja. Z operatu losowaniem systematycznym losowana jest próba Cookie, którym wyświetlane są kwestionariusze rekrutacyjne. Kwestionariusze wyświetlane są użytkownikom internetu w dowolnym miejscu korzystania, do ostatecznego panelu dobierani są respondenci, którzy korzystają z internetu w domu lub w pracy.

Populacja, na którą są estymowane wyniki 
Dane panelowe estymowane są na populację polskich Internautów w wieku 7 lat lub więcej, korzystających z witryn internetowych lub aplikacji internetowych. Wielkość populacji, na którą estymujemy wyniki, określana jest na podstawie danych o strukturze użytkowników internetu z badania NetTrack SMG/KRC. Jeżeli badana witryna jest poddana audytowi site-centric, dodatkowo błędy losowe estymacji zmiennych takich jak liczba odsłon, liczba użytkowników, liczba sesji, są korygowane na podstawie danych systemu site-centric. Korekty wyliczane z systemu audytowego site-centric uwzględniają algorytm eliminujący efekt kasowalności znaczników Cookie w internecie.

Ograniczenia w uogólnianiu wyników na populację 
Sposób zbierania informacji o stronach odwiedzanych przez Panelistów przez Oprogramowanie Raportujące pozwala na realizowanie pomiaru wyłącznie wówczas, jeżeli Panelista:

Ze względu na ograniczenia prawne, problemy z rekrutacją oraz charakterystyki korzystania z internetu w niektórych miejscach dostępu (wiele osób o różnej demografii korzystających z internetu w jednym miejscu dostępu). Badaniem nie są objęte osoby:

Działanie aplikacji netPanel 
Program netPanel zbiera tylko dane o korzystaniu z internetu (adresy URL stron internetowych, dokładny czas wykonania kolejnych odsłon na danej stronie internetowej) i nazwy uruchomionych programów. Ponadto, jeżeli z komputera korzysta więcej niż jedna osoba, program zbiera informację, kto w danej chwili korzysta z internetu.

Gdy użytkownik programu nie korzysta z Internetu program pozostaje w aktywnych procesach w pamięci, ale jego działanie ogranicza się tylko do regularnego sprawdzania czy przeglądarka jest nadal zamknięta. Program samodzielnie nigdy nie wywołuje połączeń z Internetem.

W celu identyfikacji osoby korzystającej w danym momencie ze stron internetowych program wyświetla okienko logowania z prośbą o wskazanie użytkownika. Okienko zawiera imię uczestnika badania (lub kilka imion, jeżeli zostali już dodani dodatkowi użytkownicy) oraz przycisk "nowy użytkownik" umożliwiający dodanie kolejnych uczestników Badania.

W przypadku, gdy podczas instalacji zaznaczono, że z danego komputera korzysta więcej osób lub gdy do programu dodano już przynajmniej jednego dodatkowego użytkownika okienko logowania pojawi się po otwarciu Internet Explorera, Mozilli Firefox, Google Chrome lub Opery, a następnie będzie się pokazywać po pewnym czasie nieaktywności w internecie (nie częściej niż po pół godzinie nieaktywności).

Na komputerach należących do osób, które zadeklarowały, że są ich jedynymi użytkownikami (i nie dodały żadnej dodatkowej osoby), okienko logowania pojawia się raz na dwa tygodnie, aby sprawdzić czy pojawili się przez ten czas nowi użytkownicy.

Zebrane przez netPanel dane są zapisywane na dysku komputera w katalogu, w którym program został zainstalowany a następnie są przesyłanie do firmy badawczej w formie zaszyfrowanej. Przesyłane paczki danych nie przekraczają 2 kB (po kompresji) a więc nie są obciążeniem dla łącza internetowego, tym samym nie wpływają na komfort korzystania z internetu przez panelistę. Dane, które zostały już wysłane do firmy Gemius są usuwane z dysku twardego uczestnika badania.

Współpraca badanego na każdym etapie przeprowadzania Badania Internetu jest całkowicie dobrowolna. Program może być w każdej chwili odinstalowany przez uczestnika badania.

Walidacja danych 
Walidacja jest procesem ustalania parametrów charakteryzujących jakość pozyskiwanych w Badaniu danych oraz określania ich przydatności do realizacji celów stawianych Badaniu. Procesy walidacyjne mają za zadanie sprawdzenie, czy pozyskiwane dane są logicznie ze sobą spójne i w sposób rzetelny przedstawiają badaną rzeczywistość. W ramach walidacji przeprowadzana jest także eliminacja danych wątpliwych ("czyszczenie danych"), co do których istnieje przekonanie, że są wynikiem błędu lub celowych prób wpływu na wyniki pomiaru. 
Przykładem kontrolnych procedur walidacyjnych jest sprawdzenie pozyskiwanych danych pod kątem ich spójności logicznej. Dzięki procedurom walidacyjnym dane niepoprawne logicznie, aż do czasu wyjaśnienia lub też uzyskania akceptowalnego poziomu, nie będą wchodziły do danych końcowych. 
Przykładowymi błędami logicznymi mogą być np.:

Witryny badane i zasady umieszczania witryn w drzewku. 
Panelowa konstrukcja badania pozwala na badanie wszystkich witryn internetowych, odwiedzanych przez panelistów, włączając w to witryny zagraniczne jak np. yahoo!. Witryna jest objęta badaniem, jeżeli w dwóch kolejnych miesiącach, witrynę odwiedziło nie mniej niż 45 panelistów. 
Wyniki badania dostępne są w aplikacji GemiusExplorer, w układzie standardowych drzewek mediów lub drzewka agregatów. Standardowe drzewko mediów jest jedyną, certyfikowaną przez firmę badawczą, formą publikacji wyników. Drzewko agregatów umożliwia natomiast użytkownikom badania dowolną agregację wyników.

Definicje analityczne: 
Użytkownicy (real user)
 - estymowana liczba osób, którzy wykonali w danym miesiącu przynajmniej jedną odsłonę w Internecie. 
Odsłona - wczytanie dokumentu WWW z wybranej witryny internetowej widziana jako odwołanie do specjalnego skryptu badawczego udostępnianego przez Gemius SA.* 
Czas - czas mierzony w sekundach pomiędzy odsłonami. 
Sesja - seria odsłon w Internecie, pomiędzy którymi nie wystąpiła przerwa dłuższa niż 30 minut. 
Wizyta - seria odsłon na danej witrynie, pomiędzy którymi nie wystąpiła przerwa dłuższa niż 30 minut.

Wskaźniki: 
Liczba użytkowników (real user) -
 estymowana liczba internautów z wybranej grupy celowej, którzy dokonali przynajmniej jednej odsłony na wybranej witrynie w danym miesiącu. 
Liczba odsłon - liczba odsłon wygenerowanych przez wybraną grupę celową na wybranych witrynach w wybranym okresie czasu. 
Czas - suma czasów spędzonych przez użytkowników (real user) na wybranej witrynie. Wskaźnik podawany w latach, dniach i godzinach. 
Średni czas na użytkownika - całkowity czas jaki przeciętny użytkownik z wybranej grupy celowej spędził na wybranej witrynie w wybranym okresie czasu. 
Średni czas odsłony - średni czas pomiędzy dwoma odsłonami w ramach jednej wizyty wygenerowany przez wybraną grupę celową na wybranych witrynach w wybranym okresie czasu. 
Średnia liczba odsłon na użytkownika - liczba odsłon na wybranej witrynie wygenerowana przez przeciętnego użytkownika z wybranej grupy celowej w wybranym okresie czasu. 
Średnia liczba sesji na użytkownika - liczba sesji wygenerowana przez przeciętnego użytkownika z wybranej grupy celowej w wybranym okresie czasu. 
Zasięg - stosunek liczby użytkowników, którzy dokonali przynajmniej jednej odsłony na wybranej witrynie w wybranym okresie czasu do całkowitej liczby internautów w miesiącu, do którego należy wybrany okres czasu. 
Dopasowanie użytkowników grupy celowej - stosunek liczby użytkowników grupy celowej do liczby wszystkich użytkowników na wybranej witrynie w wybranym okresie czasu. 
Dopasowanie odsłon w grupie celowej - stosunek liczby odsłon wygenerowanych przez grupę celową do liczby odsłon wygenerowanych przez wszystkich użytkowników na wybranej witrynie w wybranym okresie czasu. 
Affinity Indeks - dopasowanie użytkowników grupy celowej na wybranej witrynie w stosunku do dopasowania polskich użytkowników grupy celowej w całym Internecie. 
Udział użytkowników - stosunek liczby użytkowników grupy celowej danej witryny do liczby użytkowników grupy celowej wybranych witryn w wybranym okresie czasu, podany w procentach. 
Udział odsłon - stosunek liczby odsłon wygenerowanych na danej witrynie przez użytkowników z grupy celowej do liczby odsłon wygenerowanych na wybranych witrynach przez użytkowników grupy celowej w wybranym okresie czasu, podany w procentach. 
Udział czasu - stosunek czasu spędzonego przez grupę celową na danej witrynie do łącznego czasu spędzonego na wybranych witrynach przez użytkowników grupy celowej w wybranym okresie czasu, podany w procentach. 
Współoglądalność % - udział liczby użytkowników, którzy byli na wszystkich wybranych witrynach (na każdej z wybranych witryn) w wybranym okresie czasu, do liczby wszystkich użytkowników, którzy byli na wybranej witrynie w wybranym okresie czasu. 
Współoglądalność - liczba użytkowników, którzy byli na każdej z wybranych witryn. 
Aktywne programy – estymowana liczba internautów z danej grupy celowej, którzy mieli uruchomiony proces danej aplikacji pynajmniej raz w danym miesiącu. 
Użytkownicy i Aktywne programy – Estymowana liczba internautów z wybranej grupy celowej, którzy dokonali przynajmniej jednej odsłony na wybranej witrynie w danym miesiącu lub którzy mieli uruchomiony proces wybranej aplikacji przynajmniej raz w danym miesiącu. W przypadku wybrania do analizy równocześnie witryny, jak i aplikacji, wskaźnik ten służy do podawania łącznej liczby użytkowników i aktywnych programów dla tak zdefiniowanego zbioru węzłów. 
Cookies Polska – liczba plików cookie, rozpoznanych na podstawie numeru IP jako pochodzące z Polski, które odwiedziły dany węzeł poddany audytowi site-centric. Liczba cookie z Polski jest podawana tylko dla całej populacji, bez podziału na poszczególne grupy demograficzne. 
Cookies zagranica – liczba plików cookie, rozpoznanych na podstawie numeru IP jako pochodzące z zagranicy, które odwiedziły dany węzeł poddany audytowi site-centric . Liczba cookie z zagranicy jest podawana tylko dla całej populacji, bez podziału na poszczególne grupy demograficzne. 
Cookies ogółem – łączna liczba plików cookie z Polski i zagranicy, które odwiedziły dany węzeł poddany audytowi site-centric. Liczba cookie ogółem jest podawana tylko dla całej populacji, bez podziału na poszczególne grupy demograficzne. 
Dopasowanie czasu w grupie celowej - stosunek czasu spędzonego przez daną grupę celową do łącznego czasu spędzonego przez wszystkich użytkowników na wybranej witrynie w wybranym okresie czasu.

*  Definicja odsłony, określona na bazie zdarzeń rejestrowanych przez program Netpanel to: od zdarzenia BHO "beforenavigate" do "navigatecomplete" lub zdarzenie BHO "downloadbegin" wraz z "changeTitle". 
**  Wskaźniki dostępne tylko dla całej populacji (niedostępne dla grup celowych) oraz tylko dla witryn objętych Audytem site-centric