Domů > Google Analytics > Praktický příklad, jak nedělat případové studie!

Praktický příklad, jak nedělat případové studie!

Poslední dva dny se na mě z Twitteru valí hromadné sdílení „případové studie“ Michala Kubíčka, který píše o SUPER ROZDÍLU mezi online chaty Zopim a SmartSupp. Data, která prezentuje a všichni jim tleskají, jsou ovšem úplně mimo. Pojďme se na to podívat a zároveň si ukázat, že případová studie není všechno, co se tak jmenuje.

Odkaz na „případovou studii“ je zde: http://michalkubicek.cz/pripadova-studie-online-chat-v-eshopu-zopim-vs-smartsupp/. Nebudu řešit úvodní popis, kde Michal rozebírá, co je na kterém chatu lepší nebo horší. Zaměřil bych se na 2 věci – kdy a jak měřil a na samotná čísla. Co je tedy špatně?

Měření bylo úplně mimo a nedá se srovnávat

Michal vyhodnocuje svoji studii na základě dat z Google analytics. To je sice fajn, ale už to je první signál, že neproběhlo žádné testování, nýbrž prostě vytahal data a napsal z nich report. (Pozn. Ne že by se nedalo s GA testovat, ale ne tak, jak to udělal Michal).

Hlavním problémem je, že chat Zopim vyhodnocuje za několik měsíců (září až prosinec, kdy chat na webu měl) a SmartSupp jen za nějakých lednových 14 dnů, kdy ho měl jako online zkušební verzi zdarma. Předpokládám, že data od září do prosince Michal přepočítal průměrem za 4 měsíce a přepočítal na 14 dnů (očekával bych to – sám to neuvádí). To by samo o sobě bylo logické, ale ne ve chvíli, kdy (jak Michal sám mnohokrát již prezentoval) na e-shopu hodně pracuje a každým měsícem mu stoupá návštěvnost i tržby. S tím se Michal netají. Takže měl-li v září 100 návštěvníků denně, v říjnu 200 denně, v listopadu 300 denně, v prosinci 400 denně a v lednu 500 denně, je jasné, že průměr za září až prosinec bude 275 návštěvníků denně, namísto 500 lednových. Už tím průměrování za období zcela zkresluje data a jsme zhruba na polovině.

Michal ale nemusel průměrovat, ale vzít „nějakých referenčních 14 dnů“ z tohoto období, kdy používal Zopim. Pak je to ale také špatně, protože vzal „něco“ co prezentoval a nemá to moc vypovídající hodnoty.

Autor studie tedy porovná něco, co je neporovnatelné – zcela zásadní chyba č. 1.

Rozdílné vstupní parametry návštěvnosti

Když bychom připustili, že si Michal dal tu práci a data zprůměroval a následně přepočítal na stejnou návštěvnost atd. /což není ze „studie“ patrné/, tak je tu stejně další zádrhel. Pokud chceme relevantní výsledky, vždy bychom měli měřit na TOTOŽNÉ NÁVŠTĚVNOSTI. A to si zapamatujte. Jakékoliv porovnávací měření musí mít stejné vstupní podmínky. Pojďme si ukázat příklad, na kterém to pochopí snad každý.

Máte před barákem rybník a rozhodnete se, že budete měřit teplotu jeho vody. Budete tam chodit v zimě, vysekáte si díru do ledu, a použijete obyčejný analogový (rtuťový) teploměr. Naměříte teplotu vody kolem 0 °C. Pak se na to vykašlete a půjdete měřit v létě a vezmete si na to jiný teploměr, třeba digitální. Ten bude měřit v průměru 15 °C. A na základě toho vyhodnotíte, že digitální teploměr na rozdíl od  rtutového měří o 15 °C více a proto když chcete mít teplou vodu, budete měřit tím digitálním.

No nezdá se vám to jako absolutní hovadina? Zdá, že ano… A podobně je to ve studii, kde autor porovnává zcela odlišná období s rozdílnými vstupními podmínkami. Takže porovnávat rozdílná období také ne. To je chyba č. 2.

Kde se ve studii zohledňuje doba připojení operátora?

Když pomineme chybovost v datech, je zde další zásadní problém. Nikde se totiž neuvádí, kolik hodin denně a v jaké přesně časy byl operátor připojen. Určitě to nebylo každý den zcela na minutu stejné, aby se to dalo takto porovnávat. Ona doba, jak dlouho je operátor připojen a hlavně v jaký čas, je skoro to nejdůležitější. Můžete být připojen 10 hodin denně od 22:00 do 8:00 ráno a chat budete mít jen jeden. Pak můžete být připojen 18:00 až 20:00 a můžete mít chatů 20. A to jen proto, že jste online v době, kdy lidé chtějí nakupovat.

Osobně si myslím, že časy nebyly stejné a přibylo sem další neskutečně velké zkreslení. Dokonce si dokáži představit, že u SmartSuppu seděl Michal o něco více, hlavně proto, že to bylo něco nového, více ho zkoumal a také když lidé psali, nechal si ho připojen i v časy, kdy měl původní chat běžně vypnutý, protože „viděl ten nárůst zájmu o chat“. Chyba č. 3 – pravděpodobně měřeno v jiné časy – opět zcela odlišný vzorek, který nejde porovnávat.

14 dnů je prostě málo

Na odzkoušení, zda online chat funguje to plně dostačuje, o tom žádná, ale na to, aby byla data statisticky nějak důvěryhodná, to nestačí. U všech A/B testů se pracuje s tzv. statistickou přesností. Stručně je to to, jak moc přesně to chceme měřit, nebo-li kolik je přijatelná odchylka měření. Nastavíme-li si statistickou přesnost 95 %, tak může být chyba měření až 5 %.

A na to, když něco testujeme, je výpočet, tím Vás nebudu zatěžovat, kde se počítá s konverzností, statistickou přesností atd. Proměnných je více. A v našem případě, známe-li konverzní poměr a spočítáme to na statistickou přesnost alespoň 95 % (osobně raději vidím 98 % a více na svých projektech), tak by mělo vyjít, že při 14 dnech měření a konverzi 7 % potřebuje web denní návštěvnost v řádu vysokých desítek tisíc návštěv za den. A to zmíněný e-shop rozhodně nemá. Statistická přesnost při počtu návštěvníků 1000 denně je někdy pod 50 %, tedy je číslo značně zkreslené a zcela irelevantní.

Jak to tedy měl změřit správně?

Už jsem řekl, že by měl být statistický vzorek stejný. Tudíž optimálně – vzít nějaký nástroj na A/B testing (já používám optimizely), udělat A/B test, kde by byl jako originál Zopim a varianta A SmartSupp. Nasadit na web a nechat script online chaty rovnoměrně střídat při zobrazování (nebo si stejný script na rovnoměrné zobrazování udělat vlastní). Vždy sedět u obou chatů zároveň  mít je online k odpovědi. Odpovídat samozřejmě na obou. Tím by se zajistila statistická podmínka č. 1 – stejná vstupní data.

Dále by pak mělo měření probíhat mnohem déle, podle odhadované návštěvnosti e-shopu tímto způsobem řádově několik týdnů. A je tu ještě jeden zádrhel – do návštěvníků, jenž by se počítali do statistického vzorku pro statistickou správnost, by se měli započítat jen ti, kteří jsou na webu, když máte online daný chat. Protože když nejste online, nic se nezobrazuje a je to stejné, jako kdybyste neměřili. Tedy budete-li na webu v čas stejný, jako alespoň 50 % lidí, prodlužuje se vám A/B test na dvojnásobek.

Jednou větou: Měřit tedy oba chaty souběžně, na stejné návštěvnosti, ve stejné časy online a na dostatečně velkém statistickém vzorku. Jinak výsledky stojí za prd pořád a jsou zkreslené.

Závěrem

Nevím, co za článek Michal dostal, ale působí jako velké promo pro SmartSupp. Nevím, jestli to za to Michalovi fakt stojí, prezentovat takovéto „případové studie“, kde se snaží o senzaci, která se vlastně nekoná.

Na druhou stranu musím říci, že SmartSupp mám rád, mám ho na e-shopu sám a jsem s ním až na drobné problémy stability spokojen. I mě kontaktovali ze SmartSuppu, zda o nich nechci naspat článek, ale jednak jsem si zatím nenašel čas a druhak by asi nebyl zatím tak super pozitivní, jako od Michala. Já když mám něco doporučit, zaplatit se nenechám.

Abych to shrnul – tento článek není nic proti SmartSuppu, ani obhajoba Zopimu (který nemám vůbec rád), ani nic proti Michalovi Kubíčkovi nebo dokonce proti jeho e-shopu. Je to pouze reakce na absolutně zkresleně podaná data, která se prezentují jako super výsledek a nejhorší na tom je, že lidé, kteří tomu moc nerozumí, tomu tleskají a berou to jako fakt, kdy to tak skutečně je. Tento článek má poukázat na monstrózní chyby a ukázat, jak nad problematikou přemýšlet. Dále pak, že data se musí vyhodnocovat s rozumem a ne bezhlavě.

Mimochodem pokud případové studie umíte, pojďte nám nějakou ukázat:  Hledáme kvalitní případové studie! (zn. zajímavé a originální)

 



O autorovi příspěvku: Ing. Jan Kalianko

Jsem konzultant věnující se výhradně e-shopům. Pomáhám jim více vydělávat při stejných vstupních podmínkách. Napsal jsem první českou knihu o tom, jak vybudovat úspěšný e-shop, pořádám E-shop víkend, E-shop summit, UX&CRO summit, E-shop akademii a v neposlední řadě jsem také CEO SvětBot.cz. Od roku 2017 vedu školení open-source nástroje Mautic, který je určený pro marketingovou automatizaci. A když mám trochu volna, přednáším na konferencích o e-shopech.

2 komentáře

  1. Diky za promo clanku, souhlasim s tebou, ze za idealnich podminek by bylo A/B testovani super, nicmene ne vzdy se vyskytuji idealni podminky. Kdyz jsem novy chat nasazoval, nemel jsem v umyslu testovat ci srovnavat. To prislo na radu pote, co mne samotneho prekvapila rozdilna cisla interakci a hlavne konverzi. Takze srovnani vychazi z dvou 14dennich intervalu po sobe nasledujicich, kdy dokonce v prvni polovine (zopim) bylo celkove o trochu vic objednavek a navstevnost byla srovnatelna. Nesrovnaval jsem to v tomto kontextu, kdyby byl rozdil v jednotkach procent, mozna by se dalo mluvit o statistickych odchylkach a korekcich, u tak velkeho rozdilu je to vsak viditelne na prvni pohled. A skoda, ze jak sam nenapsal clanek na toto tema, mozna by se svym kritickym pohledem byl pro nektere lidi prinosny.

    • Michale, pak o tom ale nemáš psát, když pro to nemáš relevantní data, natož to nazývat případovou studií…

      A já budu psát o SS článek ve chvíli, kdy s ním budu plně spokojen (až vyladí věřím že jen dočasné problémy) a najdu si čas. Klienti jsou pro mě důležitější, to jistě chápeš.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Zvýrazněná (označená) pole jsou povinná *

*

CommentLuv badge

Více v chyba, fail, meření, michal kubíček, případová studie, smartsupp
Hledáme kvalitní případové studie! (zn. zajímavé a originální)

Na přelomu července a srpna 2015 pořádáme s vEnCa-X třídenní konferenci...

Případová studie: Testování textů tlačítek na SvětBot.cz

Dlouho už slibuji další případovou studii a vím to. Pro...

Zavřít