Co jest istotne na ścieżce konwersji? Case z wykorzystaniem Google Analytics.

Co jest istotne na ścieżce konwersji? Case z wykorzystaniem Google Analytics.
5 (100%) 3 votes

Gdy prowadzimy kampanię internetową przy pomocy wielu kanałów mediowych, warto zastanowić się jak duży zysk osiągamy dzięki każdemu z nich. W ten sposób możemy wywnioskować, w które z nich opłaca się inwestować większe środki, a które tak naprawdę przynoszą straty i obniżają wydajność naszego budżetu.

Biorąc jednak pod uwagę fakt, że użytkownik na swojej ścieżce zakupowej może napotykać wiele komunikatów reklamowych na różnych kanałach, trudno jest ocenić, który z nich tak naprawdę przekonał daną osobę do zakupu.

Jeden z naszych Klientów tworzył bazę osób zainteresowanych jego produktem zbierając informacje kontaktowe poprzez formularz na swojej stronie internetowej. Witryna była promowana na wielu różnych kanałach mediowych. Klient poprosił nas o ocenienie istotności każdego z nich. Po wstępnej analizie problemu, doszliśmy do wniosku, że konieczne będzie zbudowanie odpowiedniego modelu statystycznego opartego na danych zebranych z Google Analytics, który będzie w stanie opisywać wpływ każdego z kanałów na konwersje.

Niestety dane, które chcieliśmy użyć do naszej analizy miały dwie poważne wady. Mianowicie:

Tylko dane post-click

Interakcje z reklamami na poszczególnych kanałach mogą wyglądać różnorako. Użytkownik nie zawsze musi w coś kliknąć, aby uzyskać pożądany efekt. Czasami wystarczy spojrzeć na kreację, aby później miało to wpływ na decyzje zakupową. Niektóre reklamy są wyświetlane wielokrotnie, ale bardzo rzadko klikane. Niestety nasze dane uzyskane z Google Analytics nie były kompletne. Mieliśmy informacje tylko o interakcjach post-click, czyli przejściach na landing page po kliknięciu w reklamę. Nie mieliśmy informacji o samych wyświetleniach, bez kliknięcia.

Tylko dane o sukcesach

W Google Analytics mieliśmy dostęp tylko do takich ścieżek, które zakończyły się konwersją. Ze statystycznego punktu widzenia nasze dane były obciążone i składały się tylko z jednej, pozytywnej klasy – ścieżek, zakończonych sukcesem.

Zbudowanie skutecznego modelu na takich danych jest nie lada wyzwaniem. W tym celu użyliśmy techniki nazywanej One Class Support Vector Machines, która bazując na zbiorze danych zaklasyfikowanym jako pozytywny, stara się ocenić czy następny element jest do nich podobny czy różny. Technika ta jest stosowana na przykład w elektrowniach atomowych. W sposób oczywisty dysponują one ogromnym zbiorem poprawnych stanów reaktora. Obsługa elektrowni chciałaby natomiast być w stanie wykrywać w pewny i szybki sposób stany niepoprawne, które zdarzają się niezwykle rzadko.

W naszym przypadku stwierdziliśmy, że postaramy się zakwalifikować wszystkie lub większość ścieżek zakończonych konwersją jako jedną, pozytywną klasę. Później zaś wyciągniemy wnioski na temat istotności kanałów na podstawie analizy struktury samego modelu.

Wstępna analiza danych

Nasze dane składały się ze ścieżek wielokanałowych wyeksportowanych z Google Analytics. Kanały mediowe z którymi pracowaliśmy wyglądały następująco:

  • bezpłatne wyniki wyszukiwania,
  • płatne wyniki wyszukiwania,
  • afiliacja,
  • rtb,
  • media społecznościowe,
  • kampanie mailowe,
  • display,
  • blogi,
  • video,
  • wejścia bezpośrednie.

Na początku przeprowadziliśmy wstępną analizę ilościową, aby zrozumieć z jakimi danymi mieliśmy do czynienia. Dowiedzieliśmy się między innymi, które kanały rozpoczynały, asystowały podczas i finalizowały konwersje. Zbadaliśmy również czasy pomiędzy wejściem na ścieżkę konwersyjną, a finalną realizacją celu, a także długości ścieżek konwersyjnych.

Przygotowanie danych

Po wstępnym zbadaniu danych, chcieliśmy być w stanie wyciągnąć z nich jeszcze więcej informacji o bardziej subtelnych zależnościach pomiędzy ścieżkami, kanałami na ścieżkach, a konwersjami. Aby zbudować model, musieliśmy nieco rozszerzyć nasz zbiór danych. Pamiętajmy, że na początku dysponowaliśmy tylko konkretnymi ścieżkami i ilością konwersji. Przykładowy wiersz w naszym zbiorze danych mógł wyglądać następująco:

google / cpc > (direct) / (none) > google / organic  154

Aby nasz algorytm uczenia maszynowego mógł działać lepiej, musieliśmy utworzyć nowe cechy dla każdej ścieżki. Do każdego wiersza dodaliśmy zatem zmienne, które opisywały:

  • czy dany kanał mediowy znajduje się na ścieżce,
  • czy dana kombinacja źródło – medium występuje na ścieżce,
  • jak wiele wystąpień danego kanału mediowego znajduje się na ścieżce,
  • jak wiele wystąpień kombinacji źródła – medium występuje na ścieżce,
  • ile różnych kombinacji źródła – medium występuje na ścieżce,
  • długość ścieżki.

Modelowanie i ewaluacja ścieżek konwersji

Po przygotowaniu danych mogliśmy przystąpić do tworzenia właściwego modelu statystycznego. Oczywiście musieliśmy wytrenować ich wiele, z różnymi parametrami i założeniami, aby otrzymać satysfakcjonujące wyniki. Skupiliśmy się na dwóch głównych grupach:

  • modele, które brały pod uwagę wszystkie ścieżki, które znajdowały się w zbiorze treningowym. Były to więc modele, opisujące wszystkie konwersje, nawet te bardzo rzadkie, być może przypadkowe,
  • modele, które brały pod uwagę ścieżki, które częściej prowadziły do konwersji z większą wagą. Były one więc bardziej ogólne.

Spośród tych dwóch przypadków wybraliśmy najlepiej działające modele.

Po ich stworzeniu mieliśmy już sposób, aby klasyfikować ścieżki jako prowadzące do konwersji lub nie. Jednakże celem całej analizy było znalezienie sposobu na ocenę istotności kanałów na ścieżkach konwersyjnych. Aby być w stanie tego dokonać, zastosowaliśmy następującą procedurę.

Technika One Class Support Vector Machines daje możliwość oceny jak bardzo dana ścieżka jest podobna do zbioru treningowego lub od niego różna. Algorytm podaje nam liczbę. Jeżeli jest większa od 0 to dana ścieżka jest podobna do zbioru treningowego. Im większa liczba – tym większe prawdopodobieństwo, że ścieżka rzeczywiście jest konwertująca. Im liczba jest mniejsza od 0, tym większe prawdopodobieństwo, że ścieżka jest niekonwertująca.

Aby zatem ocenić wpływ każdej z wcześniej utworzonych cech (zmiennych w modelu) na konwersje:

  • Posortowaliśmy ścieżki według wyniku, jaki uzyskały wg. modelu (prawdopodobieństwa, że ścieżka jest konwertująca).
  • Następnie wzięliśmy pod uwagę 20% najwyżej sklasyfikowanych ścieżek. Zsumowaliśmy ilości wystąpień poszczególnych cech wśród tych ścieżek.
  • Posortowaliśmy kontrybucje poszczególnych cech.
  • W ten sposób otrzymaliśmy ranking istotności wpływu poszczególnych cech na konwersje.

Wyniki

Problem, który postawił przed nami Klient sprowadzał się do modelowania istotności kanałów mediowych na ścieżkach konwersyjnych bez wystarczającej ilości danych. Konwersje mogą być wynikiem różnych interakcji użytkownika z reklamą, nie tylko kliknięć. Niestety, w naszym przypadku dysponowaliśmy wyłącznie takimi danymi. Pomimo, iż zaproponowane przez nas rozwiązanie wymaga przyjęcia pewnych założeń a priori na temat tego, które ścieżki rzeczywiście mogą być ważniejsze – wnioski, które otrzymujemy znacznie przewyższają merytorycznie wyniki, które uzyskuje się poprzez zwykłą analizę ilościową dostępną z poziomu Google Analytics. Bardziej subtelne, ale równie ważne cechy ścieżek mogą zostać zbadane, a ich wkład w konwersje zmierzony i zewaluowany.

Wykonaliśmy tę analizę jako pierwszy krok do pełnego zrozumienia mechanizmów rządzących konwersjami. Nasz Klient, jednakże, był zadowolony nawet z wyników, które odpowiadały na pytanie, jak zachowują się konwersje przy pewnych założeniach, a jak zachowują się przy założeniach odwrotnych. Następnym krokiem jaki można by było poczynić, by jeszcze głębiej zbadać zagadnienie, byłoby pełne modelowanie atrybucyjne, które opiera się zarówno na danych post-click, jak i danych post-view. Podejście takie nie wymaga już żadnych założeń wstępnych.

Bartosz Ziembiński
Analityk Mediowy w K2 Media S. A.
Analityk z wykształcenia i zamiłowania. Z tym, że analizy lubi prowadzić z różnych perspektyw. Studiował zarówno informatykę, jak i socjologię. Dziedziny te połączył później w swojej pracy naukowej, gdzie zajmował się modelowaniem rozprzestrzeniania się emocji w społecznościach i rozwiązywaniem konfliktów. W K2 analityk mediowy i webowy, który bada, optymalizuje i stara się tworzyć internet jeszcze ciekawszym miejscem.