Får man använda Google Analytics?

Publicerad 2023-07-05 av Linus Larsson

Den 3e juli 2023 publicerade IMY en granskning man genomfört i Sverige gällande användandet av Google Analytics. Granskningen gäller hurudvida 4 bolag (Coop, Tele2, Dagens Industri och CDON) överfört personuppgifter till USA eller inte via Google Analytics. I denna artikel kommer jag att gå igenom Qvalentos syn på denna granskning. Vi är inte jurister så de rekommendationer och övrigt innehåll i artikeln ska inte ses som juridisk rådgivning. Jag rekommenderar starkt att kontakta jurister för att göra en egen bedömning av användandet av Google Analytics.

Det kortfattade svaret

Ja, man får faktiskt använda Google Analytics. Verktyget i sig bryter inte mot några lagar, men däremot behöver man anonymisera varje enskild uppgift som direkt eller indirekt kan kopplas till en fysisk person. Vad innebär då det? Jo, varje uppgift som antingen direkt kan anses vara en personuppgift eller som med hjälp av andra verktyg/system/uppgifter kan anses vara en personuppgift måste tas bort eller anonymiseras på ett sätt som gör att det inte går att översätta tillbaka. Ska man implementera en sådan form av anonymisering kan man därför inte spara information så som:

  • Trafikkällor
  • Ordernummer
  • Cookie-värden
  • Identifierare så som gclid (Google Ads)
  • IP-adresser (inte ens om sista oktettet tas bort)
  • User Agent

Att ta bort all denna information gör, i alla fall i mitt tycke, Google Analytics till ett ganska dåligt alternativ för att bedriva webbanalys. Vill man trots det använda Google Analytics behöver man utöver denna anonymisering även säkerställa att man inte skickar någon information direkt till Googles servrar. Man behöver alltså installera en proxyserver för att läsa in de JavaScript-filer som krävs för att använda Google Analytics och dessutom skicka alla requests för verktyget till proxyservern. På proxyn måste man därefter göra själva anonymiseringen innan man kan skicka vidare det anonymiserade datat till Google.

Det korta svaret är alltså att det är fullt möjligt att använda verktyget, men varför stånga sig blodig för att göra Google Analytics lagligt genom att investera tid och pengar i det när det ändå inte kommer få innehålla särskilt mycket information? Min personliga rekommendation skulle i alla fall vara att utifrån IMYs granskning se sig om efter alternativa lösningar, vilket listas i slutet av denna artikel.

Uppdatering 2023-07-11
Den 10e juli slöts en ny överenskommelse mellan EU och USA kring överföring av persondata. Vad som gäller kring detta är under flitig diskussion i branschen just nu, men jag har sammanfattat lite om det i en artikel.

Varför ansåg IMY att Google Analytics var olagligt?

Bedömningen av de olika bolagens användande av verktyget skiljer sig åt eftersom de har använt det på olika sätt. Den huvudsakliga anledningen till att samtliga bolagen anses ha brutit mot GDPR är för att de har samlat in data till Google Analytics som IMY bedömer ska klassificeras som persondata. De har även gjort bedömningen att själva hämtningen av "analytics.js" (det script som Universal Analytics använder) i sig är olagligt om man hämtar det direkt från Google. Anledningen är för att man då exponerar användarens fullständiga IP-adress.

Anledningen till att man inte får överföra någon persondata till Google Analytics, även om man fått ett aktivt medgivande till cookies/spårning på webbplatsen, är för att verktyget ägs av ett amerikanskt bolag (Google). Det innebär att de hanterar och lagrar data inom USA. Tidigare var det okej att dela data med USA med hänvisning till något som kallades Privacy Shield. Det var en överenskommelse mellan USA och EU. I juli 2020 meddelade EU-domstolen att detta inte längre ansågs vara legalt då den inte medförde ett tillräckligt skydd av europeiska invånares data. Detta kallas för Schrems II och har fått namnet efter Maximilian Schrems, som är den person som var pådrivande till att beslutet togs om att förklara Privacy Shield otillräckligt.

Vilka lagar bryter användandet av Google Analytics mot?

Man skulle kunna säga förenklat att det är GDPR man bryter mot genom att använda Google Analytics, med hänvisning till Schrems II. Däremot hänvisar IMY till flera paragrafer och lagstiftningar som jag kommer att göra mitt bästa för att förklara vad de avser.

Dataskyddsförordningen

IMY hänvisar flertalet gånger till Dataskyddsförordningen (GDPR). Denna förordning trädde i kraft i maj 2018 och dess syfte är att skydda individers rättigheter till sin personliga data inom EU. Den kanske viktigaste artikeln som hänvisas till i granskningarna är Artikel 4.1. I denna definieras personuppgifter enligt:

"varje upplysning som avser en identifierad eller identifierbar fysisk person (nedan kallad en registrerad), varvid en identifierbar fysisk person är en person som direkt eller indirekt kan identifieras särskilt med hänvisning till en identifierare som ett namn, ett identifikationsnummer, en lokaliseringsuppgift eller onlineidentifikatorer eller en eller flera faktorer som är specifika för den fysiska personens fysiska, fysiologiska, genetiska, psykiska, ekonomiska, kulturella eller sociala identitet"

2.2.1 Tillämpliga bestämmelser m.m. (Granskning av Tele2)

IMY kommenterar detta avsnitt med följande:

"För att avgöra om en fysisk person är identifierbar bör man beakta alla hjälpmedel som, antingen av den personuppgiftsansvarige eller av en annan person, rimligen kan komma att användas för att direkt eller indirekt identifiera den fysiska personen (skäl 26 till dataskyddsförordningen)."

2.2.1 Tillämpliga bestämmelser m.m. (Granskning av Tele2)

Denna förklaring från IMY innebär (enligt min uppfattning) att så länge den aktör som använder Google Analytics kan koppla information om en användare i verktyget till en fysisk person ska uppgifterna betraktas som personuppgifter. Det innebär att självklara uppgifter så som exempelvis ordernummer och användar-id är personuppgifter även om Google inte kan använda dem för att identifiera en fysisk person.

Man kan även hårddra denna tolkning så långt som till att säga att även en tidsstämpel kan anses vara en personuppgift. Om en användare exempelvis fyller i ett formulär eller genomför ett köp och vi i Google Analytics endast sparar själva händelsen, utan någon annan information än tidsstämpeln, så kan detta användas för att i kombination med ett annat system mappa användaren. Även om man vill distansera från denna hårddragning med att argumentet att Google i alla fall inte kan koppla samman information så hänvisar jag till IMYs egen kommentar ovan angående den personuppgiftsansvarige.

Det finns dessutom ett annat scenario. En användare besöker Googles söktjänst och har blivit identifierad av Google redan med hjälp av signaler de använt sig av. Användaren klickar nu på ett sökresultat och landar på din webbplats där du har anonymiserat all data som skulle kunna kopplas till användaren. Du sparar inte ens trafikkälla eller query-parametrar. Trots det kommer tidsstämpeln kunna hjälpa Google att koppla samman användaren genom att mappa informationen de redan har, dvs domänen som klickades på en länk till från deras egen sökmotor och GA-egendomen som de vet är installerad på samma domän i kombination med tiden som överensstämmer i bägge systemen. Har man otroligt mycket trafik från Google till samma landningssida blir det såklart svårare att göra mappningen men låter man bli att anonymisera något annat så som webbläsarversion, operativsystem, språkval etc så ska det mycket till för att man inte skulle kunna göra en korrekt mappning.

Slutsatsen jag själv drar sett till hänvisningen IMY gör till Dataskyddsförordningen är att det inte är möjligt att använda Google Analytics utan att anonymisera sönder nyttan med verktyget.

Foreign Intelligence Surveillance Act (FISA)

FISA är en amerikansk lagstiftning som trädde i kraft 1978. Den har sedan dess uppdaterats ett flertal gånger. Lagen är avsedd för att ge myndigheter möjlighet till avlyssning av kommunikation och data för nationell säkerhet. Det brukar ofta nämnas som ett verktyg i bekämpning av terrorism då det tillkom flertalet uppdateringar av FISA efter 11 september-attackerna.

I IMYs granskning nämns "702 FISA". Det avser en punkt i lagstiftningen som tillåter myndigheter att begära ut data från amerikanska bolag om personer som befinner sig utanför amerikanskt territorium, även om dessa inte är amerikanska medborgare. De får faktiskt inte ens begära ut data om de misstänker att personen ÄR en amerikansk medborgare. Lagen grundar sig alltså på övervakning av icke-amerikaner utanför amerikanskt territorium. Det är även denna lag som är en av anledningarna till att Privacy Shield ansågs vara otillräckligt i domen Schrems II.

Executive Order 12333

Executive Order 12333 ger amerikanska underrättelsetjänster möjlighet att samla in, behålla och sprida information om amerikanska medborgare och icke-medborgare. På NSAs webbplats går det att läsa om vad de gör med hänvisning till denna presidentorder. Även denna var en av anledningarna till Schrems II-domen.

Presidential Policy Directive 28 (PPD-28)

PPD-28 är ett verkställande direktiv som syftar till att skydda personuppgifter som samlas in av underrättelsetjänster, inklusive uppgifter om icke-amerikanska medborgare. Även om direktivet syftar till skyddande av personuppgifter tillåter det övervakning och insamling av data på ett sätt som kan strida mot GDPR. Även detta var en av anledningarna till Schrems II-domen.

Cloud Act

Cloud Act nämns faktiskt aldrig i IMYs granskning men jag kände ändå att den är värd att nämna i detta sammanhang eftersom den ofta diskuteras i samband med FISA. Det är en lagstiftning som innebär att amerikanska myndigheter har rätt att begära data från amerikanska tjänsteföretag oavsett vart datat är lagrat. Denna lagstiftning i kombination med de två ovan innebär att även om Google lagrar datat på servrar inom EU har amerikanska myndigheter möjlighet att ta del av dessa uppgifter.

Är det bara Universal Analytics som berörs?

Det korta svaret är nej. Det finns absolut saker som GA4 erbjuder som är betydligt mer integritetshöjande än Universal Analytics, men ser man till de lagar som nämnts ovan är min uppfattning att det inte spelar någon roll vilken version av Google Analytics man använder.

Jag har noterat att många skrivit i olika forum och sociala medier att det är helt okej att använda GA4 eftersom databehandling och lagring sker inom EU, samt att IP-adresser aldrig sparas. Ser man till de lagstiftningar som nämnts ovan är det uppenbart att den fysiska platsen för vart behandling sker inte i sig är en tillräckligt integritetshöjande faktor. Jag vågar inte gå in på hurudvida IP-adressen kan exponeras i samband med att den skickas till Googles servrar med hjälp av signalspaning eller inte, men det finns fortfarande många frågetecken kring den process Google implementerat för GA4. Bland annat hänvisar de till att de gör en lookup av IP-adressen på servern för att få fram geografiska data kopplat till den och att de därefter väljer att inte spara den, utan endast datat de fått från den. Däremot är det inte tydligt huruvida IP-adressen loggas någonstans i samband med själva lookupen.

En fördel i GA4 är att man kan ställa in en hel del integritetsinställningar kring vad som ska få spåras och inte. Jag anser dock att trots detta kommer verktyget att samla in personuppgifter förutsatt att man inte anonymiserar allt som skulle kunna klassificeras som det utöver dessa inställningar, vilket då leder till ett verktyg som inte är särskilt värdefullt att arbeta med.

Metoder som bolagen använde för att förhindra persondata från att samlas in

Nedan följer några av de lösningar som de granskade bolagen använt sig av i tron om att det förhindrade persondata från att samlas in. I varje sektion kommer jag att gå igenom vad tekniken innebär och reflektera kring huruvida den är effektiv nog. Som jag nämnde i inledningen av denna artikel är jag inte en jurist så de argument som listas bör inte ses som juridisk rådgivning.

Pseudoanonymisering av cookies

Dagens Industri hänvisade till att man hashar cookievärdet som Google Analytics sparar på användarens enhet innan man skickar det till Google Analytics. Det innebär att det värdet som är tillgängligt i webbläsaren inte är samma värde som GA kommer få ta del av. IMY anser att detta är en integritetshöjande åtgärd, men att det i kombination med annan data ändå kan användas för att identifiera en fysisk person. Följande skriver de i sin granskning av Dagens Industri:

"Även om trunkeringen av sista oktetten och ”hashning” av cookie-värdet utgör integritetshöjande åtgärder, då de begränsar omfattningen av de uppgifter som myndigheter kan få tillgång till (i tredjeland) konstaterar IMY att det ändå går att koppla de överförda uppgifterna till andra uppgifter som också överförs till Google LLC (till USA). Därigenom möjliggörs identifiering, vilket i sig är tillräckligt för att uppgifterna tillsammans ska utgöra personuppgifter."

2.2.2 Integritetsskyddsmyndighetens bedömning (Granskning av Dagens Industri)

Anledningen till att detta kan anses vara integritetshöjande är för att värdet av cookien som kan ha lästs av andra tjänster än bara Google Analytics inte kommer att ha någon spårbarhet inne i verktyget i sig. Får en utomstående aktör tillgång till Google Analytics kommer denne inte att kunna matcha cookievärdet i Google Analytics med enhetens värde om denne lyckats få tag i det genom annan avlyssning. Jag ser egentligen två problem med denna approach:

  1. Cookien som sätts av Google Analytics på enheten kommer fortfarande att innehålla ett unikt värde. Även om värdet inte delas med Google Analytics kommer det fortfarande fungera som en unik identifierare på enheten när andra requests görs som kan läsa cookien. Detta i sig är inte ett problem sett till Schrems II, men det är ändå värt att nämna.
  2. Det hashade värdet är fortfarande samma textsträng för samma användare så länge inte cookiens värde i enheten ändras. Det innebär att om man skickar någon uppgift till Google Analytics som gör att användaren kan identifieras blir allt den användaren gjort så länge cookien existerat per automatik kopplat till individen.

Anonymisering/trunkering av IP-adresser

Flera av de granskade bolagen hävdar i granskningen att man använt en metod som tillhandahålls av Google Analytics för att anonymisera IP-adressen. Det görs genom att trunkera en del av den. Man tar då bort den sista oktetten av IP-adressen. Exempelvis blir adressen 12.123.123.123 istället 12.123.123.0.

IMY har gjort bedömningen att detta inte är en tillräckligt integritetshöjande metod då det endast kan finnas 256 varianter av IP-adressen så det är för enkelt att tillsammans med andra datapunkter kunna förstå vilken användare det är trots trunkeringen.

I Coops fall har man gått så långt så att man har skickat en och samma IP-adress till Google Analytics, dvs exempelvis 0.0.0.0. Trots att man helt tagit bort IP-adressen anser IMY att det inte är tillräckligt.

"Dessa består enligt bolaget av en s.k. server side container, som inrättats i syfte att utöka kontrollen över på vilket sätt data skickas till Verktyget och innebär att det endast är en och samma generiska IP-adress som överförs till Verktyget, oavsett vilken den registrerades unika IP-adress är. IMY finner dock att dessa åtgärder inte är tillräckliga av följande skäl. IMY konstaterar att Coop även överför ett antal andra unika identifierare (clientID, userID, gclid och dclid samt transactionID)"

2.4.2.3.2 Coop:s egna ytterligare skyddsåtgärder (Granskning av Coop)

Detta innebär alltså att det inte går att påstå att granskningarna inte berör GA4 med hänvisning till att Google inte sparar IP-adresser i det verktyget. De exempel som lyfts på andra identifierare som skickats i Coops fall är såklart möjliga att anonymisera, men då uppstår två frågor:

  1. Finns det andra datapunkter som kan innebära identifiering av användare? Se tidigare kommentar om tidsstämplar.
  2. Är det värt att GDPR-säkra Google Analytics på ett sätt som gör det tillåtet enligt IMY eller vore det mer lämpligt att byta verktyg för att kunna samla in det som är relevant?

Proxyserver / Server-Side-Container

Ett annat argument jag noterat de senaste dagarna är att användandet av en proxyserver som kan ta emot data från webbläsaren och sedan skicka vidare till Google Analytics skulle lösa problemet. Inte genom att installera det i sig, men genom att använda det för att anonymisera data. Det skulle kunna vara sant, förutsatt att man väljer att anonymisera allt fullt ut och därmed inte behålla några datapunkter alls som går att koppla till fysiska personer. Men då landar vi återigen i frågan om det verkligen är värt att fortsätta med Google Analytics i ett sådant fall, eller om det inte är bättre att se över alternativ.

En situation som proxyn löser är själva inläsningen av de JavaScript-filer som krävs för att aktivera Google Analytics. I granskningen har IMY klargjort att när en användare besöker en webbplats utan en korrekt proxy-lösning hämtas filen "analytics.js" direkt från Googles servrar och exponerar då användarens IP-adress. Samma sak bör gälla för bland annat "gtm.js", som används för att läsa in Google Tag Manager. Detta har dock inte varit med i granskningen, då den endast innefattat Google Analytics som verktyg.

Min tolkning utifrån IMYs granskning är att en proxyserver är ett krav för att över huvud taget kunna använda Google Analytics. Därtill krävs att samtliga uppgifter som kan anses identifiera en fysisk person direkt eller indirekt också ska anonymiseras så till den grad att uppgiften faktiskt kan anses vara anonym. Därav ser jag inte detta som en lösning då konsekvenserna av vilken data man kan samla in i mitt tycke innebär att verktyget blir undermåligt.

Alternativ till Google Analytics

Det finns flera verktyg som fungerar minst lika bra som Google Analytics. I denna artikel kommer jag att fokusera på två huvudsakliga alternativ; de mest populära valen.

Piwik PRO

Piwik PRO är ett kraftfullt verktyg som påminner mycket om datastrukturen i Universal Analytics. Är man van vid att arbeta i det kommer migrationen till Piwik PRO att vara relativt enkel. Verktyget tillhandahålls av ett polskt bolag som heter just Piwik PRO.

En annan fördel med verktyget är att man får tillgång till en tagghanteringslösning. Den är kanske inte fullt lika utvecklad som Google Tag Manager, men den går absolut att skapa likvärdiga regelverk i som man tidigare gjort i Google Tag Manager. Man får dessutom tillgång till en egen consent-hanterare med tillhörande cookie-banner. Denna kan man dock själv välja om man vill använda eller inte. Consent-hanteringen går att sätta upp med JavaScript genom ett API om man föredrar att använda en extern eller egenbyggd lösning.

Piwik PRO går att beställa både som molntjänst eller som en On-Premise-lösning. Molntjänsten går att placera på ett flertal ställen, bland annat hos Elastx i Stockholm. Det förutsätter dock att man betalar för licensen och inte använder gratisversionen. Gratisversionen är hostad i Microsoft Azure och skulle kunna innebära problem på sikt, förutsatt att IMY skulle göra bedömningen att datat på så sätt är tillgängligt för amerikanska myndigheter.

Kika gärna på jämförelsen med Google Analytics 4 på deras webbplats.

Matomo Analytics

Matomo är en open source-lösning för webbanalys som funnits länge. Det hette tidigare "Piwik". Detta är den plattform som Piwik PRO utgått från för att skapa sitt verktyg. Därför är de ganska lika varandra. Även Matomo har möjlighet att installeras både som en molntjänst och On-Premise. Det är dock tveksamt om molntjänsten är tillåten att använda då den hostas hos AWS, som ägs av amerikanska bolaget Amazon.

Det finns dock några väsentliga skillnader. En av de viktigaste att poängtera är att databasen för Matomo är MySQL, medan Piwik PRO använder ClickHouse. Samlar man in mycket data under en dag kan Matomo upplevas som långsamt, medan Piwik PRO laddas blixtsnabbt i jämförelse.

Läs gärna om skillnaderna mellan Piwik PRO och Matomo på Piwik PROs webbplats.

Är det värt att bygga något eget?

Ett tredje alternativ som ändå kan vara värt att nämna är att helt enkelt strunta i att installera en färdig analys-produkt och istället skapa en egen lösning. Detta kan kännas skrämmande och tidskrävande, men jag vill ändå lyfta det som ett alternativ då det kan vara värt mödan för att veta att man kontrollerar precis all data utan extern inblandning.

Det är relativt enkelt att skriva ihop JavaScript-funktioner som kan samla in data i klienten (webbläsaren) för att sedan skicka med HTTP-requester till en egenkontrollerad endpoint. Det är precis så de flesta webbanalys-verktygen fungerar. Sen väljer man då själv vilken information som är väsentlig att spåra. Man behöver kanske inte samla in lika mycket data som man gjort historiskt i Google Analytics? Man skulle även kunna kombinera viss data med data från backend genom att skicka viss information direkt därifrån till endpointen och använda någon form av identifierare för att knyta samman server-baserade datat med det från klienten.

Det som jag skulle tro blir den mest tidskrävande delen är att visualisera datat. Om man har en datadriven organisation med infrastruktur för att hantera data i ett data warehouse skulle man kunna koppla på denna datan i befintlig arkitektur. Då kan man visualisera på samma sätt som man gör med annan affärsdata. Det man går miste om är ett gränssnitt med färdigbyggda rapporter och färdigbyggd logik för att kunna gräva i datat på olika sätt. Det krävs alltså att någon lägger tid på att bygga upp rapporteringsunderlagen.

Vad gör vi nu?

Min rekommendation (som inte ska tas som juridisk rådgivning) är egentligen tudelad. Det ena alternativet är följande uppgifter:

  1. Påbörja en intern granskning av det nuvarande användandet av Google Analytics, om detta inte redan gjorts. Granskningen bör innehålla information kring vilka uppgifter som samlas in i Google Analytics och hur datat skickas från användarens enhet in till Google Analytics (proxy eller direkt till Googles servrar).
  2. Lämna över granskningen till en jurist som kan bedöma om det finns anledning till att slå av verktyget.
  3. Besluta om vilka åtgärder som ska tas utifrån juristens rekommendationer. Antingen att förstärka anonymisering eller stänga av Google Analytics.
  4. Om GA stängs av, se då över vilket verktyg som skulle kunna vara aktuellt att använda istället. Den processen skulle kunna påbörjas parallellt med steg 1.

Det andra alternativet skulle vara att stänga av Google Analytics omedelbart för att undvika att eventuellt fortsätta att begå ett brott. Detta är det jag själv hade valt. Därefter kan man gå igenom listan ovan ändå för att reda ut vilka alternativ man har framåt. Granskningen är värdefull oavsett eftersom den kommer kunna besvara viktiga frågor om man skulle hamna i en granskning av IMY i framtiden och för att själva förstå vad det är man egentligen har delat med sig av till Google.

Rådgivning

Jämfört med många andra artiklar och uppdateringar på sociala medier som jag läst senaste dagarna förstår jag att min artikel känns hård. Som jag nämnde i början så är detta Qvalentos tolkning av IMYs beslut och ska inte ses som juridisk rådgivning. Däremot diskuterar vi gärna vidare dessa punkter om det skulle önskas ytterligare rådgivning. I så fall är det bara att ta kontakt med mig via email eller genom att fylla i vårt formulär på siten.

© Qvalento Solutions AB |