Data Science: Kako pretvoriti podatke u informacije, a informacije u nove spoznaje
Mislav Đurkan
Mislav Đurkan
Podaci su nafta 21. stoljeća

Data Science trenutno proživljava jako veliki uzlet tako da su data znanstvenici tražena roba, a svaka tvrtka na tržištu traži svog data scientista.

Vjerojatno ste i sami već do sada pročitali tvrdnju da su podaci nova nafta. Nismo ni svjesni koliko podataka generiramo i mi sami kupovanjem na internetu, googlanjem, korištenjem društvenih mreža, raznim smart aparatima i slično. Određene tvrtke profitiraju od digitalnog traga kojeg smo ostavili putem. Velike tehnološke tvrtke poput Googlea i Facebooka su najbolji primjer, jer svoje usluge pružaju besplatno – ili barem mi tako mislimo?

Dajemo puno toga za uzvrat.

Nije li pomalo strašno da vas Google može snimiti dok pričate o nekom proizvodu i automatski vam dati reklamu za navedeni proizvod. Uostalom, i Economist je pisao o tome kako je najvrjedniji resurs na svijetu – podatak, a ne nafta.

Potvrdili smo da ova tvrdnja ima smisla – tvrtke imaju podatke i trebaju ljude koji će koristeći nove tehnologije i znanja donijeti nove spoznaje i optimizirati poslovanje. Za razliku od Googlea, u A1 ne znamo – i ne želimo ulaziti u privatnost toga što korisnik radi u svako doba dana. Međutim, sigurno možemo pametnije segmentirati naše korisnike i definirati neke njihove ključne drivere prilikom kupovine. Uz profil korisnika temeljen na kupovinama i plaćanjima u prošlosti tu su i nove stvari na digitalnim servisima – već smo ustvrdili da svaki klik na reklamu ili posjet webshopu ostavlja neki trag.

Kako donijeti vrijednost?

Mnogo ljudi ne zna što radi jedan prosječni data scientist. Data Science poprima razne definicije, miješa se sa raznim titulama, spominju se strojno učenje i neuronske mreže, ali u kompaniji je najbitnije – kako napraviti nešto što doprinosi kompaniji i ima vrijednost. Nekoliko puta mi se dogodilo da me pitaju što ustvari radim. Neki misle da sam mađioničar koji će predvidjeti kada će oni doći u dućan i kupiti idući mobitel, dok drugi misle da se samo nabacujem s nekim brojkama.

Iskreno, ne krivim ih – niti sama industrija ne zna kako to definirati. Za jednog dobrog data scientista poznavanje programerskih jezika, strojno učenje i analitičko razmišljanje je apsolutni must. Bitno je da u svakoj situaciji možemo dovući, srediti i dobiti nešto iz danih podataka.

Vratimo se pitanju kako donijeti vrijednost? Odgovor je – poboljšati prodaju. Kako bi to ostvarili napravili smo sustav koji, anonimno ili personalizirano uz adekvatnu privolu, prati ponašanje korisnika na našoj web stranici i detektira one koji iskazuju zainteresiranost za određene usluge i proizvode te daje procjenu vjerojatnosti da će netko produžiti ugovor s obzirom na njihovo ponašanje. Primjerice, ističe vam pretplata za mobitel i razmišljate biste li kupili novi. Korisnik koji 5 dana zaredom dolazi na webshop, stavio je mobitel u košaricu, došao je do dijela kada samo treba izvršiti uplatu ima i veću vjerojatnost da takvo produljenje i obavi. Kako to detektirati pravovremeno? Razvojem grane strojnog učenja moguće ja napraviti model koji će na temelju tih saznanja donositi smislena odluke i javiti koliko je vjerojatno da se taj mobitel i kupi. Osim toga, svi ovi podaci omogućuju da se korisniku pristupi i s personaliziranom ponudom. Bez data scientista to ne bi bilo moguće.

Od ideje do produkcije uz open source

Htio sam naći projekt koji bi bio inovativan i na kojem mogu raditi paralelno uz svoje dnevne zadatke. Nakon što sam došao u tvrtku, primijetio sam da već postoje razni modeli za produženje ugovora, kampanje, reporti. Primjerice, razni modeli koji bi trebali prepoznati kada će korisnik otići. Znaju otkad sam im korisnik, koliko dugo sam u kompaniji, koliko plaćam račune itd.. Je li to dovoljno da me odredi kao korisnika? Naravno da nije. Rekli smo, ključ je u podacima. Vidio sam da postoji cijeli jedan skup podataka koji još nitko nije obradio, uključujući ponašanje korisnika na našem webu i mobilnim shopovima. Spominjao sam koliko naše ponašanje na internetu odaje o nama i našim navikama.

Pokazalo mi se kao dobar izazov o tome kako iskoristiti nove open source tehnologije s različitim izvorima podataka i prikazati sto može napraviti jedan data scientist.
 
1. Krenimo od izvora – ovdje je riječ o podacima koji se spremaju na BigQuery (Google Cloud).
Prvo pitanje je bilo kakva je struktura podataka i kako ih dohvatiti. Research dio o tehnologiji s kojom nisam bio upoznat.

2. Definiranje prvog koraka
Trebalo je kupiti vrijeme za ovaj projekt. Nakon nekoliko verzija dohvatio sam podatke, pokazao sam da se može i šta se čini korisno. Definiran prvi use case.

3. U paraleli se otvara suradnja s Hrvojem Krpanom iz Digitalnog odjela.
Njegov odjel koristi navedene podatke preko gotovih alata na Google stacku te dobro poznaje navedenu problematiku. Dogovorena je suradnja isporuke modela koji bi pomogao Hrvoju prilikom slanja i oglašavanja novih ponuda. Suradnja se pokazala vrlo dobrom jer mi je Hrvoje pružio puno informacija i dobrih savjeta oko podataka i na što bi se trebalo koncentrirati. Odvajali smo mali dio vremena kada bi zajednički brainstormali i zadavali si nove taskove i ciljeve. 

4. Napisao sam skripte u Pythonu koje na dnevnoj razini prikupljaju i obrađuju podatke koji su nam od značaja. Podaci se po dogovoru šalju u ostale timove koje ih koriste za kampanje i nove insighte.

5. Nakon svega toga, podatke iskorištavam za izradu modela koji dostavljam Hrvoju.

Postao sam bolji data scientist zahvaljujući projektu

Rad na ovakvom projektu mi je donio znanja o tehnologijama koje prije nisam koristio, nove spoznaje o ponašanju naših korisnika te mi je pomogao da steknem uvid u to kako rade neki drugi odjeli u kompaniji. Isto ne treba ni zanemariti koliko je bilo zabavno i izazovno imati projekt na kojem sam vlasnik sam sebi i guram se da budem što uspješniji.

Bilo je dobro što sam ovaj projekt mogao razvijati uz svoje dnevne zadatke, bitno je bilo držati neki kontinuitet i zadavati si neke minimalne ciljeve koji se trebaju zadovoljiti kako bi ovaj projekt i dalje živio. Dosta toga je i eksperimentalno pa se ne trebaju odmah nabiti velika očekivanja. Zato je dobro u početku definitati neke studije slučaja i mapirati ih na određene faze projekta kako bi opravdali ono što radimo.

Podaci koje smo pripremili koriste se u nekoliko timova kako bi pomogli pri donošenju odluka. Napravio sam novi i unaprijedio stari prediktivni model. Model mogu dodatno optimizirati. Mogu se testirati novi pristupi, poboljšati točnost. Jedan novi izvor podataka donio nam je i niz novih mogućnosti i ideja, čime je jasno koliko nam podaci određuju život čak i kada toga nismo svjesni, jer budimo iskreni – podaci su nova nafta.