A BCG szerint a jövő az értékesítés célzása és a folyamatok javítása mellett proaktív lehetőségeket is rejt, kihasználva az új digitális világban: energia kiegészítő termékekkel történő kapcsolt értékesítését és az adatokból kinyert információk értékesítését is.
Mindehhez azonban minél több értelmet kell csiholni az adatokból. Márpedig egyelőre kevésbé látható az a képesség, amely az "adat tudós" feladathoz elengedhetetlen. A továbbiakban ezért utánanéztem a Kaggle segítségével, vajon milyen fejlettségi szinten áll az adatok feldolgozásának képessége.
A Kaggle egy olyan versenyeztető és tanító oldal, amely célja a data science támogatása és fejlesztése, végső soron pedig értékesítése. A platform lehetőséget ad adatboncolóknak játékban és versenyben való részvételre, díjak elnyerésére és közösségi tanulásra. A másik oldalon pedig adatokkal de válaszokkal még nem rendelkező cégek számára teszi lehetővé az adatelemzés erejének megismerésére.
Az alábbiakban a következő néhány példát mutatom majd be:
- Az első versenyben belkin cég háztartások aggregált energiafogyasztási adatainak értelmezésére kíváncsi: meg lehet-e nagy biztonsággal magyarázni, hogy milyen eszköz okozza a fogyasztást?
- A második versenyben egy észak-amerikai áramszolgáltató terhelését kell vissza és előrejelezni historikus fogyasztási és hőmérséklet adatok alapján.
- A harmadik versenyben szélerőművi termelést kell előrejelezni historikus adatok és szélerősség és -irány adatok alapján.
(1)
Az első versenyben a kihívás az, hogy a gyakori mérésű áramfogyasztási adatból eszköz szintű javaslattal lehessen elősegíteni a fogyasztó hatékonyabb fogyasztását. 165 csapat versenyzett a 4 háztartás adatainak előrejelzése érdekében váltóáram minőségi adatok alapján. Csak egy megjegyzés a méret érzékeltetésére: a vizsgált adatok mérete összesen túllépi a 10 GB-ot.
Az adatok értelmezéséhez ilyen és bonyolultabb logikával kezdtek hozzá a versenyzők:
- Egyes eszközökre jellemző a hatásos teljesítmény (amely a munkát jelenti a váltakozó áramból) és a meddő (nem hasznosuló) teljesítmény összetevő aránya.
- Egyes eszközök ciklikusan fogyasztanak áramot (sütő, mosógép, mosogatógép), mások pedig folyamatosan fogyasztanak (kenyérpirító).
Forrás: Kaggle, egy versenyző által készítve
A mintázatok beazonosítása a fenti egyszerű illusztráció ellenére nagy kihívásnak bizonyult. A legegyszerűbb jóslat: minden eszköz ki van kapcsolva és a pontos beazonosítás között kb. félútig sikerült eljutnia a győztesnek,
(2)
A második versenyben egy áramszolgáltató órás terhelési adatait kellett megbecsülni egy hétre előre. A kiinduló pontot egy PhD szakdolgozatában fejlesztett modell értéke jelentette. Az eredeti átlagosan 3 százalékos pontosságot ebben az esetben csak 35 százalékkal lehetett javítani.
(3)
A harmadik versenyben a szélerőműi termelést a szélerősség adatok alapján kellett megjósolni 48 órára előre. A legegyszerűbb módszer - az utolsó mért adat előrevetítése - eredménye tovább volt javítható, megközelítőleg 60 százalékkal.
A két utolsó verseny 2012-ben került megrendezésre, a 2014-es versenyek már terhelés és ár eloszlások kvantilisainak becslésére vonatkozott.
A fenti példák számomra azt mutatják, hogy a big data lehetőségek kihasználásához nagyon rugalmas és motivált adatboncnokokra lesz szükség, és a már viszonylag egyszerűbb kérdések esetén is korlátokba ütközhet a jelenleg alkalmazott módszertan.
Forrás:
BCG: Making Big Data Work: Retail Energy
BCG: Enabling Big Data: Building the Capabilities That Really Matter
Forrás:
BCG: Making Big Data Work: Retail Energy
BCG: Enabling Big Data: Building the Capabilities That Really Matter
No comments:
Post a Comment