Thursday, 16 October 2014

Mit kezdjünk a Big Data-val? Néhány példa a lehetőségekre

A BCG "blogján" arról ír, hogy az energia szektor le van maradva a Big Data erejének hasznosításában, az adatok minősége és felhasználása terén is. Az adatok mennyiségével persze nincs probléma: az USÁ-ban már az áram fogyasztók legalább 40 százalékának okos mérője van, míg az EU-ban 2019-re 60 százalékos felszereltségi arány várható. Ezek az eszközök sűrű és részletes adatokat tudnak tárolni és küldeni a fogyasztói szokásokról az energiaszolgáltató felé.

A BCG szerint a jövő az értékesítés célzása és a folyamatok javítása mellett proaktív lehetőségeket is rejt, kihasználva az új digitális világban: energia kiegészítő termékekkel történő kapcsolt értékesítését és az adatokból kinyert információk értékesítését is.

Mindehhez azonban minél több értelmet kell csiholni az adatokból. Márpedig egyelőre kevésbé látható az a képesség, amely az "adat tudós" feladathoz elengedhetetlen. A továbbiakban ezért utánanéztem a Kaggle segítségével, vajon milyen fejlettségi szinten áll az adatok feldolgozásának képessége.




A Kaggle egy olyan versenyeztető és tanító oldal, amely célja a data science támogatása és fejlesztése, végső soron pedig értékesítése. A platform lehetőséget ad adatboncolóknak játékban és versenyben való részvételre, díjak elnyerésére és közösségi tanulásra. A másik oldalon pedig adatokkal de válaszokkal még nem rendelkező cégek számára teszi lehetővé az adatelemzés erejének megismerésére.

Az alábbiakban a következő néhány példát mutatom majd be:

  1. Az első versenyben belkin cég háztartások aggregált energiafogyasztási adatainak értelmezésére kíváncsi: meg lehet-e nagy biztonsággal magyarázni, hogy milyen eszköz okozza a fogyasztást?
  2. A második versenyben egy észak-amerikai áramszolgáltató terhelését kell vissza és előrejelezni historikus fogyasztási és hőmérséklet adatok alapján.
  3. A harmadik versenyben szélerőművi termelést kell előrejelezni historikus adatok és szélerősség és -irány adatok alapján.
(1)
Az első versenyben a kihívás az, hogy a gyakori mérésű áramfogyasztási adatból eszköz szintű javaslattal lehessen elősegíteni a fogyasztó hatékonyabb fogyasztását. 165 csapat versenyzett a 4 háztartás adatainak előrejelzése érdekében váltóáram minőségi adatok alapján. Csak egy megjegyzés a méret érzékeltetésére: a vizsgált adatok mérete összesen túllépi a 10 GB-ot.

Az adatok értelmezéséhez ilyen és bonyolultabb logikával kezdtek hozzá a versenyzők:
  • Egyes eszközökre jellemző a hatásos teljesítmény (amely a munkát jelenti a váltakozó áramból) és a meddő (nem hasznosuló) teljesítmény összetevő aránya.
  • Egyes eszközök ciklikusan fogyasztanak áramot (sütő, mosógép, mosogatógép), mások pedig folyamatosan fogyasztanak (kenyérpirító).
Forrás: Kaggle, egy versenyző által készítve

A mintázatok beazonosítása a fenti egyszerű illusztráció ellenére nagy kihívásnak bizonyult. A legegyszerűbb jóslat: minden eszköz ki van kapcsolva és a pontos beazonosítás között kb. félútig sikerült eljutnia a győztesnek, 

(2)
A második versenyben egy áramszolgáltató órás terhelési adatait kellett megbecsülni egy hétre előre. A kiinduló pontot egy PhD szakdolgozatában fejlesztett modell értéke jelentette. Az eredeti átlagosan 3 százalékos pontosságot ebben az esetben csak 35 százalékkal lehetett javítani.

(3)
A harmadik versenyben a szélerőműi termelést a szélerősség adatok alapján kellett megjósolni 48 órára előre. A legegyszerűbb módszer - az utolsó mért adat előrevetítése - eredménye tovább volt javítható, megközelítőleg 60 százalékkal.

A két utolsó verseny 2012-ben került megrendezésre, a 2014-es versenyek már terhelés és ár eloszlások kvantilisainak becslésére vonatkozott.

A fenti példák számomra azt mutatják, hogy a big data lehetőségek kihasználásához nagyon rugalmas és motivált adatboncnokokra lesz szükség, és a már viszonylag egyszerűbb kérdések esetén is korlátokba ütközhet a jelenleg alkalmazott módszertan.

Forrás:
BCG: Making Big Data Work: Retail Energy
BCG: Enabling Big Data: Building the Capabilities That Really Matter

No comments:

Post a Comment