úterý 18. února 2014

Aféra Big Data - BigDatagate - díl druhý - z pohledu optimisty

Aféra Big Data - BigDatagate - díl druhý - z pohledu optimisty

Volné pokračování příspěvku na téma big data - o čem že to je, či mohlo by být. Tentokrát z pohledu optimisty.

Big data z pohledu optimisty

Tentokrát jsem se zamyslel, k čemu by mohly big data sloužit...tedy sloužit k dobru, nejen ke generování tepla ve vzdálených serverovnách a privátních cloudech...

Úvod

Nebudu zde řešit teorii co je a co není big data...to najdete u strýčka Googla a chytrolína Wikiho. Ale k čemu by to reálně mohlo sloužit...

Proč ?

Protože na Vaše zvídavé otázky Vám pořád všichni ve firmě říkají, že v datovém skladu o pár set GB nenacházejí co hledají (jako svatý grál), v reportech nemáte ty vysněná čísla, horším případě různá čísla.. a návod, jak zákazníka přesvědčit, že Váš produkt je zkrátka jedinečný a všichni by na něj měli stát frontu nikde....Vaši analytici i přes stovky krásných a často i funkčních reportů pro Vás nemají univerzální odpovědi otázky typu Jak to, že produkce stagnuje, když v plánu máme 15ti procentní nárůst od představenstva...zkrátka chybí Vám CML (Centrální mozek lidstva). Aha, já psal, že budu tentokrát optimista...tak jinak...
Big data v kombinaci se zdravým rozumem, velmi slušným lidským vybavením Vám mohou otevřít cesty, které byly dosud nepoznané, resp. případně poznané, ale za neuvěřitelné náklady (takový multiterabajtový DWH stojí v dnešní době desítky milionů....to víte, překrásné plachetnice holt něco stojí, viď Larry ? :)

Kde vzít big data  ?

Všichni dodavatelé Vás snadno přesvědčí, ze big dat máte doma plné šuplíky v racku...rozuměj diskové pole...Big data jsou přeci všechny soubory, ideálně minimálně strukturované, a pokud možno co nejvíc velké...nejlépe pak generátory TB v podobě trasovacích logů Vašich super webových stránek, kde nalézt informaci, kterou hledáte jako potenciální nebo existující klient, tak vygeneruje tisíce záznamů v logu...protože Vás super web Vám dodává často velmi renomovaná firma...až na pár vyjímek máte tak složité weby, že to chce téměř matfyz...a ten já bohužel nemám...specialisté na tuto oblast se rozhodli soustředit ve státní správě...
Existují ale firmy, které big data resp. zdrojová data o desítkách TB mají, pár příkladů:
  • Telco operátoři 
    • Informace ze signalizace CCS 7 - to jsou TB za den - semi strukturované (tokeny atd)
    • CDR/EDT, data pakety, setup pakety atd...divili by jste se, kolik dat je schopen jedně středně velký operátor s pár miliony zákazníků za den vygenerovat...
    • Systémy detekující nestandardní stavy sítě či oceňující výpadky pro potřeby prioritizace oprav (internet i mobile) - ze signalizace i z jednotlivých aktivních prvků sítí (switche, BTS, BSC controllery, ústředny mobilních operátorů proudí objemná data (usage, stav, statistiky). Zde by se mohly čeští operátoři inspirovat co do udržení kvality sítě, že...
    • Billing - když budeme uvažovat, že přes menší operátory plyne cca 40mil hovorů za den, každý hovor generuje 1 až x CDR záznamů + interconnect záznamy, tak provést billing těchto dat je už poměrně zajímavý úkol. I proto josu zavedeny někdy naprosto nelogické billing cykly, aby se zátěž rozložila rovnoměrně přes celý měsíc...zkrátka fakturujeme, fakturujeme a fakturujeme...a nešlo by s bigdaty fakturovat na click ? 
  • Finančí instituce
    • Vyhodnocené záznamy o hovorech se zákazníky
    • Transakce zákazníků kartami, ořevody z účtu na účet atd...banky s penězi umí, takže datové sklady bank patří mezi největší a nejširší bumbrlíky...bohužel ale také release cyklus je na úrovni release za půl roku, což je zase noční můra pro jejich marketing...do půl roku se nový produkt proflákne jen z podstaty...
    • Likvidace pojistek v pojišťovnách
  • Retail
    • supermarkety a hypermarkety jsou ideální generátory velkých objemů dat...podívejte se o víkendu při týdenním nákupu do košíku a na lístek z pokladny...a pak to vynásobte...vyjdou Vám tak velké objemy, až Vám přeteče kalkulačka, z hlavy to nedáte :) 
  • Utility firmy
    • pokud bohdá budou jednou nasazeny "chytré sítě" s chytnými měřiči spotřeby od elektřiny, plynu, vody atd, tak nám zase zdraží, tentokrát ne kvůli solárům nebo potřebě odpisů investic do distribuční sítě,  ale aby mohli nakoupit desítky racků a diskových polí....
  • Dopravci - to jsou moji oblíbenci...:)
    • představte si kamion, který posílá do pět minut soubor informací o tom, jak jede, co veze, kam to veze, ...do Španělska jede 5 dní...a pak zase 5 dní zpět...a měl by takto jezdit ideálně pořád...to je dat....ale nedělejte si iluze, ze by je dopravci nějak pořádně využívali...určitě proto, že nemají bigdata a nikdy mít nebudou, neb na to nemají budget...:)
    • firmy sběrné služby  typu vyzvedni balíček, doruč ho na druhou stranu světa za 36 hodin či ještě méně...představte si 100.000 zásilek denně, a každá vygeneruje několik set záznamů v logu různých systémů (objednávka, naplánování vyzvednutí, převzetí, do crosdocku, něolikanásobný skok mezi crossdocky, plán rozvozu, doručení, fakturace, reklamace...
    • hromadná veřejná doprava - pokud zde čekáte sofistikované technologie za miliardy, tak to platí jen pro distribuci oněch známých opencard...praxe je excel, excel, důchodce v busu, co dělá čárky...nejčastěji za účelem tzv. dopravního výzkumu...a obhájoby nárůst nákladů ...až budete jednou zase čekat na zpožděný rychlík monopolního dopravce, tak mrkněte do projíždějících lokálních vlaků, jaká je cca obsazenost projíždějících vlaků v ranních či pozdně odpoledních hodinách...alternativou, pokud vlastníte vozidlo, tak během 10ti minut čekání, než projede za závorami lokálka s 3 babičkami na cestě za doktorem, tak si můžete procvičit matematiku....do práce denně dojíždí několik set tisíc lidí, díky optimální dopravní obslužnosti potřebují v průměru 3 přestupy (vlak, metro, tramvaj či bus), zpátky je čeká to samé...kolik milionů událostí to znamená ? Ideální kandidát na big data
  • Průmyslové výrobní firmy
    • to je segment sám pro sebe, protože ISO je klíč k novým trhům, tak evidujeme pohyb výrobku/obrobku, operace, teploty, manipulaci...tady jsou to mega big data...
    • vezměte si počet vyrobených aut za rok v ČR (odhadem 1,3 mil), každé auto má cca 5000 součástek, pro každou by bylo vhodné vést kompletní historii výroby včetně kontroly kvality (buďme minimalisté, odhaduji na 1MB dat) a rázem jsem na 5GB na vozidlo na roční objem výroby 1,3mil za rok...a máme bigdata jak vyšité, a to jsme ani něměřili KPI montérů na výrobní lince :)
    • a pak si představte tramvaj či autobus...nebo nedej bože lokomotivu...jen certifikační proces je na pár GB, a to ji ještě musíte vyrobit...
    • a takový robotický manipulátor je také zajímavý zdroj dat...
  • Jakákoliv firma se složitým klíčovým IT systémem, ať již se jedná o core systém, či systém, přes který plují data - často zmiňované zpracování logů pro proaktivní detekci chování...s ohledem na chování systémů a zběsilé logy v nich hledat chybky je normální cestou dost problém, což mohu potvrdit z vlastní zkušenosti. Potenciální problém, že většina "starších" systémů žádné pořádné logy nemá...a než je dodělávat vyjde dost často levněji naprogramovat celé znovu...ale pokud jsou...proč ne...
Takže big data můžeme mít, ale teď co s nimi...

Technologie a nástroje

Technologií pro big data je spousta, pomalu každá garážovka nabízí převlečený případně zušlechtěný hadoop či jeho různé forky. Když budete chvíli pátrat na webu, najdete spoustu odkazů na stažení (např. http://hortonworks.com
Trošku horší situace už je z pohledu nástrojů, které v datových skladech nazýváme ETL či ELT technologie. 
Sice všichni běžní dodavatelé říkají, že jsou complient s hadoop a bigdata, ale ruku na srdce....ono to zase tak horké není...ono už jen zajistit proudění velkých objemů dat do jednoho místa, odkud se uploaduje do HDFS není žádná legrace...a pokud si s těmito daty chcete ještě trošku pohrát (např. konsolidace či normalizace hodnot na číselníky/dimenze, případně nějaké nápočty, tak se velmi záhy dostanete do úzkých...jednak z pohledu potřeby pochopit principy map reduce (jiná algoritmizace), jednat i z pohledu znalosti významu dat a jejich dokumentace (rozuměj metadata).
Není problém sebrat pár TB dat, ale porozumět jejich významu resp. sémantice a kontextu.
Velkou výhodu vnímám u těchto technologií v poměru náklad/přínos. Velmi často běží "partizánské" hadoopy na pár stolních počítačích někde pod stolem fandů, a funguje to. Vstupní licenční náklady jsou minimální, v podstatě jde jen o časovou investici, a chuť učit se nové zákonitosti, objevovat, zkoušet a často nalézat velmi zajímavé paralely s jinými technologiemi. 
S ohledem na to, že se technologie velmi prudce rozvíjejí, není asi třeba dlouho vybírat tu nejlepší technologii, protože za rok budou technologie o generaci dál. Je vhodné začít na zvolené a poté přejít na novou generaci, která bude k dispozici odhadem v druhém kvartálu roku 2015.
Smyslem tohoto příspěvku není popisovat jednotlivá řešení, proto přejděme k tomu nejdůležitějšímu.

Změna myšlení (aneb jádro pudla) 

V mnoha firmách existují poměrně hodně komplexní a obsáhlé datové sklady. Ale ruku na srdce, kolik  firem efektivně a zodpovědně tyto data využívá, i přes němalé náklady na jejich získávání...těchto firem znám velmi málo (a to se bavíme o pár set GB nejaktuálnějších dat)...
  • Dodnes řeší 90 procent těchto firem distribuci víceméně statických reportů (produkce,  KPI obchodníků, atd). Nic ve zlém, ale na to stačí Access a MS Excel. A protože se mění management, běží restrukturalizace a organizační změny, tak se tyto reporty neustále předělávají, doplňují o další "velmi užitečné" ukazatele, jako např. počet akvizičních schůzek (asi s cílem, kdo schůzuje, ten se snaží). 
  • V oblasti financí pak převládají provizní, (de)motivační systémy,fraud detection a campaign management systémy a jako poslední bych uvedl různé scoringové nástroje - zvláštní je, že automaty Vaše data přijmou  a použijí mnohem snadněji, než např. obchodní oddělení či produkt management
Firmy mají k dispozici již dnes poměrně dostatek dat pro klíčová rozhodnutí, jen se musí snažit je pochopit, jenže dost často vedení zavelí, vyhlásí cíl, a pak se hledají podklady, který by to podložili "tvrdými" daty...opačná cesta je nepříjemná, protože v BI jsou velmi často diametrálně odlišné informace, on totiž datový sklad neumí s informacemi kouzlit tak snadno, jako excel či powerpoint. 

A pak se v tom vyznejte...jednodušší je zpochybnit informace z BI,  než obhájit a doložit své prohlášení podklady, případně změnit své myšlení.

Dokud obě strany (BI i business) nepřejdou na kooperativní spolupráci, nemá cenu uvažovat o big data, protože v případě soft/hard analýz spolu musí obě stray mluvit a sdílet informace ještěo řád více. Velmi často je výstupem hypotéza, zpracované na významném objemu dat, ale je také nutné umět výstupy vysvětlit a zasadit do kontextu, protože výsledky mohou být i silně zavádějící.

Hlavičky a ručičky

Osobně vnímám, že trend v alokaci lidských zdrojů v oblasti BI je aktuálně asi největší problém. Naštěstí většina firem zjišťuje, že in house development mé také své pozitiva (nižší suma nákladů a méně nervů v dohadování), na druhou stranu je na trhu akutní nedostatek zkušených architektů a seniorních BI analytiků. Přidaná hodnota externích zdrojů v podobě mnoholetých praktických zkušenosti se smazala v obodbí krize, kdy hodně zkušených odešlo na volnou nohu, případně k zákazníkům (byli nejdražší,a tam se přece šetří nejlépe). Konzultanti se stávají komoditou, mnohdy vícenásobně přeprodanou a nevázanou, takže investice do jejich odborného růstu jsou rizikovou investicí. A k tomu zákazníci tlačí na cenu, BI dneska podle webů firem dodává každá větší firma (OLAP kostku nad ERP :) )
Osobně velmi vnímám vyprázdněnost dodavatelských firem, chybí přidaná hodnota, nahrnout data bez ladu s skladu do DWH umí téměř každý, ale pochopit zákazníkův business, proniknout do něj a přinést hodnotu či alternativní pohled na problém, takových lidí aby člověk pohledal.

Bohužel velmi podobná situace vládne v analytických týmech u zákazníků. Zkušené analytiky s hlubokou znalostí zákonitostí konkrétního businessu postihl podobný osud, i když pár jich setrvalo, ale podezřívám, že především z fandovství...

Závěr dnešního dílu

Takže na závěr optimismus...
  • Firmám, kde funguje kooperativní spolupráce mezi business odděleními i IT, a je podporována snaha o investice do lidských znalostí napříč firmou, mohou řešení na bázi big data přinést pozitivní revoluci či velmi zrychlenou evoluci.  
  • Firmy se striktně odděleným IT a businessem, kde spolu tyto oddělení mluví ústy projektových managerů a business leaderů projektů na desítkách "důležitých meetingů"...pro tyto je lepší se vyhnout pokusům s big data, protože jsou odsouzeny k zániku a spíše by měly dále směrovat svoje úsilí k 20té revizi základních podnikových reportů verze 19.
  • Osobně vidím velký potenciál v další generaci "unikátních garážovek", které budou schopné nabídnout kombinaci reálně fungující technologické linky + znalosti businessu, jejichž výstupem budou fungující a udržitelná řešení zaměřující se na vybrané oblasti z ohromného koláče potenciálních použití big data
  • I u tohoto trendu platí lidové Když se chce, všechno jde. Jen je třeba dát pozor, aby to nešlo moc rychle pod kytičky...:)
Pokud jste dočetli až posud, děkuji za Váš čas a budu rád za Vaše reakce. Vím, že je to místy obecné, ale chtěl jsem Vás dostat do kontextu, na základě kterého budu v dalších příspěvcích už výrazně konkrétnější. 
Povahou jsem člověk tvořivý, proto bych rád v dalších dílech psal o konkrétnějších záležitostech typu:
  • Referenční data - aneb jak si ušetřit spoustu práce
  • Referenční architektura, aneb pěkný obrázek
  • První business příběh





3 komentáře:

  1. začíná mě ten seriál bavit...

    OdpovědětVymazat
  2. Opět naprosto souhlasím. Osobně jsem se s takovým modelem, tzn. IT podporuje business (a naopak, ono to totiž není o jednostranné přátelství) setkal někdy v létě roku 2008. Bylo to krásné léto..:)

    OdpovědětVymazat
  3. Dobrý den!
    Jsme Snadná půjčka věřitelé, zapůjčujeme úvěr v nízkou úrokovou sazbou ve výši 2%, jsme rychlé a spolehlivé, a také jsme hoden důvěry, pokud máte zájem o získání legitimní úvěr od naší firmy laskavě dostat zpátky k nám nyní s touto informace, takže můžeme ihned pokračovat s vaší žádosti úvěr od naší společnosti, zde jsou podrobnosti potřebné od vás získat legitimní půjčku od nás,
    PŘIHLÁŠKA
    Jméno: _________
    Adresa: _________
    Země: _________
    Zaměstnání: _________
    úvěr Request__________
    Účel loan__________
    úvěr Duration__________
    Měsíční Příjem: _________
    Telefonní Číslo: _________
    Laskavě dostat zpět k nám prostřednictvím naší E-mail: (JIMMYCOX2012@LIVE.COM)

    DÍKY

    OdpovědětVymazat