čtvrtek 27. února 2014

Aféra Big Data - odhalení (finance )

Tak jsem zase zpět...

Úvod

Dneska si vezmeme na paškál finanční sektor. Předem podotýkám, že pokud jste citlivé povahy a zaměstnáni v IT firmy z finance segmentu, tak snad raději ani nečtěte...Dále pak uvádím, že díky zkušenostem z poměrně mnoha projektů datových skladů v těchto společnostech vycházím z praktické zkušenosti, a jsem i hodně zaujatý...takže rychle do toho, půl je hotovo...

Co je finance segment ?

Banky, splátkové společnosti a další instituce, které mají shodnou charakteristiku chování vůči zákazníkům, pojetí v chápání datového skladu (CDW/EDW/ADW), i přístupem a rychlostí k jeho budování...optika těchto skladů je zaměřena směrem klient - a kolem něj smlouvy, účty, hiearchie a balíčky produktů,  říkám tomu party-based DWH (party je fyzická i právnická osoba, s oblibou se unifikují, můžete chápat zjednodušeně jako entitu klient)
Další společnou charakteristikou je ...jak to říct...ultrakonzervatismus, rigidita, "zoufalá pomalost", a neskývané zoufalství mnoha business uživatelů....čekání, čekání, mnoho hrůzy nahání...:)
Pokud si myslíte, že je to problém jen velkých bank a nové atraktivní banky jsou na tom lépe, dalo by se vyprávět....
Subjektivně však musím uznat, že u stávající banky (kam jsem odešel po cca 12 letech u KB) jsem nadmíru spokojen, protože mi od nich nikdo nevolá, vše zařídím elektronicky, platím kosntantní poplatky a nechává mi dost volného "vzduchu". A asi ještě nemají vybudované akviziční call centrum....protože nikdo nevolá :). Protože ale znám její historii,  musím uznat velký pokrok v kvalitě IT systémů a development cyklu za poslední rok...a dost skryté reklamy...

Činnosti v segmentu

Tady Vám sice google také pomůže, ale jistě máte své zkušenosti - trendem v těchto segmentech je akvizice klientů, akvizice klientů a posléze akvizice bývalých klientů....
1. Akvize klientů - člověk by od solidní konzervativní banky čekal, že jej bude znát, bude chápat jeho potřeby (analýza plateb v bance, uzavřené smlouvy na pojištění), ale asi je někde chyba...Jak si jinak vysvětlit ty úžasné telefonáty, za které by se nemusel stydět telemarketing WS kráječů....heslo dne je uzavírej s námi další smlouvy, refinancuj půjčky a hypotéky...kupuj si další balíčky, pojistky, atd, protože my musíme plnit akviziční plány....jen škoda, že spousta těch úžasných nástrojů na kampaně nerozumí požadavku zákona, že když explicitně při telefonickém rozhovoru neochotu přijímat další takové rozhovory, tak Vám zavolají přístě stejně znovu...asi v call centru chybí tlačítko vyřadit z akvizic...spousta stávajích řešení DWH v těchto institucích je zaměřena na KPI, což rovná se akvizice...zvláštní je, že když jsem v několika případech rozporoval hodnotu akvizic formou suma počtu, že pro banku či pojišťovnu by měl být hlavním ukazatelem spokojenost klienta a jeho výtěžnost (něco jako ARPU v telcu), tak na mě většinou všichni nesouhlasně koukali. A hovorů na téma, jak jsem s danou společností spokojen jako klient bych napočítal za poslední dekádu na jedné ruce.

2. Reporting - operativní/analytický/regulatorní - velmi silná doména činnosti těchto společností, z mého kritického pohledu výrazně souvisí s přezaměstnaností v daním segmentu. Oddělení, které nemá "svoje" reporty je žhavým kandidátem na reorg, proto není nad to vymýšlet reporty, zadat jejich realizaci a tu projektově řídit (cca 12 měsíců intenzivní práce...dodavatelů či interního IT a mnoha členů oddělení) ...a pak další dva roky hledat, komu ten report vnutit... já varoval, že jsem zaujatý :o). Když se někdo najde, je potřeba zajistit distribuci reportů do mailu (spamming mailboxu), security v reportu (rozřezání dat v reportu tak, aby pokud možno nikdo neviděl nic v celkovém kontextu a aby si to každý pak musel stejně vyjíždět z provozního systému). To, že každý report ukazuje trošku jinak stejná data, ale jiná celková čísla ponechme stranou, nebudeme malicherní...protože to voda na mlýn reps. námět projektů typu revize reportingu, sjednocení reportingu, konsolidovaný reporting atd...Nad BI řešeními v těchto institucích vznikají stovky reportů (opět bych zmínil, že jsem přesvědčený a naučený, že pro běžnou firmu stačí 15 reportů, každý s pár záložkami). I proto má typicky oddělení BI v těchto bankých 60+ pracovníků...Velmi mocným generátorem práce je i povinný regulatorní reporting typu Solvency/Solvency 2, Basel x, kde se také mění postupně pravidla a rozšiřuje se záběr a způsob hodnocení rizik, hotovosti, investic atd...kde jde také o trvalou práci desítek lidí v BI týmu i na straně businessu.

3. Kontinuální "Reorg" - aneb trvalá kontinuální reorganizace, kdy jedna se fáze reorganizace prolínají mezi sebou a výsledkem jsou další reorganizace - od cost cuttingu až po snahu vytvořit více manažerských pozic, to je každodenní chleba pracovníků v těchto společnostech...samozřejmě při záměru reorgu se mění i reporty, oprávnění k reportům atd, takže BI oddělení má o zábavu postaráno. S ohledem na rychlost implementace změn v BI řešeních v tomto segmentu občas nastává vtipná situace, kdy po půlročním vývoji BI team zjistí, že oddělení, které požadovalo novou sadu reportů či atributů  již zaniklo a vzniklo jiné, které se na informace chce dívat z jiného pohledu...

4. Fraud detection - zcela logicky je toto při prvním pohledu jedna z mála oblastí, kde se celkem daří dynamice a práci s daty...protože tady jde o prachy...a ne malé....při druhém pohledu zjistíte, že pod stoly kolegů  fraudu běží druhý datový sklad, protože oni nemohou čekat, až oddělení BI dodá nové atributy za půl roku v dalším release (půlrok v tom lepčím případě). Ať již se jedná o operace s bankovními kartami, či pojistné podvody...Pro objektivnost je třeba uvést, že co jde, tak rádi načtou z DWH, k tomu doplní excely a accessy a jedeeem...V těchto odděleních lze potkat opravdové nadšence a profíky, protože BI sami dělají, propojují data, analyzují...radost s nimi spolupracovat

5. Risk/Scoring - klient čerpající aktiva společnosti (půjčky, hypotéky, úvěry) musí být "oskórován", nejlépe objektivně (silná rigidita vůči jakémukoliv objektivního zhodnocení). Výsledkem pak je, že i firma, která roste, má kvalitní čísla, nedostane díky zamítavému postoji risku úvěr, protože přece patří do rizikového segmentu. V lepších případech Vás podpoří board, ale i ten je silně zdrženlivý, protože by pak risc mohl říct...my to říkali...risk oddělení mají časo své datové sklady (ale ne pod stolem, ale někde natajno, protože tyto jejich datové sklady obsahují velká tajemství...podle vyjádření risku...co kdyby tyto data náhodou dostal do rukou někdo nepovolaný...data jsou načítána z firemního DWH, a obohacována o unikátní know-how správců tohoto risk data skladu). I v těchto odděleních najdete technologické fandy, ale kupodivu spolupráce s nimi je subjektivně hodně o sebeovládání, protože kdo není z risku, ten jako by nebyl...

6. Marketing a Campaign systémy - aby s emohlo akvizovat jako na běžícím pásu, je samozřejmě třeba generovat kampaně, cílové skupiny, multichanel komunikaci, komunikaci brandu a spousta dalšího žargonu...Faktem je, že se jedná o systémy, které asi nejvíce po regulatorním reportingu požadují data po datovém skladu. A faktem také je, že je nedostávají, a když, tak za velmi dlouho....a výsledek ? Třetí datový sklad, tentokrát opět pod stolem či u někoho v kanceláři za květináči (podvědomá snaha chránit hodnotné informace tím, že počítač nebude vystaven na očích), někteří si postupně z budgetu zaplatí i dost výkonné stroje, což poznáte podle silného hukotu ventilátorů zpoza vzdálených stolů, to Vám klasické nabušené PCčko neudělá...V tomto případě se ale musím těchto ddělení zastat...jsou mnohdy vedeni upřímnou snahou co nejlepšího zacílení kampaní, mají snahu opravdu poznat zákazníky (aby jim mohl ilépe prodat co dostali za úkol). Tyto oddělení jsou ozvláště neoblíbené u BI oddělení, protože když něco potřebují, potřebují to rychle a odpověd přijdte za 3/4 roku, dáme to do dalšího releasu, snad se to tam vleze dost často vyvolává berserk mód předkladatelů požadavku. Výsledkem jsou pak právě ty hučící stroje v jejich kancelářích. Zároveň jsou to vděční tvorové, jakmile jim jednou vyjdete vstříc, nespokojí se s prstem...a vznikají profesní přátelství...  ¨

7. Samozřejmě core business - core systémy bank jsou podobně rigidní jako banky, což je ale v hodně případech pochopitelné, příkladem mohou být pokusy nahradit 2 core systémy jiným systémem, výsledkem jsou 4 systémy - původní zůstávají běžet, protože migrace existujících smluv a produktového portfolia se ukáže jako nepřekonatelná překážka, pro nový systém se udělá redesign produktů a dalších 10 let se pomalu přesjednává či migruje...a ten čtvrtý vzadu je část businessu, která řeší specifické úlohy, jako třeba pdopora produktů, které nový systém přes věškerou snahu nepodporuje...Release cyklus core systémů v bance je cca 9-12 měsíců, což je současně argument mnoha BI týmů, na otázku, kde že to vázne...

8. UFO/CRM integrační aktivity - různé UFO systémy (Unified front end) nebo CRM systémy s unifikační funkcí (typu Siebel atd) - protože v běžné finančí společnosti najde i několik desítek systémů (bod 7 protažený v čase) , tak aby se z toho uživatelé na přepážkách úplně nezbláznili, nasazují se řešení, které mají za úkol poskytnou "jednotný front end", konsolidovaný pohled na klienta,  zajistit IN/OUT API do backend systémů, což už je o integraci a nehynoucím businessu velkých integrátorů a konzultačních firem zvučných jmen...byl jsme svědkem a bohužel i realizotorem změnového požadavku na přidání 3 atributů, a odhad pracnosti včetně testu byl 60MDs, a nejhorší na tom bylo, že to byl hodně reálný odhad...n-vrstvá aplikace, 6 integračních API do backend systému, integrační testy...a toto člověku z businessu vysvětlíte hodně těžko....

9. Vymáhání - týká se především splátkových společností, kde jde o nezbytnost, s ohledem na množství aktivit. U ostatních spíše okrajová aktivita, vymáhání nesplaceného pojistného, atd. Ve splátkových společnostech se jedná o telefonáty, e-maily, procesy odprodání balíků pohledávek atd

Data v segmentu

Zdroje dat (se zaměřením na objemné data):
  1. Tvrdé core systémy - nejčastěji poměrně monilitické systémy
    • u všech společností pak i vedení finančího účetnictví (SAP, mainframe based atd)
    • banky - správa produktů, účtů, systémy pro platby kartami, bezhotovostní převody z/na účet, úročení, správa aktiv, deposit, zajištění
    • splátkové společnosti - rozpis splátek, platby a jejich párování, přegenerování předpisů splátek, úročení
    • pojišťovny - předpisy a platby - smlouvy a jejich rizika, alokace pojistného, správa pojistných rezerv
  2. Systémy pro správu a obsluhu kampaní - jak bylo zmíněno, jedná se o velmi aktivní oblast, kampaň střídá kampaň, informace pro vyhodnocení, call listy, sběr výsledků
  3. CRM/UFO integrační systémy - sice jsou prostředníky mezi přepážkou a backend systémy, ale současně jsou často i zdrojem klientských požadavků na změny produktů atd - klientské data, požadavky, záznamy o voláních, systému unifikace klientů (kandidátské a unifikované skupiny atd)
  4. Karetní systémy - mnoho společností provozuje či využívá systémy pro kreditní a debetní karty - tyto představují neustále narůstající a trvale rostoucí data
  5. Provizní systémy, systémy hodnocení partnerské sítě - pro člověka z jiného oboru možná okrajová data, ale pro ty
  6. Vymáhání - u splátkových společností i u bank  jde o nedílnou součást primárního businessu, a jako taková generuje objemné data, od vyzívacích dopisů, telefonátů az po odprodej či přímé vymáhání pohledávek

Co s těmito daty ?

Nevybavuje se mi banka, pojišťovna či větší splátková společnost, který by neměla datový sklad s velmi širokým rozsahem. Právě finanční společnosti byli historicky první v ČR, které začali tvořit rozsáhlé BI řešení. V každé společnosti je nad DWH nasazen silný reporting, kvalita reportů a jejich nadpočet je věc druhá. Datové sklady nabývají na objemu, s ohledem na výrazný pokles ceny storage se neřeší data ageing,ale dokoupí se další rack se storage, takže běžný objěm je od jednotek TB po desítky TB u velkých bank. Dalo by se tedy říci, že je vše v pořádku. Poradím Vám, neříkejte to před zázstupci businessu v těchto společnostech. Samozřejmě výjímky existují a není jich úplně málo, je zde ale jedno velké ALE. 
Stávající datové sklady jsou používány a využívány, ale spíše tou "konzervativní" částí bankovního businessu (reporting, regulatorní reporting). Projektový management BI řešení je hodně rigidní a pro hodně lidí z businessu velkou zkouškou trpělivosti. Nebylo by ale fér shodit vinu jen na IT oddělení, zkrátka v těchto společnostech vše trvá dlouho (za výjímku z tohoto pravidla můžeme brát splátkové společnosti, ty trh nutí k vyšší rychlosti). 
Nejmenší spokojenost je na straně marketingu a produkt managementu, protože tyto útvary potřebují mnohem rychlejší reakci na jeich požadavky, i proto jsou tyto velmi často provozovateli partyzánských daatabází, kam jsou nahrávány informace ze standardního BI a obohacovány o potřebné informace, ať již pomocí klasických BI technologií, nebo formou skriptů pod gescí pracovníků těchto útvarů s technickými znalostmi.

Big data potenciál:

  1. U existujících DWH vidím spíše potenciál využití big data jako podpůrnou agilní technologii, která je schopna v kooperaci se standardním BI saturovat akutní informační potřeby. Umožní pokrýt ať již formou sandboxingu, nebo formou poskytnutí báze dat v hadoopu pro data scientisty v útvarech marketingu, analýz, zákaznické podpory. Technologie dnes dostupné (zdarma) umožňují velmi rychlé a praktické propojení dalších ad-hoc zdrojů dat s těmito archivovanými datya provádění opravdových ad-hoc analýz (PIG, splunk, a další technologie)
  2. Využití big data platformy jako on-line archivu detailních dat:
  • Relační databáze BI je třeba zálohovat. Odhadem 60-80% dat v existujících BI řešeních jsou detailní data, která svojí povahou časově expirovala, ale drží se s heslem když je odarchivujeme, už nebudou dostupná a zítra pro ně někdo přijde
  • Archivní data v hadoop zůstávají on-line dostupné pro expertní analýzy dlouhých časových řad i analýzy s potřebou procházet plný detail, hadoop poskytuje i silný výpočetní framework, který není tak těžké se naučit
  • Zmenšení velikosti relační databáze o 60% představuje z pohledu nároků na čas zálohování, počet pásek, velikost zálohovacího okna velmi významnou úsporu - jak časovou, tak i přímou finanční (počet pásek na zálohu, počet mechanik s ohledem na velikost zálohovacího okna atd)
  • Poměr ceny za GB na enterprise diskovém poli a na JBODu složeném ze  SATA III disků představuje potenciál úspory v desítkách milionů (v případě potřeby obnovy HW) + úspory lidské práce. Takže pokud má IT banky napjatý rozpočet, zde je možná cesta pro odložení velkých investic do dašího rozšíření enterprise diskových kapacit pro nenasytné BI. 
  • Stejně tak porovnání ceny enterprise class serverů a komoditních serverů pro hadoop generuje úsporu, obzvlášt, když pro hadoop je možné použít vyřazené servery či low-end servery bez rizika ztráty dat díky vysoké redundanci dat v HDFS (posbírejte ty v marketingu, tak se jich typicky najde, a když budete hledat, najdete i další "kopie" datového skladu :) )
Kombinací výše uvedeného může firma dosáhnout stavu, kdy bude mít v big data technologiích umístěny nejen archivní, ale i aktivní data(D-1), a může jej pak použít pro agilní podporu oddělením, které nejsou spokojeny se standardními BI především z důvodu pomalého zavádění změn do BI. 

Tím lze v podstatě dosáhnout vyrovnané či spíše pozitivní nákladové bilance, protože lze použít HW poschovávaný v kancelářích nespokojených oddělení, kde běží pirátské datové sklady,  a který je možné po dohodě využít jako základ infrastruktury big data technologií a oddělení v podstatě. Uvolněné lidské zdroje  s technickými znalostmi v business odděleních je pak potenciálně možné transformovat na datové analytiky nad big daty. Oni se zbaví vysilující rutiny udržet multiTB databáze a současně jim dáte novou hračku, která jim umožní další profesionální růst...na jejich ochotu k této změně bcyh si klidně vsadil.

Je zde samozřejmě i scénář, že marketing a další oddělení, kde žijí tyto paralelní datové sklady, nebudou čekat na rozhoupání IT, ale překlopí tyto svoje "sklady" na Hadoop.  S ohledem na dostupnost technologií a počáteční nízkou nvestiční náročnost bych se vsadil, že už takhle pár Hadoopů někde v kancelářích esele hučí ventilátory :).

Závěr

Nezmiňuji zde jednu velkou oblast sběru informací ze sociálních médií, kde jsou big data používány ve světě, mám velkou obavu, že pokud bych měl jako vysoký šéf ve finanční společnosti posuzovat svoji firmu podle reakcí na sociálních médiích, tak bych ji rovnou zavřel. Osobně tomuto segmentu nedávám velkou váhu v kontextu české republiky, ať již kvůli penetraci sociálních médií mezi zákazníky těchto společností, tak i z dlvodu, že se občas diskuzí účastním a po 10 minutách znechucene vypínám, protože se diskuze zvrhávají do ideologických přestřelek a osobních invektiv.

V případě, že zástupci tohoto sektoru nevzali v potaz upozornění v úvodu a dočetli až sem, tak se:
- omlouvám těmto lidem za určitou paušalizaci, vím o mnoha zajímavých aktivitách, které zde ale nemohu uvést z důvodu existujících NDA, ale ruku na srdce, myslím, že jsem to popsal to, jak tyto firmy fungují z pohledu BI hodně realisticky
- pokud Vás výše uvedené myšlenky zaujali, budu rád, když mě kontaktujete, rád Vám pomohu utříbit si myšlenky a případně pomohu s přípravou podkladů atd pro Vaši prezentaci dovnitř firmy

Budu rád za Vaši reakci, přeji příjemný večer

Petr Šimbera

PS: Příští díl bude na téma big data v telco segmentu...

PPS: Odpověď na připomínky typu - proč to píšete v čestině - dva důvody - uvedené informace jsou nejvíce pravdivé a ověřitelné v kontextu ČR (je relativně málo BI řešení, které jsou velké a kolem kterých jsem v ČR přinejmenším neprošel, nebo o nich alespoň od kolegů neslyšel). Jistě, hodně těchto informací je univerzálních, ale upřímně, moje aktuální znalost angličtiny neobsahuje schopnost jemné i tvrdší ironie...pokud se někdo chcete ujmout překladu, klidně překládejte a publikujte, jen prosím nezapoměňte uvést originální zdroj (alespoň odkaz na můj linkedin :o) )


středa 26. února 2014

Aféra Big Data - odhalení (retail)

Potenciální využití big data v retail segmentu

Úvod

V retailu jsem již před nějakým časem tvořil datový sklad pro jeden velký řetězec. Protože už to je hodně let zpět, oživil jsme trošku své paměťové buňky a zkusil dát dohromady, a pobavil se i s pár zajímavými lidmi a níže uvádím oblasti, kde vidím potenciál využití big data pro retailové řetězce. V dalším textu se snažím o srozumitelnost i pro čtenáře, kteří jsou spíše kupujícími. Předem upozorňuji, že nejsem expert na procesy retailu, resp. je to už delší dobu.

Co je retail ?

Doporučuji projít si trošku Google, ale v principu - chodíme tam všichni, někteří z donucení, někteří za zábavou a "lákavými" slevami. Dost lidí v oboru i pracuje. Retail je v podstatě rychloobrátkový prodej ve velkém množství, s nízkými maržemi, ale velkým objemem prodejů, i proto se o něm mluví jako o rychloobrátkovém businessu - FMCG (fast moving cunsumer goods) - zkrátka potraviny, drogérie, část spotřební elektronicky (nosiče), ale z našeho pohledu můžeme do tohoto segmentu zahrnout i prodejce elektronicky, ať v kamenné podobě, ale i internetové.

Činnosti v retailu

Základní činnosti v retailu:
1. Obchod by měl vědět, co chce/bude prodávat - v běžném supermarketu najdete v databázi i desítky tisíc produktů (artiklů) - je poměrně těžké namíchat mix nákupů, který bude zajímavý a prodejný. znamená to průzkumy u lidí, tak konkurence, tak i výrobců.  
2. Obchod resp. jeho majitel musí dobře nakoupit - centralizované nákupy, jak říkal hlavní hrdina básníku - levně nakoupit, draze prodat. A nejlepší je, když mu ještě výrobce přispěje na to, aby byly jeho produkty ve velkých obchodech. Dříve listovné, zalistovací poplatek per artikl, dnes příspěvny na společnou propagaci produktů.
3. Dobrý obchod má snahu poznat své zákazníky - čím víc o zákazníkovi vím, tím lépe dokážu ovlivňovat jeho nákupní potřeby a chování
4. Samotný nákup  - stovky metrů a hledání oblíbených nebo akčních výrobků - ideálně pro prodejce, co nejdelší nákup, zoufalství, nakonec nakoupíte mnohem víc, než jste pvodně chtěli, a ideálně i pár prémiových produktů - váš prodejce Vás budemilovat
5. Pokladna - fronta - poslední příležitost Vám něco vnutit...pak nekonečné pípání a na závěr platba. Ideální zákazník je takový, který má zákaznickou kartu, proč vysvětlíme za chvilku
6. Správa zásob - ležáky a zboží, které se blíží spotřebě je nutné identifikovat, kvantifikovat, oblepit slevovými psákami a rychle prodat. Po překročení data spotřeby hrozí ztráta  a náklady na kafilerii 
7. Marketing - spousta analýz, co dát za zboží do reklamních letáků, a za jakou cenu, aby to přitáhlo lidičky, samozřejmě v kombinaci s potenciálmě splnění bodu 2 - jendím slovem je to alchymie na základě dat, průzkumů, sezóny atd
8. Logistika - zákazník musí najít svůj jogurt s danou příchutí, či oblíbené ovoce, protože jinak hrozí, že přístě půjde ke konkurenci. Cesta od výrobce na pult obchodu je poměrně dlouhá, trvá několik dní, při zahrnutí objednávky a času výroby jsme v rozmezí od několika dnů po několik týdnů. Na transportu a meziskladech se u nadnárodních řetězců podílí spousta poslečností = v kombinaci s počasím a odbory ideální kombinace sloužící jako generátor problémů  
9. Problematika householdu - opět poznání zákazníka resp. skupiny zákazníků  - stejné jméno a stejná adresa při registraci zákaznické karty Vás předurčuje k zařazení do householdu (skupina osob, které obývají stejný prostor, resp. vyjídají stejnou lednici a ideálně nakupují společně) 
10. Clustering produktů - statistické vyhodnocení nákupních košů a nákupního chování - asi nejzprofanovanější případ společného nákupu dětsých plenek a piva - opravdu to funguje za přepdokladu dostatečných vstupních dat
11. Rozmístění zboží na prodejně - čerpá informace z přechozích činností - primárním cílem je udržet zákazníka na "prodejním parketu" co nejdéle---jeho odhodlání neutrácet se postupně snižuje pod záplavou akcí...narůstá únava...už nebudu hledat mé oblíbené špagety, ale koupím ty, co jsou vystavené z čela regálů, což je typicky nejvýnosnější pro obchodníka...až se najde řetězec, kde bude zboží logicky uspořádáno s cílem minimalizovat čas potřebný k nákupu, budu jeho věrným zákazníkem...na druhou stranu asi dlouho nevydrží...

Data v retailu

Zdroje dat:
1.  Zákaznické karty = opakovatelná identifikace nakupujícího - relativně  maličko dat, ale obrovský význam pro výše uvedené činnosti - pověstná třešnička na dort
2. Záznamy o prodeji - konečně kandidát pro big data -  účtenky - představují obrovský objem dat, v současnosti společnosti moc nevyhodnocují, prodeje jsou typicky agregovány na úroveň den, prodejna, artikl, kusy. Přitom clustering produktů (nákupní košík) resp. vyhodncení korelac mezi produkty může být velmi cenný z pohledu, s rozšíření o segment zákazníka (household x příjmová skupina) v kombinaci s posledním střípkem - zákaznická karta...a máme Vás :). Záznamy o prodejích resp. účtenkách jsou doufejme někde archivovány, přeci jen, když už se dělá agregace, tak musí být z čeho. Předpokládejme, že data nejsou v centrále, ale lokalizovány na prodejnách
3. Zásoby - naskladňování - objednávka - naskladnění na prodejnu - zboží "na place" - relativně málo dat, protiváha k účtenkám - ale protože se naskladňuje po velkých baleních, tak přeci jen mnohem menší, než účtenky. Člověk by řekl že naskladnění - účtenky musí dát nulu...v E15 jsem si přečetl, že se ročně v ČR ukradne z obchodů zboží za 2 miliardy...tak to je ten rozdíl :)
4. Kampaně - letáky - hodně práce, a nakonec je z toho pár dvojlistů...nejdůležitější je časová platnost akce, lokalizace, a zpětná kontrola zásahu (zvýšení obratu na požadovaných skupinách sortimentu)
5. Logistika - intra i extra logistika - pracoval jsme pro jednu dopravní firmu, která zajišťovala mimo jiné zásobování supermarketů - naplánovat návozy na centrální sklady (několik v ČR) se závozy na prodejny (desítky až stovky v ČR) - zaměstnává to spoustu CPU a mnohem více lidí. Jeden příklad za všechny...možná nevíte, ale pivovary a výrobci nealko začínají už od cca února vyrábět na sklady, aby v létě zvládly nápory žíznivých krků...podobně vánoční sortiment...viz poslední čtvrtletí roku 2013 a mnoho diskutovaná intervance...obchodníci vykoupili velkoobchodní sklady během několika dní z obavy před pohybem koruny...


Co s těmito daty daty ?

Když už data potenciálně máme, resp. měli by jsme na diskutovaném hadoopu, jak by se daly využít ? 
Dost z níže popsaných věcí se dnes již realizuje, ale přesnost je ekvivalentní agregované statistice prodeje a tím snížení adresnosti a přesnosti akční nabídky.

Použijeme data pro standardní úlohy s rozšířením možností a přesnosti
1. Optimalizace zásobování resp. eliminace ležáků - téma i u firem z jiných segmentů trhu - optimalizace zásob a tím snížení rizika expirace zboží - korelace v rámci nákupního košíku (co se s čím kupuje v rámci jednotlivých nákupů v kombinaci s prodejním dnem a  dobou) a dlouhou časovou řadou - umožní firmě získat podklady pro optimalizaci naskladnění, takže ležák se ležákem nestane, protože ho na sklad nedovezeme :). Pro snížení objemu disponibilních zásob a minimalizaci převozů mezi prodejnami. Dnes je k dispozici pouze denní objem prodejů, což je suma za den a prodejní místo. Může to stačit, ale nemusí...
2. Vyhodnocení akční kampaně - když použiji na nákupní košík seznam produktů v akci, získávám informaci, jak moc je daný člověk zvyklý nakupovat věci v akci
3. Opět na bázi nákupního košíku - produkty v nákupním košíku rozdělené do skupin (food, nod food, fresh) mi opět dává korelaci, jaké kombinace produktů u mě zákazníci nakupují v rámci jednoho nákupu umožní mi to lépe strukturovat akční nabídku (kde slevit více, kde méně, kde naopak), abych docílil nákupo zboží, které chci výhodně prodat - znáte to - sleva není zadarmo :).
4. Korelace produktů v nákupním koši - pokud identifikuji produkty, které jsou klíčové pro prodej jiného výrobku, mohu akcí podpořit produkt, který zákazníka podnítí k nákupu dalších produktů - napadá mě příklad - nabídnu dobré víno, a k tomu prodám zákazníkovi sýry a lupínky, protože každý ví, že dobré víno je potřeba zajíst něčím dobrým...dodavatelů vína je přebytek, s dobrými sýry a šunkou je to horší, takže "skřípnu" dodavatele vína, nabídnu jej v akci, a zvýším cenu sýrů. Podobě těstoviny a omáčky na ně (i kečup se hodí). Podobně letní grilovací akce typu 3kg krkovice, k tomu basu piv, dřevěné uhlí do grilu a navrh pěknou zástěru, aby jsme se neumazali :). Můžete si říst, že na toho nepotřebuji znát strukturu jednotlivých nákupů, ale pak je to vyšší riziko a dojem může převládnout nad realitou...koupí 5 PET lahví levného piva a 2kg párků za 45Kč/kg...ale i to je korelace...pak jen musím znát strukturu mých zákazníků, abych neobjednal hodně krkovice, ale měl dostatek párků a plastáků na skladě.
5. Optimalizace nákup u dodavatelů - větší objem nákupu = lepší cena, ale musím mít jistotu, že prodám za zajímavou cenu, případně, pokud vím, že o daný produkt mají zákazníci zájem bez velké citlivosti za cenu, mohu v případě klíčové dodávky přeplatit jiného zájemce a ještě na tom v součtu vydělám.
6. Optimalizace akcí a slev  - řetězce se dostali do spirály, kdy zboží bez nápisu sleva = vysoké riziko neprodeje, enormní tlak na prodejní ceny...lepší segmentací nabídky slev (rozumněj postupné omezování rozahu a výše slev) bez vlivu na dosažený profit znamená potenciální cestu ven z této spirály...při znalosti korelace produktů mohu do slevy zařadit jen jeden výrobek, který je hojně nakupovaný a  který zajistí prodej i navázaných produktů (s lepším profitem). A nebo obráceně - hodně produktů se slevou, kde mě ale sleva nebolí a vím, že se těch produktů v daných dnech neprodá tolik...ale na letáku to vypadá zajímavě (někde jsem viděl nabídku na slevu na letní gumy na auto v polovině prosince - buď omyl, něbo někdo uvažoval stejně :)
7. Plán prodejů - podrobné časové řady prodejů produktů s vazbou na prodej další produktů umožňuje zpřesnit odhad a zvýšit pravděpodobnost úspěšného splnění plánu prodejů , resp. i vytvořit pravděpodobnější plán. Díky výpočetní síle a rozsahu dat lze přepočívávat každý den a případně korigovat navázané operace (pokud produkt nejde, tak snížit jeho zásobu i třeba odvolat objednávku, nebo přesměrovat na jiný obchod, kde scénář připravili lépe) 
8. Household - přepočet košů domácnosti (přes zákaznické karty) , řazení do zákaznických segmentů je výpočetně náročná úloha, a pokud by jsme používali účtenky v  dělší časové řadě,  budeme mít segmentaci i cistlivost householdu na změny cen jako na dlani...druhá věc je indikace členů domácnosti podle nakupovaných produktů (kojenecká výživa - malé dítě = pleny, olejíček, jídlo pro kočky nebo psy - super, mají zvířecího miláčka, pro obojí se peníze vždycky najdou. Vysoké procento zásahu do sorty akčního zboží za nejlevnější ceny, žádný jiný "normální" produkt  = důchodce s časem objet postupně více obchodů a koupit vše za slevy...?)
8. Nové cesty - úvaha, někde ve světě už realizují - když dáme na vozík senzor polohy a její uchování v hadoopu, propojíme s účtenkou (u pokladny) - v kombinaci s plánem prodejny a osazením produktů, získáme  mapu, kudy zákazník projížděl, přes jaké zóny, a co reálně nakoupil...při použití na masu dat umožní výhodněji rozmístit produkty s cílem dát zákazníkovi "pod nos" to, co víme, že bude chtít při daném scénáři průjezdu nakoupit, případně co chceme, aby koupil ...ze mě by moc moudří nebyli, vždycky "náhodně bloudím", odložím košík a chodím bez něj a jedu podle seznamu...:)


Samozřejmě dat je v retailu více, zmínil jsem ty dle mého nejdůležitější z pohledu objemu a významu. Stejně tak použití dat, zde ale předpokládám realističnost scénáře, ať již z minulé praxe, nebo z možnosti technologií a hledání souvislostní ve velkých objemech dat. 
Nejhorší pak je když po dlouhých analýzách přijdete s hypotézou za matadory businessu a oni Vám to rozstřelí jako broky holuba...ale to už je o konkrétních případech...

Budu rád za Vaši reakci...





úterý 18. února 2014

Aféra Big Data - BigDatagate - díl druhý - z pohledu optimisty

Aféra Big Data - BigDatagate - díl druhý - z pohledu optimisty

Volné pokračování příspěvku na téma big data - o čem že to je, či mohlo by být. Tentokrát z pohledu optimisty.

Big data z pohledu optimisty

Tentokrát jsem se zamyslel, k čemu by mohly big data sloužit...tedy sloužit k dobru, nejen ke generování tepla ve vzdálených serverovnách a privátních cloudech...

Úvod

Nebudu zde řešit teorii co je a co není big data...to najdete u strýčka Googla a chytrolína Wikiho. Ale k čemu by to reálně mohlo sloužit...

Proč ?

Protože na Vaše zvídavé otázky Vám pořád všichni ve firmě říkají, že v datovém skladu o pár set GB nenacházejí co hledají (jako svatý grál), v reportech nemáte ty vysněná čísla, horším případě různá čísla.. a návod, jak zákazníka přesvědčit, že Váš produkt je zkrátka jedinečný a všichni by na něj měli stát frontu nikde....Vaši analytici i přes stovky krásných a často i funkčních reportů pro Vás nemají univerzální odpovědi otázky typu Jak to, že produkce stagnuje, když v plánu máme 15ti procentní nárůst od představenstva...zkrátka chybí Vám CML (Centrální mozek lidstva). Aha, já psal, že budu tentokrát optimista...tak jinak...
Big data v kombinaci se zdravým rozumem, velmi slušným lidským vybavením Vám mohou otevřít cesty, které byly dosud nepoznané, resp. případně poznané, ale za neuvěřitelné náklady (takový multiterabajtový DWH stojí v dnešní době desítky milionů....to víte, překrásné plachetnice holt něco stojí, viď Larry ? :)

Kde vzít big data  ?

Všichni dodavatelé Vás snadno přesvědčí, ze big dat máte doma plné šuplíky v racku...rozuměj diskové pole...Big data jsou přeci všechny soubory, ideálně minimálně strukturované, a pokud možno co nejvíc velké...nejlépe pak generátory TB v podobě trasovacích logů Vašich super webových stránek, kde nalézt informaci, kterou hledáte jako potenciální nebo existující klient, tak vygeneruje tisíce záznamů v logu...protože Vás super web Vám dodává často velmi renomovaná firma...až na pár vyjímek máte tak složité weby, že to chce téměř matfyz...a ten já bohužel nemám...specialisté na tuto oblast se rozhodli soustředit ve státní správě...
Existují ale firmy, které big data resp. zdrojová data o desítkách TB mají, pár příkladů:
  • Telco operátoři 
    • Informace ze signalizace CCS 7 - to jsou TB za den - semi strukturované (tokeny atd)
    • CDR/EDT, data pakety, setup pakety atd...divili by jste se, kolik dat je schopen jedně středně velký operátor s pár miliony zákazníků za den vygenerovat...
    • Systémy detekující nestandardní stavy sítě či oceňující výpadky pro potřeby prioritizace oprav (internet i mobile) - ze signalizace i z jednotlivých aktivních prvků sítí (switche, BTS, BSC controllery, ústředny mobilních operátorů proudí objemná data (usage, stav, statistiky). Zde by se mohly čeští operátoři inspirovat co do udržení kvality sítě, že...
    • Billing - když budeme uvažovat, že přes menší operátory plyne cca 40mil hovorů za den, každý hovor generuje 1 až x CDR záznamů + interconnect záznamy, tak provést billing těchto dat je už poměrně zajímavý úkol. I proto josu zavedeny někdy naprosto nelogické billing cykly, aby se zátěž rozložila rovnoměrně přes celý měsíc...zkrátka fakturujeme, fakturujeme a fakturujeme...a nešlo by s bigdaty fakturovat na click ? 
  • Finančí instituce
    • Vyhodnocené záznamy o hovorech se zákazníky
    • Transakce zákazníků kartami, ořevody z účtu na účet atd...banky s penězi umí, takže datové sklady bank patří mezi největší a nejširší bumbrlíky...bohužel ale také release cyklus je na úrovni release za půl roku, což je zase noční můra pro jejich marketing...do půl roku se nový produkt proflákne jen z podstaty...
    • Likvidace pojistek v pojišťovnách
  • Retail
    • supermarkety a hypermarkety jsou ideální generátory velkých objemů dat...podívejte se o víkendu při týdenním nákupu do košíku a na lístek z pokladny...a pak to vynásobte...vyjdou Vám tak velké objemy, až Vám přeteče kalkulačka, z hlavy to nedáte :) 
  • Utility firmy
    • pokud bohdá budou jednou nasazeny "chytré sítě" s chytnými měřiči spotřeby od elektřiny, plynu, vody atd, tak nám zase zdraží, tentokrát ne kvůli solárům nebo potřebě odpisů investic do distribuční sítě,  ale aby mohli nakoupit desítky racků a diskových polí....
  • Dopravci - to jsou moji oblíbenci...:)
    • představte si kamion, který posílá do pět minut soubor informací o tom, jak jede, co veze, kam to veze, ...do Španělska jede 5 dní...a pak zase 5 dní zpět...a měl by takto jezdit ideálně pořád...to je dat....ale nedělejte si iluze, ze by je dopravci nějak pořádně využívali...určitě proto, že nemají bigdata a nikdy mít nebudou, neb na to nemají budget...:)
    • firmy sběrné služby  typu vyzvedni balíček, doruč ho na druhou stranu světa za 36 hodin či ještě méně...představte si 100.000 zásilek denně, a každá vygeneruje několik set záznamů v logu různých systémů (objednávka, naplánování vyzvednutí, převzetí, do crosdocku, něolikanásobný skok mezi crossdocky, plán rozvozu, doručení, fakturace, reklamace...
    • hromadná veřejná doprava - pokud zde čekáte sofistikované technologie za miliardy, tak to platí jen pro distribuci oněch známých opencard...praxe je excel, excel, důchodce v busu, co dělá čárky...nejčastěji za účelem tzv. dopravního výzkumu...a obhájoby nárůst nákladů ...až budete jednou zase čekat na zpožděný rychlík monopolního dopravce, tak mrkněte do projíždějících lokálních vlaků, jaká je cca obsazenost projíždějících vlaků v ranních či pozdně odpoledních hodinách...alternativou, pokud vlastníte vozidlo, tak během 10ti minut čekání, než projede za závorami lokálka s 3 babičkami na cestě za doktorem, tak si můžete procvičit matematiku....do práce denně dojíždí několik set tisíc lidí, díky optimální dopravní obslužnosti potřebují v průměru 3 přestupy (vlak, metro, tramvaj či bus), zpátky je čeká to samé...kolik milionů událostí to znamená ? Ideální kandidát na big data
  • Průmyslové výrobní firmy
    • to je segment sám pro sebe, protože ISO je klíč k novým trhům, tak evidujeme pohyb výrobku/obrobku, operace, teploty, manipulaci...tady jsou to mega big data...
    • vezměte si počet vyrobených aut za rok v ČR (odhadem 1,3 mil), každé auto má cca 5000 součástek, pro každou by bylo vhodné vést kompletní historii výroby včetně kontroly kvality (buďme minimalisté, odhaduji na 1MB dat) a rázem jsem na 5GB na vozidlo na roční objem výroby 1,3mil za rok...a máme bigdata jak vyšité, a to jsme ani něměřili KPI montérů na výrobní lince :)
    • a pak si představte tramvaj či autobus...nebo nedej bože lokomotivu...jen certifikační proces je na pár GB, a to ji ještě musíte vyrobit...
    • a takový robotický manipulátor je také zajímavý zdroj dat...
  • Jakákoliv firma se složitým klíčovým IT systémem, ať již se jedná o core systém, či systém, přes který plují data - často zmiňované zpracování logů pro proaktivní detekci chování...s ohledem na chování systémů a zběsilé logy v nich hledat chybky je normální cestou dost problém, což mohu potvrdit z vlastní zkušenosti. Potenciální problém, že většina "starších" systémů žádné pořádné logy nemá...a než je dodělávat vyjde dost často levněji naprogramovat celé znovu...ale pokud jsou...proč ne...
Takže big data můžeme mít, ale teď co s nimi...

Technologie a nástroje

Technologií pro big data je spousta, pomalu každá garážovka nabízí převlečený případně zušlechtěný hadoop či jeho různé forky. Když budete chvíli pátrat na webu, najdete spoustu odkazů na stažení (např. http://hortonworks.com
Trošku horší situace už je z pohledu nástrojů, které v datových skladech nazýváme ETL či ELT technologie. 
Sice všichni běžní dodavatelé říkají, že jsou complient s hadoop a bigdata, ale ruku na srdce....ono to zase tak horké není...ono už jen zajistit proudění velkých objemů dat do jednoho místa, odkud se uploaduje do HDFS není žádná legrace...a pokud si s těmito daty chcete ještě trošku pohrát (např. konsolidace či normalizace hodnot na číselníky/dimenze, případně nějaké nápočty, tak se velmi záhy dostanete do úzkých...jednak z pohledu potřeby pochopit principy map reduce (jiná algoritmizace), jednat i z pohledu znalosti významu dat a jejich dokumentace (rozuměj metadata).
Není problém sebrat pár TB dat, ale porozumět jejich významu resp. sémantice a kontextu.
Velkou výhodu vnímám u těchto technologií v poměru náklad/přínos. Velmi často běží "partizánské" hadoopy na pár stolních počítačích někde pod stolem fandů, a funguje to. Vstupní licenční náklady jsou minimální, v podstatě jde jen o časovou investici, a chuť učit se nové zákonitosti, objevovat, zkoušet a často nalézat velmi zajímavé paralely s jinými technologiemi. 
S ohledem na to, že se technologie velmi prudce rozvíjejí, není asi třeba dlouho vybírat tu nejlepší technologii, protože za rok budou technologie o generaci dál. Je vhodné začít na zvolené a poté přejít na novou generaci, která bude k dispozici odhadem v druhém kvartálu roku 2015.
Smyslem tohoto příspěvku není popisovat jednotlivá řešení, proto přejděme k tomu nejdůležitějšímu.

Změna myšlení (aneb jádro pudla) 

V mnoha firmách existují poměrně hodně komplexní a obsáhlé datové sklady. Ale ruku na srdce, kolik  firem efektivně a zodpovědně tyto data využívá, i přes němalé náklady na jejich získávání...těchto firem znám velmi málo (a to se bavíme o pár set GB nejaktuálnějších dat)...
  • Dodnes řeší 90 procent těchto firem distribuci víceméně statických reportů (produkce,  KPI obchodníků, atd). Nic ve zlém, ale na to stačí Access a MS Excel. A protože se mění management, běží restrukturalizace a organizační změny, tak se tyto reporty neustále předělávají, doplňují o další "velmi užitečné" ukazatele, jako např. počet akvizičních schůzek (asi s cílem, kdo schůzuje, ten se snaží). 
  • V oblasti financí pak převládají provizní, (de)motivační systémy,fraud detection a campaign management systémy a jako poslední bych uvedl různé scoringové nástroje - zvláštní je, že automaty Vaše data přijmou  a použijí mnohem snadněji, než např. obchodní oddělení či produkt management
Firmy mají k dispozici již dnes poměrně dostatek dat pro klíčová rozhodnutí, jen se musí snažit je pochopit, jenže dost často vedení zavelí, vyhlásí cíl, a pak se hledají podklady, který by to podložili "tvrdými" daty...opačná cesta je nepříjemná, protože v BI jsou velmi často diametrálně odlišné informace, on totiž datový sklad neumí s informacemi kouzlit tak snadno, jako excel či powerpoint. 

A pak se v tom vyznejte...jednodušší je zpochybnit informace z BI,  než obhájit a doložit své prohlášení podklady, případně změnit své myšlení.

Dokud obě strany (BI i business) nepřejdou na kooperativní spolupráci, nemá cenu uvažovat o big data, protože v případě soft/hard analýz spolu musí obě stray mluvit a sdílet informace ještěo řád více. Velmi často je výstupem hypotéza, zpracované na významném objemu dat, ale je také nutné umět výstupy vysvětlit a zasadit do kontextu, protože výsledky mohou být i silně zavádějící.

Hlavičky a ručičky

Osobně vnímám, že trend v alokaci lidských zdrojů v oblasti BI je aktuálně asi největší problém. Naštěstí většina firem zjišťuje, že in house development mé také své pozitiva (nižší suma nákladů a méně nervů v dohadování), na druhou stranu je na trhu akutní nedostatek zkušených architektů a seniorních BI analytiků. Přidaná hodnota externích zdrojů v podobě mnoholetých praktických zkušenosti se smazala v obodbí krize, kdy hodně zkušených odešlo na volnou nohu, případně k zákazníkům (byli nejdražší,a tam se přece šetří nejlépe). Konzultanti se stávají komoditou, mnohdy vícenásobně přeprodanou a nevázanou, takže investice do jejich odborného růstu jsou rizikovou investicí. A k tomu zákazníci tlačí na cenu, BI dneska podle webů firem dodává každá větší firma (OLAP kostku nad ERP :) )
Osobně velmi vnímám vyprázdněnost dodavatelských firem, chybí přidaná hodnota, nahrnout data bez ladu s skladu do DWH umí téměř každý, ale pochopit zákazníkův business, proniknout do něj a přinést hodnotu či alternativní pohled na problém, takových lidí aby člověk pohledal.

Bohužel velmi podobná situace vládne v analytických týmech u zákazníků. Zkušené analytiky s hlubokou znalostí zákonitostí konkrétního businessu postihl podobný osud, i když pár jich setrvalo, ale podezřívám, že především z fandovství...

Závěr dnešního dílu

Takže na závěr optimismus...
  • Firmám, kde funguje kooperativní spolupráce mezi business odděleními i IT, a je podporována snaha o investice do lidských znalostí napříč firmou, mohou řešení na bázi big data přinést pozitivní revoluci či velmi zrychlenou evoluci.  
  • Firmy se striktně odděleným IT a businessem, kde spolu tyto oddělení mluví ústy projektových managerů a business leaderů projektů na desítkách "důležitých meetingů"...pro tyto je lepší se vyhnout pokusům s big data, protože jsou odsouzeny k zániku a spíše by měly dále směrovat svoje úsilí k 20té revizi základních podnikových reportů verze 19.
  • Osobně vidím velký potenciál v další generaci "unikátních garážovek", které budou schopné nabídnout kombinaci reálně fungující technologické linky + znalosti businessu, jejichž výstupem budou fungující a udržitelná řešení zaměřující se na vybrané oblasti z ohromného koláče potenciálních použití big data
  • I u tohoto trendu platí lidové Když se chce, všechno jde. Jen je třeba dát pozor, aby to nešlo moc rychle pod kytičky...:)
Pokud jste dočetli až posud, děkuji za Váš čas a budu rád za Vaše reakce. Vím, že je to místy obecné, ale chtěl jsem Vás dostat do kontextu, na základě kterého budu v dalších příspěvcích už výrazně konkrétnější. 
Povahou jsem člověk tvořivý, proto bych rád v dalších dílech psal o konkrétnějších záležitostech typu:
  • Referenční data - aneb jak si ušetřit spoustu práce
  • Referenční architektura, aneb pěkný obrázek
  • První business příběh





pondělí 17. února 2014

Aféra Big Data - díl první - z pohledu skeptika

Také už jste dostali pocit, jak je to vůbec možné, že jsme dokázali přežít od roku 2010 do roku 2013 bez BigData ? 

Nedalo mi to, a podíval jsem se na věc blíž....jak z technologického hlediska (jsem technologický hračička), tak z pohledu použitelnosti pro zlepšení businessu resp. potenciální přínos.
Projíždím weby, prozkoumávám architekturu,  nástroje, použitelnost, potenciálně zajímavé technologie zkouším v laboratorních podmínkách...a také se setkal s pár zajímavými lidmi, kteří toho téma studují už delší čas a vyměnili jsme si názory. Konfrontuji se zkušenostmi a praxí z desítek velkých i malých projektů.

Skeptický pohled na BigData

V jedné věte lze shrnout...přežili jsme posledních 8 trendy slov, přežijeme i tento...firmy to bude opět stát pár miliard , business pořád bude mít svých 1000 reportů k ničemu v  excelu...zkrátka...vlk se nažere a koza zůstane celá, jen oškubaná jako ovce...:o)
Jak šel čas (hodně subjektivní historické dojmy):
  • v roce 2000 - nástup DWH do ČR - měl jsem tu příležitost podílet se na průkopnických letech DWH v ČR (Adastra). Dodnes mě fascinuje Honza Červinka, který z pidi firmy vykřesal obr firmu, řešili jsme super projekty, poznávali nepoznané technologie
  • cca rok 2003 - nástup DWH 360 / CDW či jiný alternativní název, zkráceně řešeno, sehrajme vše do DWH, on si to business přebere a bude mít všechny informace na pár dashboardech...už nás nic lepšího nepotká...hodil jsem si se super týmem jeden near real time DWH (load po 15 minutách) pro telco operátora...a fungovalo to, až na to, že Oracle discoverer sloužil jako exportovač do excelu :o)
  • cca rok 2004 - nástup doby s heslem CRM aneb "firma bez CRM do roka a do dne padne...a CRM potřebuje EDW resp. CDW (enterprise DWH resp. customer DWH) aneb co není ve skladu napojené na zákazníka, jako by nebylo) - zajímavá várka projektů, kde se vše točilo kolem CRM a businessu se z toho točila hlava, protože o zákazníkovi i o sobě věděli víc, než je zdrávo...a kupodivu služby zákazníkům se zhoršili (subjektivní pocit, ale současné logické...už o mě věděli vše, ale stejně pořád někdo volal a něco nabízel...tomu se zase říkalo operativní CRM, se spoustou nadstaveb pro campaign management, atd)
  • cca rok 2006 - heslo doby, systémy spolu mluví, ale jen přes ESB...toto byla éra s heslem, kanonické XML zprávy jsou spása světa...ještě že se tyto technologie nedostaly do náboženství...i když pro hodně lidí v roli pojmenované enterprise architect to slovo boží bylo...ono na těch obrázcích a prezentacích to vypadalo tak lákavě a super...jenže praxe je horší než kacíř...výsledek ? Nasadili se super integrační platformy za desítky milionů, a pak si předávali zprávy o vytvoření zákazníka, protože reálné objemy dat z provozních systémů tyto platformy nedávali a když, tak za ztrojnásobte železo (a licence) a ono to zvládne...dodavatelé HW zažívaly boom (ještě že virtualizace v té době byla relativně v plenkách). Zažil jsme spoustu hádek s enterprise architekty, že do DWH řešení budou data putovat také přes xml...protože tak je to přece správné z pohledu enterprise architektury....většinou je pak přesvědčil velikost xml exportu zvíci 600GB, z čehos odpadaly už i nejlepší parsery té doby...ach jo, chtělo by se říct. 
  • cca rok 2007 - bohužel enterprise architekti to nevzdali...(jim platy neklesaly, protože jejich prezentace byly zkrátka dokonalé)...a přišla doba service oriented...kdo nechystal SOA, opět byl zpátečníkem a kacířem....co z toho, že jste spálili 3/4 rozpočtu v hádkách o podoby API, překlady do kanonického XML, werservice registry, verzování služeb....dorazil mě slabý požadavek na přidání jednoho atributu do API (mezi dvěma systémy), který se díky SOA nacenil na cca 100tis....(a ono to tak bohužel s testy bylo)...Naštěstí ve stejném roce se začíná mluvit omaster data managementu, konsolidaci zákazníků, unifikaci klientů atd...což bylo pár hodně zajímavých projektů s velmi reálnými přinosy...
  • rok 2007 - přišla krize....rozpočty IT se seškrtaly...investice se odložili...a IT se konečně z rauše začalo vracet zpátky na zem....tedy jak kde...od sprna do prosince to vypadalo na trhu jak na hřbitově...a také přichází doba database appliance...konečně někoho napadlo vzít komoditní železo, seskládat a nakonfigurovat do maximálního výkonu a prodat jako krabici...v čechách nevídané a naprosto nepřijatelné....IT by si nemohlo hrát se skládáním železa a podivnými výběrovými řízeními, kde požadavky byly dost často na hranici možného chápání...
  • rok 2008 - začínám vnímat business intelligence....DWH jsme obalili procesy, knowledge managementem, dashboardy....a dalšími nadstavbami, přidali jsme master data management...a byly zase další projekty a pár nových slůvek do žargonu
  • rok 2012 - poprvé se začíná proslýchat něco o tom, že datové sklady o velikosti desítek TB asi nejsou to úplně ořechové, a jak to, že když to tolik stojí, tak by to také businessu mělo něco přinést....většinou s eptali finanční ředitelé, protože jim v OPEX i CAPEX investicích svítila obr čísla, ale na straně příjmů to nebylo zase tak moc vidět...náhodička, vzniklo big data
  • rok 2013+ - plný nástup bigdata gate - aneb zákazníkům začínáme říkat, že datové sklady, které jim stavíme pár let, tak vlastně jsou "téměř" zbytečné, protože stačí nasadit hadoop, narvat do něj úplně všechny data, včetně spotřeby toaletního papíru ve firmě a posadit k tomu business analytika a za chvíli ...víte opět úplně všechno....sice nevíte co, nevíte jak, ale máte to....krásná idea...kdo nezná map-reduce, je úplný ....hledám slušné slovo

Poučení ? 

  • Není důležité, jaké magické slovo použijeme, ale buď je řešení k něčemu (opravdu něco řeší), nebo k ničemu (data pro data) a pak to nezachrání ani trendy slovíčka...a bohužle musím konstatovat, že těch k něšemu je výrazná menšina...
  • CRM je super, pokud je jednoduché a přinutíte obchodníky sdílet jejich nejcennější informace...což je jádro pudla...v kombinaci se "standardizovanými" technolgiemi za pár set milionů celkem vražedná kombinace...jeden příklad za všechny....po implementaci CRM řešení u našich dvou operátorů se mě začalo spousta lidí mimo IT ptát, co je to Siebel, jestli je to nějaký virus...co jim na to říct...ale zase není vše černá, pár solidních CRM based řešení, které mají smysl by se našlo, většinou kombinace technologií a osvícených lidí z businessu vytvořila řešení, která jsou funkční a zákazníkovi přináší 
  • Firmy v datových skladech skladují stovky GB až desítky TB, ale rád bych viděl firmu, kde jsou tyto informace smysluplně využívány. Nemyslím tím generování stovek reportů v excelu s hesle, ale 
  • Moje osobní poučení od jednoho hodně energického CFO....jakkoliv velká firma se dá řídit přes max. 15 reportů....uplně nejhorší je, že měl pravdu a zatím mi to nikdo nedokázal vyvrátit...protože to fakt funguje...mám je schované :), a jsou v Excelu
  • Spousta projektů generovaných businessem měla hlavní důvod v řešení typu "my také" a výsledkem je, že projekty pohořeli "stejně jako u nich"
  • Když firma najde člověka - BI architekta/hlavního analytika, který rozumí businessu, dokáže udělat model L1 tak, že je dlouhodobě udržitelný, je provázaný a pokrývá potřeby, měla by si jej koupit do otroctví....bohuže těchto lidí jsem za dobu své cca 13ti leté praxe potkal do deseti...(já jsem desátý :) )
  • Firmy (zákazníci dodavatelů těchto trendy řešení) mají pořád v rozpočtech více peněz, než je potřeba....a dodavatelé to vědí...
  • Na to, aby z BI řešení teklo něco rozumného, je třeba vynaložit enormní úsilí...většina probémů začíná na úrovni primárních systémů...protože ty navrhují enterprise architekti pomocí EA, kde ty use case tak super vypadají, doménový model je super, pak pustíme generátory kódu a pak ...začneme zase znovu...když vidíte výsledek, tak programátor z doby roku 1995 by dotyčnému zlámal ruce i nohy....tisíce řádků kódu, n-vrstvé aplikace, která na 100x silnějším HW zvládají taktak to, co před tím pár terminálových aplikací...s mainframem v zádech :).

Závěr skeptika

  • Data porostou, big data technologie je uloží...a změní se jen to, že v serverovně (rozuměj cloudu) bude zase méně volného místa...už nebudeme skladovat jednotky či desítky TB, ale stovky...a opět nám to bude k ničemu...zaplaví nás data...a informace budeme mít pořád stejné...
  • Celá šaráda bude stát firmy pár miliard dolarů, které dodavatelské firmy použijí na vymyšlení nového trendu...za 3 roky, až začnou reálně dobíhat první velké projekty na téma bigdata bude třeba jiné zaklínadlo, aby se otevřel kouzelný měšec s budgetem...protože již dnes má velká většina BI řešení problém obhájit přínos businessu, tak za 3 roky bude výrazně hůř 
  • A moje soukromé prozření. jako skeptika...někde je něco špatně....narostly nám data na tísícenásobky, ale pomáhá to businessu ? Odpověd je...NE (samozřejmě kafe po dobu, než doběhne report je super ale na tom vydělá jen dodavatel a provozovatel kafomatů ve firmách). a Samozřejmě dodavatelé
  • Na úplný závěr...fascinují mě úvahy, že když do big data nahážeme data ze sociálních médií, a na pár kliků zjistíme co si o nás naši zákaznící myslí....nevím jak vy, ale když občas čtu příspěvky na různých fórech, tak....nás čekají zajímavé věci....a přitom by stačilo, vzít náhodně seznam 1% zákazníků v základních segmentech a zavolat jim....což je běžná práce obchodníka/account managera...a podobnou činnost vřele doporučuji i jejich nadřízeným orgánům. Investice do zbytečných řešení za desítky milionů pak mohou dát na charitu a pár reklam, a hned o nich budou psát na sociálních médiích určitě kladně...ale to nezjistí, protože nebudou mít big data řešení na jejich vyhodnocení sentimentu. A nebo povolat outsourcované call centrum a položit zákazníkům jednoduchou otázku, čím je Vaše firma v poslední době naštvala...a máte zpětnou vazbu, z které nebudete dalších 14 dní spát...a za pár kaček...
  • Tento text není kritikou či výplodem zapšklosti, jen rád dělám práci, která má smysl...