Data sem, data tam

Pavel Jašek

12 roky ago

Před půl rokem mi Honza Mayer řekl, že budou pod záštitou FIT VUT a MUNI organizovat konferenci čistě o datové analytice. Žádné plané řeči o big data, ale praktické ukázky oblastí, kde analytika jasně prokazuje své přínosy. Těšil jsem se o to více. S týmem z KISKu sehnali spoustu zajímavých řečníků.

Sepsal jsem pár svých poznatků z každé přednášky konference DataConf2014. Nevysvětluji hlavní obsah přednášky, ale útržkovitě píši jen, co mne trklo do ucha.

Michal Buzek (Seznam): Data ve službách Seznamu

Vstávání v pět ráno a cestování z Prahy do Brna s sebou nese daň pozdních příchodů. Bohužel jsem nestihl více než poslední dvě minuty. Za tu dobu Michal stihl popsat, kdo všechno využívá v Seznamu výstupy z GoodData, že na počátku sloužily hlavně pro top management a teď pomáhají při řízení obchodních aktivit. To jste již možná četli v rozhovoru s Petrem Šimečkem na blogu Kebooly.V druhé otázce Michal zmínil, jak Seznam v rámci svého sběru dat o návštěvnících svých webů používá dva typy behaviorálních dat:

krátkodobé údaje s platností zhruba 2 hodiny – na kterých webech Seznamu se zrovna návštěvník nachází,
dlouhodobé údaje s překvapivě krátkou dobou 14 dní – z toho čerpají průkaznější zájmy návštěvníků o různá témata.

Seznam cookies nespojuje s údaji o konkrétních osobách (např. přes e-mail).

Vojta Roček (Rockaway): Praxe

Ve svém povídání Vojta představil praktické věci, které mu pomáhají s datovou analytikou.

Bavil se hodně o SQL jako naprostém základu, který už 40 let definuje práci s daty. Stačí jednoduché příkazy, na všechno ostatní máte StackOverflow.
Ze zkušeností v Keboole a Rockaway zmínil, že v BI projektech není pochopení klientova byznysu to nejdůležitější a raději interpretaci dat nechával na klientovi. ETL procesy jsou alfa a omega BI. Proto Keboola svou službu Connection staví právě na perfektně zvládnutých procesech získávání a zpracování dat. Nahrání do GoodData je už jen třešnička. Tím je pak pravidelné nahrávání dat jednodušší.

„Pokud chcete dělat složité věci, jděte dělat tam, kde ujel vlak: to je např. bankovnictví“ – Vojta Roček

Krásná charakteristika big data: pokud stávajícími prostředky nezvládáte zpracování současných dat.
Proč firmy investují do big data: šéfíkové se bojí, že v datech je něco, co teď neví a mohli by být ztrapněni, pokud by to neobjevili.
Tomáš Čupr řešil výběr KPI a projekt v GoodData ještě předtím než spustil projekt Dámejídlo.

Jakub Mráček (NášStát.cz): Ani opendata nezachrání svět (ale mohou ho výrazně zlepšit)

Dřívější propagátor otevřených dat nadhodil mnoho myšlenek o tématech i mimo opendata.

Slajdy ke stažení.

Třeba o (ne)schopnosti informačních systémů spolupracovat se sebou. V IT by mělo jít o konvergenci – ať se systémy a data pospojují . Otevřená data k tomu mohou být prostředkem.

Nádherná IT konvergence v podání @jakubmracek :) #DataConf14 pic.twitter.com/0Cdes8RbKS
— Vojta Roček (@VojtaRocek) November 22, 2014

Lidé, kteří jsou informacemi zahlceni či přehlceni, mají tendenci přestat informace přijímat zcela. Což je pak bohužel taktika nejen ruské propagandy.

Ind Sugata Mitra, který se zabývá účinným vzděláváním, navrhl pro výuku angličtiny dětem praktický postup, jak děti nechat testovat své znalosti, aniž by je k tomu někdo nutil.

Jakub Mráček učí na gymnáziu chemii a informatiku – a právě tam dává základy práce s daty. Mimo jiné studentům ukazuje Google Fusion Tables. Jinak ale zmínil, že pojem digital natives je mýtus. Že ze třídy bývá jen jeden student velmi schopný využívat počítač. Desetina je pak totálně tragická a neumí počítač ani zapnout.

Veronika Bulková (MDT): Data pro život

Celá medicína je o datech. Lékař je de facto informační systém, který sesbírá (nebo přes vyšetření nechá sesbírat) data o pacientovi, zkombinuje je a určí diagnózu a postup léčby.Bohužel data zatím pomáhají výrazně méně, než by si Veronika představovala. Poukázala proto na oblasti, kde by to šlo vylepšit v první řadě:

zpracování poznatků lékařské vědy – vychází tuny učebnic, časopisů, impaktových článků a balastu, ale je těžké v nich najít vhodné poznatky. Když se lékař zajímá o aritmii, chtěl by, aby mu systém vytáhl seznam nejnovějších poznatků v této oblasti.
Nemocniční a ambulantní systémy.
Obrazy – RTG, CT, angiografie.
Diagnostické softwary – už teď fungují na základě Bayesovské statistiky.
Přenos dat od pacienta – e-health

V rámci jedné nemocnice si kliniky často nemohou čumět do spisů. Ochrana osobních údajů to nedovoluje. Přístupné jsou pouze výsledky laboratorních testů.

Zdravotní pojišťovny jsou zahlceny a nehledají fraud zbytečných vyšetření. Opakované návštěvy pacienta ve více klinikách se stejným problémem se zatím nepodchycují.

Existují balíčky PACs pro integraci obrazových podkladů do stávajících systémů. Často jsou licence na ně dražší než hardware samotný

Personál pečuje o pacienta jen zhruba 19 % z pracovní doby. Jinak jim hodně času zabírá administrativa.

https://twitter.com/…874443255808

Lékaři často pracují jen s tím, co viděli nebo s tím měli zkušenost. Jakékoliv pre-analýzy by jim měly pomoci. Např. identifikace rizikových faktorů a korelace v datech.

Veronika se věnuje telemedicíně – přístrojkem si lidi mohou měřit EKG v přirozeném prostředí a firma MDT z toho pak dělá vyšetření. V roce 2014 zpracují 4,5 milionu EKG snímků.

Jsem rád, že v Brně univerzity hodně tlačí na aplikace matematických metod v biologii, biostatistiku a jiné hezké multidisciplinární obory.

Adam Herout (Angelcam): Bezpečnostní kamery jako zdroj dat

Adamova firma angelCam zkouší nad kamerovými daty i nesupervizované učení. Na škole se podílí na zajímavých výzkumech.

<amp-youtube layout=„responsive“ width=„584“ height=„329“ data-videoid=„S3msCdn3fNM“ title=„Automatic Camera Calibration for Traffic Understanding [BMVC 2014]“></amp-youtube>

Ukázal také výstupy, jak kamerou zabírají ulici a sledují auta. Z toho pak identifikují nejen značky vozů, ale také modely (Fabia z určitého roku) a varianty (hatchback, combi).

Co z toho je tvář? Viz dřívější video z Devel.cz.

Existuje sada trénovacích obrázků ImageNet. Nad ImageNet se dají trénovat klasifikátory a sledovat, u kterých typů obrázků jsou výsledky nejsnažší a nejtěžší. Také jde o studnici zdrojů na výzkumy klasifikace obrázků.

Příklad využití:

Kdo chodí do obchodů: jsou to kravaťáci nebo skejťáci v mikině?

Michal Koščík (PrF MU): Právní minimum datového analytika aneb Jak se nebát žalob a nenechat se okrást

Na Právnické fakultě se nikdo datovou analytikou nezabývá. Nemá to svou oborovou komoru, není to moc stanovené.

V zákonech jsou ale obecnější principy – získávání a zpracování informací, ukládání do databází a tvorba s šířením výstupů.

Michal zajímavě popsal, která z těchto částí je či není ochráněna právem. Nezmiňoval konkrétní čísla zákonů a paragrafy, ale oblasti, na které je třeba si dát pozor.

Lépe je ošetřeno, že není možné zastřelit jelena na akrobatické dráze.

Právo nechrání myšlenku samotnou, ale její objektivní vyjádření (např. sepsaným článkem či postupem) ano.

Práva třetích osob

ochrana osobních údajů
- správce (je povinností správce opatřit si souhlas se zpracováním osobních údajů),
- zpracovatel (nestará se o tento souhlas)
práva pořizovatelů databází
obchodní tajemství – jen když se smluvně stanoví mlčenlivost a pokuty

Zacházení s databází

originální – licence, chrání se organizace (ne data)
neoriginální – zužitkování (zpřístupnění, prodávání) nebo vytěžování (podstatné části, zkopírování ven)

Igor Szöke (FIT VUT): Extrakce informací z řeči

Ze záznamu zvuku se dá vytěžit velké množství vlastností:

Identita člověka
Pohlaví
Obsah
Věk
Telefon – kudy linka tekla, jaké kodeky používali
Čím byl hovor nahráván
Prostředí hovoru
Jazyk

Tři části mašinek na zpracování řeči.

AM akustický model
slovník (tahá z fonémů slova)
LM jazykový model
získává slova, časování a pravděpodobnosti (+ paralelní hypotézy)

Využívané algoritmy:

HMM (skryté Markovovy řetězce) jsou starší přístup
GMM (gaussian mixture models)
neuronové sítě

Neurony by @IgorSzoke #DataConf14 #epic pic.twitter.com/zxKZztEUDP
— Veronika Neničková (@iVerNen) November 22, 2014

Přístupy, jak dosáhnout vyšší kvality:

přidávat více dat (vyplatí se ta další data získávat?)
lepší algoritmy
ideálně spojit oba přístupy (je tam však nelineární závislost kvality modelů na množství dat a kvalitě algoritmů

Vyvíjí KALDI, se kterým je prý jednoduché začít extrahovat informace z řeči.

Igor měl přednášku na Barcampu 2011 Dolování informací z řeči aneb „co ani Google neumí“.

Michael Stencl: Když BI dává smysl…

Michal s Jirkou Tobolkou udělal praktickou ukázku rychlého založení projektu v GoodData, nalití dat z Twitteru, tvorba jednoduchých reportů i náhled na XAE (alespoň jednoduchou lineární regresí).

Parádní, že se to stihlo během necelé hodiny. I když GoodData až moc neobjektivně pročpívala celou konferencí od rána do večera, myslím, že to zcela zaslouženě. V Reporting Services od Microsoft SQL Serveru byste mezitím stihli leda tak zjistit, že si knihovnu pro Twitter sami nedoinstalujete.

https://twitter.com/…513850728449

Mezitím Michal povídal o různých problémech tradičního BI a udělal také pořádek v pojmech Business Intelligence, Data Discovery a Knowledge Discovery.

Obecné problémy tradičního BI dle výzkumu v článku What Agile Business Intelligence Really Means.

20% of data has errors in it (accuracy)
50% of data is inconsistent (consistency)
It typically takes 7 days to get data to the end user (timeliness)
It isn't possible to do a cross-database query on 70% of company data (scope)
65% of the time, executives don't receive the data they need (fit)
60% of the time, users can't do immediate online analysis of data they receive (analyzability)
75% of new key information sources that surface on the Web are not passed on to users within the year (agility)

Poznámky bokem:

Pojem POC = Proof of Concept.
sezónní data
jak distribuovat léky proti alergiím po celém planetě
věřit analytikovi
řídit se jeho údaji

Základní nástroje pro EDA (exploratory data analysis)

histogram
pareto
scatter plot
parallel coordinates

Histogram

Paretův diagram

Scatter plot (korelační diagram, bodový graf)

Parallel coordinates (v češtině Rovnoběžné souřadnice)

Součásti BI

querying
reporting
OLAP
alerty

Fáze Business Analytics

Descriptive analytics – is about the past (reports, queries)
Predictive analytics – predikce - is about the future (forecasting predictions)
Prescriptive analytics – provides advice based on predictions (optimizations and simulations)

Prý nejlepší doporučovací firma je Ayata.

Doporučovací systém Amazonu byl v článku z roku 2001. Patent hýr. Asi v tom žádné nové terno nevymyslíte.

Základní metody pro doporučování

Factor analysis
Matrix decomposition (slideshare s Mahoutem)
Matrix factorization model (odkaz, tutoriál, pdf)
Minimizing cost function (asi jsem nepochopil; cost funkce je základem strojového učení obecně)
Usage-based MD mining (pdf 1, pdf 2)

Čekali byste možná tradiční asociační pravidla, že?Jak se to dá použít i jinak:

Např. objeví se peak v reportu
GoodData pak rozpadne peak a ukáže, proč se to stalo

Používáte-li automatická upozornění v Google Analytics, už jste to viděli:

Michal Illich (Wikidi): Deep learning

Obdobná Michalova prezentace jako už jinde dříve.

<amp-youtube layout=„responsive“ width=„584“ height=„438“ data-videoid=„br074kxTMVc“ title=„Michal Illich – Wikidi – Strojové učení z rychlíku“></amp-youtube>

Seznam: poslední odkaz z homepage na novinky prý zkoušeli personalizovat.

Tesla dá autopilota na dálnice, nikoliv do městského provozu.

Už 1975 vymyšlen algoritmus zpětné propagace backpropagation.

Tři důvody, proč deep learning prospívá

1. hloubka sítí – umožněna vyšším výkonem CPU/GPU a pár triky

How do you use GPUs to scale up Deep Learning? Bryan's meetup talk explains! https://t.co/uKOySUgnMC
— Andrew Ng (@AndrewYNg) August 4, 2014

2. využití neoznačených dat

Princip: autoenkodére, nauč se, co je tam důležité.

Odkaz na Stanford. A ještě jeden pro kurz, kde se probírají autoenkodéry.

Simple Introduction to AutoEncoder from Jun Lang

3. odolnost proti přeučení

Pojem dropout
Aby se síť nespoléhala, že se z konkréntích hodnot dá něco odvodit

Výsledky deep learningu

kategorizace obrázků

v roce 2011 9,5 % správnost rozpoznání
deep learning ze Stanfordu 18 %

rozpoznávání řeči

snižuje se chybovost: tradiční metody 27 %, deep learning 18,5 %

Michalovy výzvy

mít data nestačí.
- použivejte je.
- kreslit barevné grafy je základ, nikoliv plné využití dat.
- teprve až se udělá změna/rozhodnutí
- strojové učení by mělo urychlit tato rozhodnutí
- např. zaměřením se na konkrétní uživatele
strojové učení
- nechte stroje samotné najít si vztahy v datech
- najít společné vlastnosti
kde může student pracovat se strojovým učením na reálných projektech
- kaggle
- vlastní projekty
- akcelerátor
- na univerzitě
- v pár českých firmách

Deep Learning zkoušeli na akciových datech

spojovali s tweety o konkrétní firmě
predikce vývoje
statisticky signifikantní výsledky ve směru vývoje
ale poplatky za akciové obchodování to kazí
to myslím odpovídá závěrům spolumajitele RSJ Libora Winklera, který v rozhovoru uváděl, na jak brutálně malých maržích při obrovských vstupech a riziku fungují. Evropská daň za finanční transakce by je zničila.

Hlavní oblasti rozvoje deep learningu: obraz, zvuk, lingvistika.

Martin Hlosta: OUAnalyse: Odhalování rizikových studentů v distančních kurzech na Open University

Kniha Think Stats

V rámci akce se představil český překlad knihy Think Stats: Pravděpodobnost a statistika pro programátory. Je volně ke stažení na adrese http://bit.ly/thinkstats_cs.

Kniha ‚Think Stats: Pravděpodobnost a statistika pro programátory‘ v českém překladu a zdarma: http://t.co/jehFliiNPJ #DataConf14
— Pavel Jašek (@paveljasek) November 22, 2014

Na konferenci byl i první výtisk na prolistování. I v počtu dvou stovek účastníků tam přes celý den vydržel.

Jak vidíte, konference byla pořádná darda inspirace. I když se v oboru pohybuji dlouho, ujasnění některých souvislostí se mi dost hodilo. A z obrázků a odkazů vidíte, že jsem si začal hledat další související témata.

Moc díky Honzovi Mayerovi a jeho týmu, že tuto akci pořádali.

Aktualizováno 12. prosince o videa ze všech přednášek.