Data sem, data tam

Před půl rokem mi Honza Mayer řekl, že budou pod záštitou FIT VUT a MUNI organizovat konferenci čistě o datové analytice. Žádné plané řeči o big data, ale praktické ukázky oblastí, kde analytika jasně prokazuje své přínosy. Těšil jsem se o to více. S týmem z KISKu sehnali spoustu zajímavých řečníků.

Sepsal jsem pár svých poznatků z každé přednášky konference DataConf2014. Nevysvětluji hlavní obsah přednášky, ale útržkovitě píši jen, co mne trklo do ucha.

Michal Buzek (Seznam): Data ve službách Seznamu

Vstávání v pět ráno a cestování z Prahy do Brna s sebou nese daň pozdních příchodů. Bohužel jsem nestihl více než poslední dvě minuty. Za tu dobu Michal stihl popsat, kdo všechno využívá v Seznamu výstupy z GoodData, že na počátku sloužily hlavně pro top management a teď pomáhají při řízení obchodních aktivit. To jste již možná četli v rozhovoru s Petrem Šimečkem na blogu Kebooly.V druhé otázce Michal zmínil, jak Seznam v rámci svého sběru dat o návštěvnících svých webů používá dva typy behaviorálních dat:
  • krátkodobé údaje s platností zhruba 2 hodiny – na kterých webech Seznamu se zrovna návštěvník nachází,
  • dlouhodobé údaje s překvapivě krátkou dobou 14 dní – z toho čerpají průkaznější zájmy návštěvníků o různá témata.
Seznam cookies nespojuje s údaji o konkrétních osobách (např. přes e-mail).

Vojta Roček (Rockaway): Praxe

Ve svém povídání Vojta představil praktické věci, které mu pomáhají s datovou analytikou.Vojta Roček skvěle přednáší i bez bullet-pointů
  • Bavil se hodně o SQL jako naprostém základu, který už 40 let definuje práci s daty. Stačí jednoduché příkazy, na všechno ostatní máte StackOverflow.
  • Ze zkušenostíKeboole a Rockaway zmínil, že v BI projektech není pochopení klientova byznysu to nejdůležitější a raději interpretaci dat nechával na klientovi. ETL procesy jsou alfa a omega BI. Proto Keboola svou službu Connection staví právě na perfektně zvládnutých procesech získávání a zpracování dat. Nahrání do GoodData je už jen třešnička. Tím je pak pravidelné nahrávání dat jednodušší.
„Pokud chcete dělat složité věci, jděte dělat tam, kde ujel vlak: to je např. bankovnictví“ – Vojta Roček
  • Krásná charakteristika big data: pokud stávajícími prostředky nezvládáte zpracování současných dat.
  • Proč firmy investují do big data: šéfíkové se bojí, že v datech je něco, co teď neví a mohli by být ztrapněni, pokud by to neobjevili.
  • Tomáš Čupr řešil výběr KPI a projekt v GoodData ještě předtím než spustil projekt Dámejídlo.

Jakub Mráček (NášStát.cz): Ani opendata nezachrání svět (ale mohou ho výrazně zlepšit)

Dřívější propagátor otevřených dat nadhodil mnoho myšlenek o tématech i mimo opendata.

Slajdy ke stažení.

Třeba o (ne)schopnosti informačních systémů spolupracovat se sebou. V IT by mělo jít o konvergenci – ať se systémy a data pospojují . Otevřená data k tomu mohou být prostředkem.

Lidé, kteří jsou informacemi zahlceni či přehlceni, mají tendenci přestat informace přijímat zcela. Což je pak bohužel taktika nejen ruské propagandy.

Ind Sugata Mitra, který se zabývá účinným vzděláváním, navrhl pro výuku angličtiny dětem praktický postup, jak děti nechat testovat své znalosti, aniž by je k tomu někdo nutil.

Jakub Mráček učí na gymnáziu chemii a informatiku – a právě tam dává základy práce s daty. Mimo jiné studentům ukazuje Google Fusion Tables. Jinak ale zmínil, že pojem digital natives je mýtus. Že ze třídy bývá jen jeden student velmi schopný využívat počítač. Desetina je pak totálně tragická a neumí počítač ani zapnout.

Veronika Bulková (MDT): Data pro život

Celá medicína je o datech. Lékař je de facto informační systém, který sesbírá (nebo přes vyšetření nechá sesbírat) data o pacientovi, zkombinuje je a určí diagnózu a postup léčby.Bohužel data zatím pomáhají výrazně méně, než by si Veronika představovala. Poukázala proto na oblasti, kde by to šlo vylepšit v první řadě:
  • zpracování poznatků lékařské vědy – vychází tuny učebnic, časopisů, impaktových článků a balastu, ale je těžké v nich najít vhodné poznatky. Když se lékař zajímá o aritmii, chtěl by, aby mu systém vytáhl seznam nejnovějších poznatků v této oblasti.
  • Nemocniční a ambulantní systémy.
  • Obrazy – RTG, CT, angiografie.
  • Diagnostické softwary – už teď fungují na základě Bayesovské statistiky.
  • Přenos dat od pacienta – e-health
PACS (picture archiving and communication system)

V rámci jedné nemocnice si kliniky často nemohou čumět do spisů. Ochrana osobních údajů to nedovoluje. Přístupné jsou pouze výsledky laboratorních tes­tů.

Zdravotní pojišťovny jsou zahlceny a nehledají fraud zbytečných vyšetření. Opakované návštěvy pacienta ve více klinikách se stejným problémem se zatím nepodchycují.

Existují balíčky PACs pro integraci obrazových podkladů do stávajících systémů. Často jsou licence na ně dražší než hardware samotný

Personál pečuje o pacienta jen zhruba 19 % z pracovní doby. Jinak jim hodně času zabírá administrativa.

Lékaři často pracují jen s tím, co viděli nebo s tím měli zkušenost. Jakékoliv pre-analýzy by jim měly pomoci. Např. identifikace rizikových faktorů a korelace v datech.

Veronika se věnuje telemedicíně – přístrojkem si lidi mohou měřit EKG v přirozeném prostředí a firma MDT z toho pak dělá vyšetření. V roce 2014 zpracují 4,5 mi­lionu EKG snímků.

Výsledek vyšetření EKG od MDT

Jsem rád, že v Brně univerzity hodně tlačí na aplikace ma­tematických metod v biologii, biostatistiku a jiné hezké multidiscipli­nární obory.

Adam Herout (Angelcam): Bezpečnostní kamery jako zdroj dat

Adamova firma angelCam zkouší nad kamerovými daty i nesupervizované učení. Na škole se podílí na zajímavých výzkumech.

Ukázal také výstupy, jak kamerou zabírají ulici a sledují auta. Z toho pak identifikují nejen značky vozů, ale také modely (Fabia z určitého roku) a varianty (hatchback, combi).

Tváře Adama Herouta

Co z toho je tvář? Viz dřívější video z Devel.cz.

Existuje sada trénovacích obrázků ImageNet. Nad ImageNet se dají trénovat klasifikátory a sledovat, u kterých typů obrázků jsou výsledky nejsnažší a nejtěžší. Také jde o studnici zdrojů na výzkumy kla­sifikace obrázků.

Příklad využití:
  • Kdo chodí do obchodů: jsou to kravaťáci nebo skejťáci v mikině?

Michal Koščík (PrF MU): Právní minimum datového analytika aneb Jak se nebát žalob a nenechat se okrást

Na Právnické fakultě se nikdo datovou analytikou nezabývá. Nemá to svou oborovou komoru, není to moc stanovené.

V zákonech jsou ale obecnější principy – získávání a zpracování informací, ukládání do databází a tvorba s šířením výstupů.

Michal zajímavě popsal, která z těchto částí je či není ochráněna právem. Nezmiňoval konkrétní čísla zákonů a paragrafy, ale oblasti, na které je třeba si dát pozor.

Lépe je ošetřeno, že není možné zastřelit jelena na akrobatické dráze.

Právo nechrání myšlenku samotnou, ale její objektivní vyjádření (např. sepsaným článkem či postupem) ano.

Práva třetích osob

  • ochrana osobních údajů
    • správce (je povinností správce opatřit si souhlas se zpracováním osobních údajů),
    • zpracovatel (nestará se o tento souhlas)
  • práva pořizovatelů databází
  • obchodní tajemství – jen když se smluvně stanoví mlčenlivost a pokuty

Zacházení s databází

  • originální – licence, chrání se organizace (ne data)
  • neoriginální – zužitkování (zpřístupnění, prodávání) nebo vytěžování (podstatné části, zkopírování ven)

Igor Szöke (FIT VUT): Extrakce informací z řeči

Ze záznamu zvuku se dá vytěžit velké množství vlastností:
  • Identita člověka
  • Pohlaví
  • Obsah
  • Věk
  • Telefon – kudy linka tekla, jaké kodeky používali
  • Čím byl hovor nahráván
  • Prostředí hovoru
  • Jazyk
Tři části mašinek na zpracování řeči. Využívané algoritmy: Přístupy, jak dosáhnout vyšší kvality:
  • přidávat více dat (vyplatí se ta další data získávat?)
  • lepší algoritmy
  • ideálně spojit oba přístupy (je tam však nelineární závislost kvality modelů na množství dat a kvalitě algoritmů
Vyvíjí KALDI, se kterým je prý jednoduché začít extrahovat informace z řeči.

Igor měl přednášku na Barcampu 2011 Dolování informací z řeči aneb „co ani Google neumí“.

Michael Stencl: Když BI dává smysl…

MichalJirkou Tobolkou udělal praktickou ukázku rychlého založení projektu v GoodData, nalití dat z Twitteru, tvorba jednoduchých reportů i náhled na XAE (alespoň jednoduchou lineární regresí).

Parádní, že se to stihlo během necelé hodiny. I když GoodData až moc neobjektivně proč­pívala celou konferencí od rána do večera, myslím, že to zcela zaslouženě. V Reporting Services od Microsoft SQL Serveru byste mezitím stihli leda tak zjistit, že si knihovnu pro Twitter sami nedoinstalujete.

Mezitím Michal povídal o různých problémech tradičního BI a udělal také pořádek v pojmech Business Intelligence, Data Discovery a Knowledge Discovery.

Obecné problémy tradičního BI dle výzkumu v článku What Agile Business Intelligence Really Means.
  • 20% of data has errors in it (accuracy)
  • 50% of data is inconsistent (consistency)
  • It typically takes 7 days to get data to the end user (timeliness)
  • It isn't possible to do a cross-database query on 70% of company data (scope)
  • 65% of the time, executives don't receive the data they need (fit)
  • 60% of the time, users can't do immediate online analysis of data they receive (analyzability)
  • 75% of new key information sources that surface on the Web are not passed on to users within the year (agility)
Poznámky bokem:
  • Pojem POC = Proof of Concept.
  • sezónní data
  • jak distribuovat léky proti alergiím po celém planetě
  • věřit analytikovi
  • řídit se jeho údaji

Základní nástroje pro EDA (exploratory data analysis)

  • histogram
  • pareto
  • scatter plot
  • parallel coordinates
Histogram

Paretův diagram

Scatter plot (korelační diagram, bodový graf)

Scatter plot (bodový graf)

Parallel coordinates (v češtině Rov­noběžné souřadnice)

Parallel Coordinate Plot

Součásti BI

  1. querying
  2. reporting
  3. OLAP
  4. alerty

Fáze Business Analytics

  1. Descriptive analytics – is about the past (reports, queries)
  2. Predictive analytics – predikce  - is about the future (forecasting predictions)
  3. Prescriptive analytics – provides advice based on predictions (optimizations and simulations)
Presktiptivní analytika

Prý nejlepší doporučovací firma je Ayata.

Doporučovací systém Amazonu byl v článku z roku 2001. Patent hýr. Asi v tom žádné nové terno nevymyslíte.

Základní metody pro doporučování

Čekali byste možná tradiční asociační pravidla, že?Jak se to dá použít i jinak:
  • Např. objeví se peak v reportu
  • GoodData pak rozpadne peak a ukáže, proč se to stalo
Používáte-li automatická upozornění v Google Analytics, už jste to viděli:
Upozornění z Google Analytics

Michal Illich (Wikidi): Deep learning

Obdobná Michalova prezentace jako už jinde dříve.

Seznam: poslední odkaz z homepage na novinky prý zkoušeli personalizovat.

Homepage Seznamu

Teslaautopilota na dálnice, nikoliv do městského provozu.

Tesla na dálnici
Už 1975 vymyšlen algoritmus zpětné propagace backpropagation.

Tři důvody, proč deep learning prospívá

1. hloubka sítí – umožněna vyšším výkonem CPU/GPU a pár triky

2. využití neoznačených dat

Princip: autoenkodére, nauč se, co je tam důležité.

Odkaz na Stanford. A ještě jeden pro kurz, kde se probírají auto­enkodéry.

3. odolnost proti přeučení
  • Pojem dropout
  • Aby se síť nespoléhala, že se z konkréntích hodnot dá něco odvodit

Výsledky deep learningu

kategorizace obrázků
  • v roce 2011 9,5 % správnost rozpoznání
  • deep learning ze Stanfordu 18 %
rozpoznávání řeči
  • snižuje se chybovost: tradiční metody 27 %, deep learning 18,5 %

Michalovy výzvy

  1. mít data nestačí.
    • použivejte je.
    • kreslit barevné grafy je základ, nikoliv plné využití dat.
    • teprve až se udělá změna/rozhodnutí
    • strojové učení by mělo urychlit tato rozhodnutí
    • např. zaměřením se na konkrétní uživatele
  2. strojové učení
    • nechte stroje samotné najít si vztahy v datech
    • najít společné vlastnosti
  3. kde může student pracovat se strojovým učením na reálných projektech
    • kaggle
    • vlastní projekty
    • akcelerátor
    • na univerzitě
    • v pár českých firmách
Deep Learning zkoušeli na akciových datech
  • spojovali s tweety o konkrétní firmě
  • predikce vývoje
  • statisticky signifikantní výsledky ve směru vývoje
  • ale poplatky za akciové obchodování to kazí
  • to myslím odpovídá závěrům spolumajitele RSJ Libora Winklera, který v rozhovoru uváděl, na jak brutálně malých maržích při obrovských vstupech a riziku fungují. Evropská daň za finanční transakce by je zničila.
Hlavní oblasti rozvoje deep learningu: obraz, zvuk, lingvistika.

Martin Hlosta: OUAnalyse: Odhalování rizikových studentů v distančních kurzech na Open University

Kniha Think Stats

V rámci akce se představil český překlad knihy Think Stats: Pravděpodobnost a statistika pro programátory. Je volně ke stažení na adrese http://bit.ly/thinkstats_cs.

Na konferenci byl i první výtisk na prolistování. I v počtu dvou stovek účastníků tam přes celý den vydržel.

Výtisk Think Stats

Jak vidíte, konference byla pořádná darda inspirace. I když se v oboru pohybuji dlouho, ujasnění některých souvislostí se mi dost hodilo. A z obrázků a odkazů vidíte, že jsem si začal hledat další související témata.

Moc díky Honzovi Mayerovi a jeho týmu, že tuto akci pořádali.

Aktualizováno 12. prosince o videa ze všech přednášek.

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *