Dlouhý chvost

Data sem, data tam

Před půl rokem mi Honza Mayer řekl, že budou pod záštitou FIT VUT a MUNI organizovat konferenci čistě o datové analytice. Žádné plané řeči o big data, ale praktické ukázky oblastí, kde analytika jasně prokazuje své přínosy. Těšil jsem se o to více. S týmem z KISKu sehnali spoustu zajímavých řečníků.

Sepsal jsem pár svých poznatků z každé přednášky konference DataConf2014. Nevysvětluji hlavní obsah přednášky, ale útržkovitě píši jen, co mne trklo do ucha.

Michal Buzek (Seznam): Data ve službách Seznamu

Vstávání v pět ráno a cestování z Prahy do Brna s sebou nese daň pozdních příchodů. Bohužel jsem nestihl více než poslední dvě minuty. Za tu dobu Michal stihl popsat, kdo všechno využívá v Seznamu výstupy z GoodData, že na počátku sloužily hlavně pro top management a teď pomáhají při řízení obchodních aktivit. To jste již možná četli v rozhovoru s Petrem Šimečkem na blogu Kebooly.V druhé otázce Michal zmínil, jak Seznam v rámci svého sběru dat o návštěvnících svých webů používá dva typy behaviorálních dat: Seznam cookies nespojuje s údaji o konkrétních osobách (např. přes e-mail).

Vojta Roček (Rockaway): Praxe

Ve svém povídání Vojta představil praktické věci, které mu pomáhají s datovou analytikou.
„Pokud chcete dělat složité věci, jděte dělat tam, kde ujel vlak: to je např. bankovnictví“ – Vojta Roček

Jakub Mráček (NášStát.cz): Ani opendata nezachrání svět (ale mohou ho výrazně zlepšit)

Dřívější propagátor otevřených dat nadhodil mnoho myšlenek o tématech i mimo opendata.

Slajdy ke stažení.

Třeba o (ne)schopnosti informačních systémů spolupracovat se sebou. V IT by mělo jít o konvergenci – ať se systémy a data pospojují . Otevřená data k tomu mohou být prostředkem.

Lidé, kteří jsou informacemi zahlceni či přehlceni, mají tendenci přestat informace přijímat zcela. Což je pak bohužel taktika nejen ruské propagandy.

Ind Sugata Mitra, který se zabývá účinným vzděláváním, navrhl pro výuku angličtiny dětem praktický postup, jak děti nechat testovat své znalosti, aniž by je k tomu někdo nutil.

Jakub Mráček učí na gymnáziu chemii a informatiku – a právě tam dává základy práce s daty. Mimo jiné studentům ukazuje Google Fusion Tables. Jinak ale zmínil, že pojem digital natives je mýtus. Že ze třídy bývá jen jeden student velmi schopný využívat počítač. Desetina je pak totálně tragická a neumí počítač ani zapnout.

Veronika Bulková (MDT): Data pro život

Celá medicína je o datech. Lékař je de facto informační systém, který sesbírá (nebo přes vyšetření nechá sesbírat) data o pacientovi, zkombinuje je a určí diagnózu a postup léčby.Bohužel data zatím pomáhají výrazně méně, než by si Veronika představovala. Poukázala proto na oblasti, kde by to šlo vylepšit v první řadě:

V rámci jedné nemocnice si kliniky často nemohou čumět do spisů. Ochrana osobních údajů to nedovoluje. Přístupné jsou pouze výsledky laboratorních tes­tů.

Zdravotní pojišťovny jsou zahlceny a nehledají fraud zbytečných vyšetření. Opakované návštěvy pacienta ve více klinikách se stejným problémem se zatím nepodchycují.

Existují balíčky PACs pro integraci obrazových podkladů do stávajících systémů. Často jsou licence na ně dražší než hardware samotný

Personál pečuje o pacienta jen zhruba 19 % z pracovní doby. Jinak jim hodně času zabírá administrativa.

https://twitter.com/…874443255808

Lékaři často pracují jen s tím, co viděli nebo s tím měli zkušenost. Jakékoliv pre-analýzy by jim měly pomoci. Např. identifikace rizikových faktorů a korelace v datech.

Veronika se věnuje telemedicíně – přístrojkem si lidi mohou měřit EKG v přirozeném prostředí a firma MDT z toho pak dělá vyšetření. V roce 2014 zpracují 4,5 mi­lionu EKG snímků.

Jsem rád, že v Brně univerzity hodně tlačí na aplikace ma­tematických metod v biologii, biostatistiku a jiné hezké multidiscipli­nární obory.

Adam Herout (Angelcam): Bezpečnostní kamery jako zdroj dat

Adamova firma angelCam zkouší nad kamerovými daty i nesupervizované učení. Na škole se podílí na zajímavých výzkumech.

<amp-youtube layout=„responsive“ width=„584“ height=„329“ data-videoid=„S3msCdn3­fNM“ title=„Automatic Camera Calibration for Traffic Understanding [BMVC 2014]“></amp-youtube>

Ukázal také výstupy, jak kamerou zabírají ulici a sledují auta. Z toho pak identifikují nejen značky vozů, ale také modely (Fabia z určitého roku) a varianty (hatchback, combi).

Co z toho je tvář? Viz dřívější video z Devel.cz.

Existuje sada trénovacích obrázků ImageNet. Nad ImageNet se dají trénovat klasifikátory a sledovat, u kterých typů obrázků jsou výsledky nejsnažší a nejtěžší. Také jde o studnici zdrojů na výzkumy kla­sifikace obrázků.

Příklad využití:

Michal Koščík (PrF MU): Právní minimum datového analytika aneb Jak se nebát žalob a nenechat se okrást

Na Právnické fakultě se nikdo datovou analytikou nezabývá. Nemá to svou oborovou komoru, není to moc stanovené.

V zákonech jsou ale obecnější principy – získávání a zpracování informací, ukládání do databází a tvorba s šířením výstupů.

Michal zajímavě popsal, která z těchto částí je či není ochráněna právem. Nezmiňoval konkrétní čísla zákonů a paragrafy, ale oblasti, na které je třeba si dát pozor.

Lépe je ošetřeno, že není možné zastřelit jelena na akrobatické dráze.

Právo nechrání myšlenku samotnou, ale její objektivní vyjádření (např. sepsaným článkem či postupem) ano.

Práva třetích osob

Zacházení s databází

Igor Szöke (FIT VUT): Extrakce informací z řeči

Ze záznamu zvuku se dá vytěžit velké množství vlastností: Tři části mašinek na zpracování řeči. Využívané algoritmy: Přístupy, jak dosáhnout vyšší kvality: Vyvíjí KALDI, se kterým je prý jednoduché začít extrahovat informace z řeči.

Igor měl přednášku na Barcampu 2011 Dolování informací z řeči aneb „co ani Google neumí“.

Michael Stencl: Když BI dává smysl…

MichalJirkou Tobolkou udělal praktickou ukázku rychlého založení projektu v GoodData, nalití dat z Twitteru, tvorba jednoduchých reportů i náhled na XAE (alespoň jednoduchou lineární regresí).

Parádní, že se to stihlo během necelé hodiny. I když GoodData až moc neobjektivně proč­pívala celou konferencí od rána do večera, myslím, že to zcela zaslouženě. V Reporting Services od Microsoft SQL Serveru byste mezitím stihli leda tak zjistit, že si knihovnu pro Twitter sami nedoinstalujete.

https://twitter.com/…513850728449

Mezitím Michal povídal o různých problémech tradičního BI a udělal také pořádek v pojmech Business Intelligence, Data Discovery a Knowledge Discovery.

Obecné problémy tradičního BI dle výzkumu v článku What Agile Business Intelligence Really Means. Poznámky bokem:

Základní nástroje pro EDA (exploratory data analysis)

Histogram

Paretův diagram

Scatter plot (korelační diagram, bodový graf)

Parallel coordinates (v češtině Rov­noběžné souřadnice)

Součásti BI

  1. querying
  2. reporting
  3. OLAP
  4. alerty

Fáze Business Analytics

  1. Descriptive analytics – is about the past (reports, queries)
  2. Predictive analytics – predikce  - is about the future (forecasting predictions)
  3. Prescriptive analytics – provides advice based on predictions (optimizations and simulations)

Prý nejlepší doporučovací firma je Ayata.

Doporučovací systém Amazonu byl v článku z roku 2001. Patent hýr. Asi v tom žádné nové terno nevymyslíte.

Základní metody pro doporučování

Čekali byste možná tradiční asociační pravidla, že?Jak se to dá použít i jinak: Používáte-li automatická upozornění v Google Analytics, už jste to viděli:

Michal Illich (Wikidi): Deep learning

Obdobná Michalova prezentace jako už jinde dříve.

<amp-youtube layout=„responsive“ width=„584“ height=„438“ data-videoid=„br074kxT­MVc“ title=„Michal Illich – Wikidi – Strojové učení z rychlíku“></amp-youtube>

Seznam: poslední odkaz z homepage na novinky prý zkoušeli personalizovat.

Teslaautopilota na dálnice, nikoliv do městského provozu.

Už 1975 vymyšlen algoritmus zpětné propagace backpropagation.

Tři důvody, proč deep learning prospívá

1. hloubka sítí – umožněna vyšším výkonem CPU/GPU a pár triky

2. využití neoznačených dat

Princip: autoenkodére, nauč se, co je tam důležité.

Odkaz na Stanford. A ještě jeden pro kurz, kde se probírají auto­enkodéry.

3. odolnost proti přeučení

Výsledky deep learningu

kategorizace obrázků rozpoznávání řeči

Michalovy výzvy

  1. mít data nestačí.
    • použivejte je.
    • kreslit barevné grafy je základ, nikoliv plné využití dat.
    • teprve až se udělá změna/rozhodnutí
    • strojové učení by mělo urychlit tato rozhodnutí
    • např. zaměřením se na konkrétní uživatele
  2. strojové učení
    • nechte stroje samotné najít si vztahy v datech
    • najít společné vlastnosti
  3. kde může student pracovat se strojovým učením na reálných projektech
    • kaggle
    • vlastní projekty
    • akcelerátor
    • na univerzitě
    • v pár českých firmách
Deep Learning zkoušeli na akciových datech Hlavní oblasti rozvoje deep learningu: obraz, zvuk, lingvistika.

Martin Hlosta: OUAnalyse: Odhalování rizikových studentů v distančních kurzech na Open University

Kniha Think Stats

V rámci akce se představil český překlad knihy Think Stats: Pravděpodobnost a statistika pro programátory. Je volně ke stažení na adrese http://bit.ly/thinkstats_cs.

Na konferenci byl i první výtisk na prolistování. I v počtu dvou stovek účastníků tam přes celý den vydržel.

Jak vidíte, konference byla pořádná darda inspirace. I když se v oboru pohybuji dlouho, ujasnění některých souvislostí se mi dost hodilo. A z obrázků a odkazů vidíte, že jsem si začal hledat další související témata.

Moc díky Honzovi Mayerovi a jeho týmu, že tuto akci pořádali.

Aktualizováno 12. prosince o videa ze všech přednášek.

Exit mobile version