Poznámky z akce II. Prague R Meetup

Okolo statistického jazyka a nástroje R se točí čím dál více lidí. Josef Šlerka v úterý 30. června zor­ganizoval již druhý sraz, kde byla možnost sdílet své zkušenosti i strasti s erkem. Během večera jsem si psal pár poznámek ke 3 prezentacím a říkal jsem si, že by se vám z toho mohlo něco hodit.

Jestli vám ještě R nic neříká, můj dřívější soupis vhodných zdrojů vás jistě potěší.

1) Pusťte své R do oblak – Petr Šimeček, chovatel myší

Biostatistik pra­cující v Jackson laboratory ve Státech. Ukazoval R v Dockeru na Digital Ocean.
Co mne zaujalo:
  • Docker běží i pod Windows.
  • Stáhne si to virtuální mašinu z Dockerhubu, tam je 45 tisíc veřejně přístupných kódů.
  • Lze si takto zafixovat stejnou verzi R i celé prostředí, stejně jako na nějakém virtuálním image. Ideální pro práci větších týmů nebo výuku, kde musí být všechna prostředí ve stejné výchozí pozici.
  • Pro R už je připravený obraz Rocker, v něm varianta r-studio s RStudio Serverem.
  • Balíček hadleyverse má připraveny všechny podstatné balíčky včetně ggplot2.
  • Docker se dá hostovat přes Microsoft Azure MarketplaceA­mazon EC2 Container Service nebo Google Cloud.
  • Petr měl zkušenosti s hostováním přes službu Digital Ocean (aff odkaz Petra).
    • Je jednodušší na ovládání.
    • 10 dolarů by mělo stačit na 2 měsíce při paměti 1 GB; zhruba cent za hodinu na stroj.
    • Je to čistě Linux, Ubuntu.
    • Předinstalované aplikace – Docker
  • Za ShinyApps.io už se začalo platit, je levnější jet přes Digital Ocean.
  • Petr se k Dockeru přihlašuje svým SSL certifikátem přes SSH.
  • Odkaz na realizaci RStudia v cloudu: http://sas-and-r.blogspot.cz/2014/12/­rstudio-in-cloud-for-dummies-20142015.html
  • Petrův blog: http://applyr.blogspot.cz/

2) Anastassiya Zidkova, genetička v MSD

  • PhdD z oboru Molekulární a buněčné biologie, genetiky a virologie.
  • Používá admixture model, sleduje historickou migraci obyvatel dle jejich stopy v DNA.
  • Líbila se mi celá prezentace, ale nezapisoval jsem si. Proklikejte si https://github.com/…azie/Rmeetup
  • Co mne zaujalo: když A­nastázie potřebuje ukázat nějakou složitou vizualizaci, vsune před to v prezentaci pří­pravný slide, aby lidem představila, o co půjde.

…a po takovém slidu již následuje brutalitka.

3) Tomáš Hovorka a Martin Horáček, Median

  • Provozují něco jako peoplemeter, ale pro rádia – aplikace v mobilním telefonu, pořád poslouchá zvuk, posílá data do Medianu, dělají audiomatching s tím, co se vysílalo v rádiích.
  • Denně se z telefonu přenáší jen 1 MB dat (jen hashů).
  • Pokud vás ten projekt zajímá více, projděte si smlouvu s Českým rozhlasem.
  • Zajímavé postřehy např. o přepínání rádia po hodinových programech.
  • Kluci sdíleli své pragmatické zku­šenosti s rozvojem takového systému.
  • Přijímání dat přes C#, ukládá do SQL.
  • R pak čistí data, dělá reporting.
  • Z prototypu se stal produkt, co už pět let funguje.
  • Rychlejší vzhledem k agilnímu vývoji.
  • Cca 60 R souborů + 5 Sweave šablon
    • Kombinace texu a R.
    • Šablony na týdenní reporty a měsíční, pak to projedou pdflatexem.
    • Tehdy asi ještě nebyl R Markdown.
  • Načítají data z MSSQL, zprocesují, uloží zpět do MSSQL včetně toho reportu
  • Rabbit na fronty, distribuce úloh v clusteru audiomatchingu.
  • Knihovna rmongodb.
  • Rodbc pro MSSQL, mySQL.
  • Logování přes sink.
  • tryCatch kvůli odladění, proč něco spadlo.
  • daří se jim udržet zarovnání kódu, protože Rstudio to dělá samo.
  • Používají krásné poznámky v kódu: PRASE/TODO.
  • Mají vlastní skript na hledání funkcí ve skriptech, které už se nikde nepoužívají.
  • Na version control používají TortoiseSVN.
  • RShiny - když jim napočítání trvá dlouho, používají tlačítko obnovit.
    • Pro ladění mají v Shiny záložku session log, kde trackují chyby.
  • Statistiky dělají hodně v rámci SQL.
  • Výpočty dělají v C#.
  • V R kreslí grafy.
  • Neumí vykreslit „č“ v pdf grafu, aby byl vidět v Acrobatu. Kdo to vyřešil, ať se jim ozve.

Ohlášky navíc

1) Děláte-li s Tableau, Petr Havlík 29. července pořádá Tableau User Group v Praze.
2) Máte někdo zkušenost s budováním prediktivního systému? Tedy návrh architektury takového systému, zapojení nějakého modelu do produkčního prostředí, hlídání kvality a zlepšování predikcí? Napište mi.

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *