Statistika#
Úvod#
Kvantitativní data jsou často shrnuta a analyzována statistickými metodami a vizualizována pomocí grafů/grafů/diagramů. Statistické metody odhalují kvantitativní trendy, vzorce a odlehlé hodnoty v datech, zatímco grafy a grafy je pomáhají zprostředkovat publiku. Provedení vhodné statistické analýzy a výběr vhodného typu grafu pro vaše data, identifikace jejich potenciálních úskalí a věrná realizace analýzy nebo generování grafu pomocí vhodného softwaru jsou nezbytné pro zálohování experimentálních závěrů daty a dosažení komunikačních cílů.
Redukce rozměrů#
Co to je?#
Redukce rozměrů (také nazývaná redukce dimenze) se zaměřuje na mapování vysokorozměrných dat do méněrozměrného prostoru, aby bylo možné lépe odhalit trendy a vzory. Algoritmy provádějící tento úkol se snaží při snižování dimenzionality dat uchovat co nejvíce informací: toho je dosaženo přiřazováním skóre důležitosti jednotlivým znakům, odstraňováním nadbytečnosti a identifikací neinformativních (například konstantních) znaků. Redukce rozměrů je důležitým krokem v kvantitativní analýze, protože umožňuje lépe spravovat data a snáze je vizualizovat. Je to také důležitý krok předzpracování v mnoha následných analytických algoritmech, jako jsou klasifikátory strojového učení.
📏 Jak to udělám?
Nejtradičnější technikou redukce rozměrů je analýza hlavních komponent (PCA)50. Stručně řečeno, PCA obnovuje lineární transformaci vstupních dat do nového souřadnicového systému (hlavních komponent), který koncentruje variace do svých prvních os. Toho je dosaženo spoléháním se na klasickou lineární algebru, počítáním vlastního rozkladu kovarianční matice dat. Výsledkem je, že první 2 nebo 3 hlavní komponenty poskytují nízkorozměrnou verzi distribuce dat, která je věrná rozptylu, který byl původně přítomen. Pokročilejší metody redukce rozměrů, které jsou populární v biologii, zahrnují t-distribuované stochastické vkládání sousedů (t-SNE) a Uniform Manifold Approximation and Projection (UMAP). Na rozdíl od PCA jsou tyto metody nelineární a mohou proto využívat složitější vztahy mezi prvky při vytváření reprezentace nižší dimenze. To však něco stojí: t-SNE i UMAP jsou stochastické, což znamená, že výsledky, které produkují, jsou vysoce závislé na výběru hyperparametrů a mohou se lišit v různých běhech.
⚠️ Kde se může něco pokazit?
Ačkoli snížení dimenzionality může být velmi užitečné pro průzkum a analýzu dat, může také vymazat informace nebo strukturu, které jsou relevantní pro studovaný problém. Skvěle to ilustruje [soubor dat Datasaurus] (https://cran.r-project.org/web/packages/datasauRus/vignettes/Datasaurus.html), který ukazuje, jak se velmi odlišně vyhlížející soubory měření mohou stát nerozeznatelnými. když je popsána malou sadou souhrnných statistik. Nejlepším způsobem, jak toto riziko minimalizovat, je začít vizuálním prozkoumáním dat, kdykoli je to možné, a pečlivou kontrolou všech základních předpokladů použité metody redukce rozměrů, aby bylo zajištěno, že platí pro uvažovaná data. Redukce rozměrů může také zlepšit a odhalit vzory, které nejsou biologicky relevantní, kvůli šumu nebo systematickým artefaktům v původních datech (viz část Korekce dávkového efektu níže). Kromě aplikace normalizace a dávkové korekce na data před snížením dimenzionality nabízejí některé metody redukce dimenzionality také takzvané strategie regularizace pro zmírnění tohoto problému. Nakonec by měl být zvážen jakýkoli vzor identifikovaný v datech s omezenými rozměry, přičemž je třeba mít na paměti biologický kontext dat, aby bylo možné výsledky vhodně interpretovat.
📚🤷♀️ Kde se mohu dozvědět více?
Oprava dávkového efektu#
Co to je?#
Dávkové efekty jsou systematické variace napříč vzorky korelující s experimentálními podmínkami (jako jsou různé denní doby, různé dny v týdnu nebo různé experimentální nástroje), které nesouvisejí se sledovaným biologickým procesem. Dávkové efekty musí být zmírněny před provedením srovnání napříč několika datovými soubory, protože ovlivňují reprodukovatelnost a spolehlivost výpočetní analýzy a mohou dramaticky zkreslit závěry. Algoritmy pro korekci dávkového efektu to řeší identifikací a kvantifikací zdrojů technických variací a úpravou dat tak, aby byly minimalizovány, zatímco biologický signál je zachován. Většina metod korekce dávkového efektu byla původně vyvinuta pro data microarray a sekvenační data, ale lze je upravit pro příznakové vektory extrahované z obrázků.
📏 Jak to udělám?
Dvě z nejpoužívanějších metod pro korekci dávkového efektu jsou ComBat a Surrogate Variable Analysis (SVA), v závislosti na tom, zda jsou zdroje dávkových efektů známy a priori nebo ne. Stručně řečeno, ComBat zahrnuje tři kroky: 1) rozdělení dat do známých šarží, 2) odhad účinku šarže přizpůsobením lineárního modelu, který zahrnuje šarži jako kovariát a 3) úpravu dat odstraněním odhadovaného účinku šarže z každý datový bod. Naproti tomu SVA se zaměřuje na identifikaci „náhradních proměnných“, které zachycují neznámé zdroje variability v datech. Náhradní proměnné lze odhadnout pomocí metod lineární algebry (jako je dekompozice singulárních hodnot) nebo pomocí modelu Bayesovské faktorové analýzy. Bylo prokázáno, že SVA snižuje nepozorované zdroje variability, a proto je zvláště nápomocný, když je identifikace možných příčin dávkových efektů náročná, ale přináší vyšší výpočetní náklady než ComBat.
⚠️ Kde se může něco pokazit?
Jakkoli je to pro analýzu důležité, může se dávková korekce efektu pokazit, když se toho udělá příliš mnoho nebo příliš málo. K nadměrné i nedostatečné korekci může dojít, když se metody nepoužívají správně nebo když nejsou splněny jejich základní předpoklady. V důsledku toho mohou být buď odstraněny biologické signály (v případě nadměrné korekce), nebo mohou zůstat irelevantní zdroje variací (v případě nedostatečné korekce) – obojí může vést k nepřesným závěrům. Korekce efektu šarže může být obzvláště obtížná, když existuje podezření, že se sledovaná biologická variace zaměňuje se šarží. Zejména v tomto případě (ačkoli vždy dobrý přístup) by první linie boje proti dávkovým efektům měly být promyšlený experimentální design a pečlivá kontrola kvality, stejně jako vizuální průzkum data52. Vynesení dat po jednotlivých šaržích před aplikací jakékoli korekce může pomoci potvrdit (nebo potvrdit), že pozorované trendy jsou ve všech šaržích podobné.
Testování normality#
Co to je?#
Testování normality je o posouzení, zda data sledují Gaussovo (nebo normální) rozdělení. Protože Gaussovo rozdělení se v přírodě často vyskytuje a má důležité matematické vlastnosti, je normalita základním předpokladem v mnoha široce používaných statistických testech. Když je tento předpoklad porušen, jejich závěry nemusí platit nebo může být závěr chybný. Testování normality je proto důležitým krokem v procesu analýzy dat před jakýmkoliv druhem statistického testování.
📏 Jak to udělám?
Normální distribuce dat může být kvalitativně posouzena pomocí grafu, například spoléháním se na histogram. Kvantitativně vhodnější statistické metody, jako je Kolmogorov-Smirnov (KS) a Shapiro-Wilkův test (kromě mnoha dalších), udávají, jak moc se pozorované rozložení dat odchyluje od Gaussova rozdělení. Tyto testy se obvykle vrátí p-hodnotu spojenou s hypotézou, že data jsou vzorkována z Gaussova rozdělení. Vysoká p-hodnota naznačuje, že data nejsou v rozporu s normálním rozdělením, ale není dostatečná k prokázání, že skutečně sledují Gaussovu hodnotu. P-hodnoty menší než předem definovaný práh významnosti (obvykle 0,05) znamenají, že data nejsou odebrána z normální distribuce.
⚠️ Kde se může něco pokazit?
Ačkoli mnoho „standardních“ statistických metod bylo navrženo s předpokladem normality, existují alternativní přístupy pro data, která nemají normální distribuci. Mnoho biologických procesů má za následek multimodální „stavy“ (například diferenciace), které ve své podstatě nejsou Gaussovské. Testování normality by proto nemělo být zaměňováno za hodnocení kvality dat: pouze informuje o typech nástrojů, které je vhodné použít při jejich analýze.