Scanpy 是一个基于 Python 分析单细胞数据的软件包,内容包括预处理,可视化,聚类,拟时序分析和差异表达分析等

数据:Anndata


anndata - Annotated data — anndata

信息 数据类型
X 矩阵信息 ndarray
obs 观测值 pandas Dataframe
var 特征值 pandas Dataframe
uns 非结构化数据 dict
obsm 观测的多维注释 ndarray
obsp 观测的配对注释 ndarray
varm 特征的多维注释 ndarray
varp 特征的配对注释 ndarray

文件格式

fragments 文件

peak_counts 文件:h5ad

组件

1.pp:数据预处理

2.tl:额外添加信息

3.pl:可视化

数据预处理

1.sc.pp.filter_cells

sc.pp.filter_cells(data, min_genes=None, max_genes=None)

​ 细胞筛选,保留测序的基因数为[min_genes,max_genes]的细胞 (注意,min和max不能同时传递),运行过后obs多个一个属性 n_genes
2.sc.pp.filter_genes

sc.pp.filter_genes(data, min_cells=None, max_genes=None)

​ 基因筛选,保留在细胞出现次数为[min_cells,max_cells]的基因 (注意,min和max不能同时传递),运行过后var多个一个属性n_cells
3.sc.pp.highly_variable_genes

sc.pp.highly_variable_genes(data,
							n_top_genes=None,
							min_disp=0.5
							max_disp=inf,
							min_mean=0.0125,
							max_mean=3)

4.sc.pp.normalize_total

sc.pp.normalize_total(adata, target_sum=None, inplace=True)

​ 归一化扩展,对每个细胞进行标准化,以便每个细胞在标准化后沿着基因方向求和具有相同的总数target_sum

可视化

1.sc.pl.highest_expr_genes

sc.pl.highest_expr_genes(adata, n_top=20)

​ 可视化所有细胞中计数最多的20个基因,同时计算百分比含量