统计思维程序员数学之概率统计上
白癜风怎治疗 http://m.39.net/pf/a_7064742.html
统计思维:程序员数学之概率统计是一本结合了程序与概率统计的书,内容比较浅显易懂也配有相应的python程序和一些数据。刚好数理统计快要考试了,翻翻这本书有些不懂的知识点有时候就豁然开朗了。
全书最重要的几个概念:
PMF(ProbabilityMassFunction,概率质量函数)
CDF(CumulativeDistributionFunction,累积分布函数)
PDF(ProbabilityDensityFunction,概率密度函数)
somenotes:
第一章
经验之谈(anecdotalevidence)
个人随意收集的证据,而不是通过精心设计并经过研究得到的。
直观效应(apparenteffect)
表示发生了某种有意思的事情的度量或汇总统计量。
人为(artifact)
由于偏差、测量错误或其他错误导致的直观效应。
队列(cohort)
一组被调查者。
横断面研究(cross-sectionalstudy)
收集群体在特定时间点的数据的研究。
字段(field)
数据库中组成记录的变量名称。
纵贯研究(longitudinalstudy)
跟踪群体,随着时间推移对同一组人反复采集数据的研究。过采样(oversampling)为了避免样本量过少,而增加某个子群体代表的数量
总体(population)
要研究的一组事物,通常是一群人,但这个术语也可用于动物、蔬菜和矿产。
原始数据(rawdata)
未经或只经过很少的检查、计算或解读而采集和重编码的值。
重编码(recode)
通过对原始数据进行计算或是其他逻辑处理得到的值。
记录(record)
数据库中关于一个人或其他对象的信息的集合。
代表性(representative)
如果人群中的每个成员都有同等的机会进入样本,那么这个样本就具有代表性。
被调查者(respondent)
参与调查的人。
样本(sample)
总体的一个子集,用于收集数据。
统计显著(statisticallysignificant)
若一个直观效应不太可能是由随机因素引起的,就是统计显著的。
汇总统计量(summarystatistic)
通过计算将一个数据集归结到一个数字(或者是少量的几个数字),而这个数字能表示数据的某些特点。
表(table)
数据库中若干记录的集合
第二章描述性统计量
区间(bin)
将相近数值进行分组的范围。
集中趋势(centraltendency)
样本或总体的一种特征,直观来说就是最能代表平均水平的值。
临床上有重要意义(clinicallysignificant)
分组间差异等跟实践操作有关的结果。
条件概率(conditionalprobability)
某些条件成立的情况下计算出的概率。
分布(distribution)
对样本中的各个值及其频数或概率的总结。
频数(frequency)
样本中某个值的出现次数。
直方图(histogram)
从值到频数的映射,或者表示这种映射关系的图形。
众数(mode)
样本中频数最高的值。
归一化(normalization)
将频数除以样本数量得到概率的过程。
异常值(outlier)
远离集中趋势的值。
概率(probability)
频数除以样本数量即得到概率。
概率质量函数?(ProbabilityMassFunction,PMF)
以函数的形式表示分布,该函数将值映射到概率。
相对风险(relativerisk)
两个概率的比值,通常用于衡量两个分布的差异。
分散(spread)
样本或总体的特征,直观来说就是数据的变动有多大。
标准差(standarddeviation)
方差的平方根,也是分散的一种度量。
修剪(trim)
删除数据集中的异常值。
方差(variance)
用于量化分散程度的汇总统计量
第3章累积分布函数
累积分布函数(CDF)的定义,来看个例子,给定一个样本{1,2,2,3,5}。
下面是其中某些值的CDF:
CDF(0)=0
CDF(1)=0.2
CDF(2)=0.6
CDF(3)=0.8
CDF(4)=0.8
CDF(5)=1
条件分布(conditionaldistribution)
在满足一定前提条件下计算出的分布
累积分布函数?(CumulativeDistributionFunction,CDF)
将值映射到其百分等级的函数。
四分差(interquartilerange)
表示总体分散情况的值,等于75和25百分等级之间的差。
百分位数(percentile)
与百分等级相关联的数值。
百分等级(percentilerank)
分布中小于或等于给定值的值在全部值中所占的百分比。
放回(replacement)
在抽样过程中,“有放回”表示对于每次抽样,总体都是不变的。“无放回”表示每个元素只能选择一次。
再抽样(resampling)
根据由样本计算得到的分布重新生成新的随机样本的过程。
第4章连续分布
迄今为止所介绍的分布都是经验分布(empiricaldistribution),因为这些分布都是基于经验观察的,其中的样本都是有限的。
另一种分布是连续分布(continuousdistribution),它的特点是其CDF是一个连续函数(跟阶跃函数完全不同)。很多实际现象都近似于连续分布。
指数分布的CDF是:
CDF(x)=1-e^(-λx)
参数λ决定了分布的形状
帕累托分布是以经济学家维尔弗雷多·帕累托(VilfredoPareto)的名字命名的,他曾用这个分布来描述财富分布情况(详见
转载请注明:http://www.jmrrc.com/swzdzd/11461.html
- 上一篇文章: 高阶投资,要学会用统计思维看问题
- 下一篇文章: 苏州12星座情人节餐厅约会地点全攻略