样本量计算和实例分析
基本概念
●总体(population):是根据研究目的确定的同质的所有观察单位某种变量值的集合。
特征
同质性。构成总体的各个单位必须具有某一方面的共性,这个共性是我们确定总体范围的标准
大量性。总体是由许多单位所组成的,而不是只有个别单位。
差异性。总体单位之间,除了必须在某一方面有共性之外,在其他方面必然存在差异。
●样本(sample)和样本含量(samplesize):根据研究目的从研究总体中随机抽取反映总体特征的部分观察单位,其实测值组成样本,样本中的观察单位数称作样本例数(n)或样本含量。
●随机抽样(randomsampling):把从研究总体中按一定的概率规则,抽取部分观察单位进行研究的方法。
●随机:指研究总体中的每个观察单位按其在总体中的分布情况,被抽到样本中的机会均等且互不影响。
为什么要计算样本量
●样本量过小:无论实验结果是否存在差异,均不能排除因随机误差造成的假阳性或假阴性错误[Ⅱ类错误(β)、Ⅰ类错误(α)]。
假设检验是反证法的思想,依据样本统计量作出的统计推断,其推断结论并非绝对正确,结论有时也可能有错误,错误分为两类。
Ⅰ类错误是指拒绝了实际上成立的H0,为“弃真”的错误,其概率通常用α表示。当P0.05时,只可能犯Ⅰ类错误。
α可取单尾也可取双尾,假设检验时研究者可以根据需要确定值大小,一般规定=0.05,其意义为:假设检验中如果拒绝H0时,发生Ⅰ类错误的概率为5%或1%,即次拒绝的结论中,平均有5次是错误的。
Ⅱ类错误:不拒绝实际上不成立的H0,为“存伪”的错误,其概率通常用β表示。β只取单尾,假设检验时值一般不知道,在一定情况下可以测算出。
●样本量过大:造成人力、物力、时间和经济上的浪费。
影响样本含量的因素
●检验水准(α):假设检验的第Ⅰ类错误概率α的大小。α越小,需要的样本含量愈多。对于相同α,双侧检验比单侧检验所需样本含量多。
●检验效能(1-β):β即假设检验的第Ⅱ类错误概率α的大小。β越小,把握度越高,需要的样本含量愈多。l变异程度:总体中变异越大,所需样本含量越多。
●容许误差:实验研究中,以此来确定两组总体参数从专业上认为有差别的临界值,容许误差越小,需要的样本含量愈多。
样本含量的估计方法
●查表法
●计算法
●软件计算法
★样本含量估算就是在保证科研结论具有一定可靠性条件下,确定的最少观察例数。
样本均数与已知总体均数的比较
(或配对设计两样本均数的比较)
n为所需样本含量,或配对数;σ为总体标准差,或用s代替;δ为研究者提出的差值;μα和μβ分别为与检验水准α和第二类错误β概率所对应的μ值,α有单双侧之分,β只取单侧。在未指定δ情况下,δ/σ进行适当的假定来估算。
常用的μ值
例:用某药治疗矽肺患者,估计可增加尿矽排出量,其标准差为25mg/L,若要求以α=0.05,β=0.10的概率,能辨别出尿矽排出量平均增加10mg/L,问需要用多少例矽肺病人做试验?
●本例u0.05=1.,u0.10=1.,δ=10,s=25,代入公式,
●n=((1.+1.)/(10/25))2+0.5*1.*1.=54.9
●n取55
样本量计算PASS软件实现
两样本均数的比较
●s:两样本标准差的估计值,假设两组相等;δ:容许误差此处以两组均数之差值作为估计值。
例:A、B两处理组的动物冠状静脉窦血流量实验,A处理平均增加血流量1.8ml/min,B处理平均增加血流量2.4ml/mim。已知两处理标准差为1.0ml/min,取α=0.05,β=0.10,欲得出有差别的结论,需观察多少只动物?
●本例u0.05=1.96,u0.10=1.,δ=2.4-1.8=0.6ml/min,s=1.0ml/min。
●n1=n2=2*[(1.96+1.)*1.0/0.6]**2+0.25*1.96*1.96=59.4≈60
样本量计算的PASS软件实现
多个样本均数的比较
●K为组数,,为第i组的均数和标准差。
●先以α、β、ν1=k-1,ν2=∞,查ψ值表,代入公式求得n(i);再次以ν1=k-1,ν2=k(n(i)-1),查查ψ值表,代入公式,反复迭代,直至n稳定时,即为每组所求样本含量
例:拟用A,B,C3种方案治疗血红蛋白小于g/L,的婴幼儿贫血患者,比较3种治疗方案的疗效,经预实验结果如下表。取α=0.05,β=0.10,若要得出有差别的结论,至少需要观察多少例患者?
样本量计算的PASS软件实现
样本率与总体率比较
●当率服从二项分布时,其值界于0.2-08之间,样本含量估计公式:
●p、π分别为样本率和总体率;当率偏离上述范围,估计公式为:
简单说,二项分布就是二分类的资料
例:慢性肾炎治疗采用常规、公认的治疗方法,控制率为30%,现试验某新药,其控制率要求达到50%,设α=0.05(单侧),β=0.10,若要得出新药比常规药物疗效好的结论,至少需要观察多少病例?
●本例u0.05=1.,u0.10=1.,p=0.50,π=0.30
●n=(1.+.1)2×0.30×(1-0.30)/(0.50-0.30)2=44.98≈45
●试验至少需要45名病例
样本量计算的PASS软件实现
两独立样本率比较
●当率服从二项分布时,其值界于0.2-08之间,样本含量估计公式:
●p1、p2分别为两样本率估计值,p=(p1+p2)/2;当率偏离上述范围,估计公式为:
例:据某院初步观察,用甲、乙两种药物治疗慢性气管炎患者,显效率甲药为45%,乙药为25%。拟进一步试验,若要得出有差别的结论,每组需要观察多少例病人。
●本例u0.05=1.96,u0.10=1.,p1=0.45,p2=0.25,p=(0.45+0.25)/2=0.35
●n=2×(1.96+1.)2×0.35×(1-0.35)/(0.45-0.25)2=.56≈
●每组需要观察名病人。
样本量计算的PASS软件实现
配对设计两样本率比较
例:拟研究甲、乙两种血清学方法检测鼻咽癌患者的检出率是否相等,经预测试已知甲法检出率为65%,乙法检出率为85%,甲乙两法检出率为60%,若要得出有差别的结论,每组需要观察多少例?
样本量计算的PASS软件实现
多个样本率比较
●pmax、pmin分别是最大率和最效率,当仅知两个率之差pd是,则pmax=0.5+pd/2,pmin=0.5-pd/2。Λ是以α、β、ν=k-1,查表得出。
例:某医师观察中医疗法、免疫疗法和中西医结合疗法治疗慢性迁延性乙型肝炎的效果,估计各方法的有效率分别是40%、25%和30%,欲得出有无差别的结论,各组需要多少病例?
重复测量设计数据的样本含量估计
直线相关分析
●r为总体相关系数的估计值。
例:根据以往经验得知,血硒与发硒含量间直线相关系数为0.8.若想得到相关系数有统计学意义的结论,应调查多少人?
●本例u0.05=1.96,u0.10=1.,r=0.8
●n=11.7≈12
●应调查12人。
样本量计算的PASS软件实现
Logistic回归
例:研究指标:包括一般指标:性别、年龄、教育程度、婚姻状况、居住情况、收入情况、医疗保险类型、日常支出费用、保姆照料情况,跌倒指标有:跌倒态度、跌倒史、日常生活功能、认知功能、失禁、晕厥、慢性疼痛、睡眠障碍、药物种类、肌无力、视力问题、听力问题、营养问题、疾病等22个分析因素。
●样本量:N=22*(10-15)≈-例
通过样本量计算公式算出的样本量有时与PASS软件计算得出的结果不一致,原因是PASS软件的计算公式与本文给出的不一致,最终用那个值,不必纠结,样本量计算本来就是估算研究设计大致需要多大的样本。
北京白癜风治疗最好医院是哪家北京最好的白癜风医院电话