您现在的位置：矽肺 >> 疾病病因 >> 正文

样本量计算和实例分析

时间:2016-11-30 1:09:19 来源:矽肺

样本量计算和实例分析

基本概念

●总体（population）：是根据研究目的确定的同质的所有观察单位某种变量值的集合。

特征

同质性。构成总体的各个单位必须具有某一方面的共性，这个共性是我们确定总体范围的标准

大量性。总体是由许多单位所组成的，而不是只有个别单位。

差异性。总体单位之间，除了必须在某一方面有共性之外，在其他方面必然存在差异。

●样本（sample）和样本含量（samplesize）：根据研究目的从研究总体中随机抽取反映总体特征的部分观察单位，其实测值组成样本，样本中的观察单位数称作样本例数（n）或样本含量。

●随机抽样（randomsampling）：把从研究总体中按一定的概率规则，抽取部分观察单位进行研究的方法。

●随机：指研究总体中的每个观察单位按其在总体中的分布情况，被抽到样本中的机会均等且互不影响。

为什么要计算样本量

●样本量过小：无论实验结果是否存在差异，均不能排除因随机误差造成的假阳性或假阴性错误[Ⅱ类错误（β）、Ⅰ类错误（α）]。

假设检验是反证法的思想，依据样本统计量作出的统计推断，其推断结论并非绝对正确，结论有时也可能有错误，错误分为两类。

Ⅰ类错误是指拒绝了实际上成立的H0，为“弃真”的错误，其概率通常用α表示。当P0.05时，只可能犯Ⅰ类错误。

α可取单尾也可取双尾，假设检验时研究者可以根据需要确定值大小，一般规定=0.05，其意义为：假设检验中如果拒绝H0时，发生Ⅰ类错误的概率为5%或1%，即次拒绝的结论中，平均有5次是错误的。

Ⅱ类错误：不拒绝实际上不成立的H0，为“存伪”的错误，其概率通常用β表示。β只取单尾，假设检验时值一般不知道，在一定情况下可以测算出。

●样本量过大：造成人力、物力、时间和经济上的浪费。

影响样本含量的因素

●检验水准（α）：假设检验的第Ⅰ类错误概率α的大小。α越小，需要的样本含量愈多。对于相同α，双侧检验比单侧检验所需样本含量多。

●检验效能（1-β）：β即假设检验的第Ⅱ类错误概率α的大小。β越小，把握度越高，需要的样本含量愈多。l变异程度：总体中变异越大，所需样本含量越多。

●容许误差：实验研究中，以此来确定两组总体参数从专业上认为有差别的临界值，容许误差越小，需要的样本含量愈多。

样本含量的估计方法

●查表法

●计算法

●软件计算法

★样本含量估算就是在保证科研结论具有一定可靠性条件下，确定的最少观察例数。

样本均数与已知总体均数的比较

（或配对设计两样本均数的比较）

n为所需样本含量，或配对数；σ为总体标准差，或用s代替；δ为研究者提出的差值；μα和μβ分别为与检验水准α和第二类错误β概率所对应的μ值，α有单双侧之分，β只取单侧。在未指定δ情况下，δ/σ进行适当的假定来估算。

常用的μ值

例：用某药治疗矽肺患者，估计可增加尿矽排出量，其标准差为25mg/L，若要求以α=0.05，β=0.10的概率，能辨别出尿矽排出量平均增加10mg/L，问需要用多少例矽肺病人做试验？

●本例u0.05=1.，u0.10=1.，δ=10，s=25，代入公式，

●n=（（1.+1.）/（10/25））2+0.5*1.*1.=54.9

●n取55

样本量计算PASS软件实现

两样本均数的比较

●s：两样本标准差的估计值，假设两组相等；δ：容许误差此处以两组均数之差值作为估计值。

例：A、B两处理组的动物冠状静脉窦血流量实验，A处理平均增加血流量1.8ml/min，B处理平均增加血流量2.4ml/mim。已知两处理标准差为1.0ml/min，取α=0.05，β=0.10，欲得出有差别的结论，需观察多少只动物？

●本例u0.05=1.96，u0.10=1.，δ=2.4-1.8=0.6ml/min，s=1.0ml/min。

●n1=n2=2*[(1.96+1.)*1.0/0.6]**2+0.25*1.96*1.96=59.4≈60

样本量计算的PASS软件实现

多个样本均数的比较

●K为组数，,为第i组的均数和标准差。

●先以α、β、ν1=k-1，ν2=∞，查ψ值表,代入公式求得n(i)；再次以ν1=k-1，ν2=k(n(i)-1),查查ψ值表，代入公式，反复迭代，直至n稳定时，即为每组所求样本含量

例：拟用A,B,C3种方案治疗血红蛋白小于g/L,的婴幼儿贫血患者，比较3种治疗方案的疗效，经预实验结果如下表。取α=0.05，β=0.10，若要得出有差别的结论，至少需要观察多少例患者？

样本量计算的PASS软件实现

样本率与总体率比较

●当率服从二项分布时，其值界于0.2-08之间，样本含量估计公式：

●p、π分别为样本率和总体率；当率偏离上述范围，估计公式为：

简单说，二项分布就是二分类的资料

例：慢性肾炎治疗采用常规、公认的治疗方法，控制率为30%,现试验某新药，其控制率要求达到50%，设α=0.05（单侧），β=0.10，若要得出新药比常规药物疗效好的结论，至少需要观察多少病例？

●本例u0.05=1.，u0.10=1.，p=0.50，π=0.30

●n=（1.+.1）2×0.30×（1-0.30）/（0.50-0.30）2=44.98≈45

●试验至少需要45名病例

样本量计算的PASS软件实现

两独立样本率比较

●当率服从二项分布时，其值界于0.2-08之间，样本含量估计公式：

●p1、p2分别为两样本率估计值，p=（p1+p2）/2；当率偏离上述范围，估计公式为：

例：据某院初步观察，用甲、乙两种药物治疗慢性气管炎患者，显效率甲药为45%，乙药为25%。拟进一步试验，若要得出有差别的结论，每组需要观察多少例病人。

●本例u0.05=1.96，u0.10=1.，p1=0.45，p2=0.25，p=（0.45+0.25）/2=0.35

●n=2×(1.96+1.)2×0.35×(1-0.35)/(0.45-0.25)2=.56≈

●每组需要观察名病人。

样本量计算的PASS软件实现

配对设计两样本率比较

例：拟研究甲、乙两种血清学方法检测鼻咽癌患者的检出率是否相等，经预测试已知甲法检出率为65%，乙法检出率为85%，甲乙两法检出率为60%，若要得出有差别的结论，每组需要观察多少例？

样本量计算的PASS软件实现

多个样本率比较

●pmax、pmin分别是最大率和最效率，当仅知两个率之差pd是，则pmax=0.5+pd/2，pmin=0.5-pd/2。Λ是以α、β、ν=k-1，查表得出。

例：某医师观察中医疗法、免疫疗法和中西医结合疗法治疗慢性迁延性乙型肝炎的效果，估计各方法的有效率分别是40%、25%和30%，欲得出有无差别的结论，各组需要多少病例？

重复测量设计数据的样本含量估计

直线相关分析

●r为总体相关系数的估计值。

例：根据以往经验得知，血硒与发硒含量间直线相关系数为0.8.若想得到相关系数有统计学意义的结论，应调查多少人？

●本例u0.05=1.96，u0.10=1.，r=0.8

●n=11.7≈12

●应调查12人。

样本量计算的PASS软件实现

Logistic回归

例：研究指标：包括一般指标：性别、年龄、教育程度、婚姻状况、居住情况、收入情况、医疗保险类型、日常支出费用、保姆照料情况，跌倒指标有：跌倒态度、跌倒史、日常生活功能、认知功能、失禁、晕厥、慢性疼痛、睡眠障碍、药物种类、肌无力、视力问题、听力问题、营养问题、疾病等22个分析因素。

●样本量：N=22*（10-15）≈-例

通过样本量计算公式算出的样本量有时与PASS软件计算得出的结果不一致，原因是PASS软件的计算公式与本文给出的不一致，最终用那个值，不必纠结，样本量计算本来就是估算研究设计大致需要多大的样本。

北京白癜风治疗最好医院是哪家
北京最好的白癜风医院电话

转载请注明：http://www.aodwm.com/jbby/2256.html