初步结果:A组:1、3、9、12、13、15号动物(6只);B组:4、5、7、8、10号动物(5只),C组:2、6、11、14号动物(4只)。
初分结果是A组多1只(6只),C组少1只(4只),故需从A组调整1只至C组。再查随机数字表,在上述第15个随机数字90后的1个随机数是16,用随机数16除以A组动物数6,余4,则应将A组第4号动物调至C组(即第12号动物),使三组动物数相等,故最后分组是:
A组:1、3、9、13、15号。B组:4、5、7、8、10号。C组:2、6、11,14、12号。
(3)计算器随机数法 函数型的科学计算器,均有随机数发生功能键(如CASIO fx-180P与fx-3600P型号等,按INV-RAN键)。
两组样本分配:凡按INV-RAN键显示随机数>0.500者分在甲组,<0.500者分在乙组。若其中一组已达N/2,则停按,余下样本分在另一组。
多组(三组以上)样本分配:参见程序型计算器使用有关书籍。
重复原则
重复(replication)有两层含意:一是指实验的样本量必须足够大,在相同实验条件下有充分的重复,以避免实验结果的偶然性,突出表现其必然规律;二是指任何实验结果的可靠性应经得起重复实验的考验,重复实验是检查实验结果可靠性的惟一方法。一个不可重复的研究是没有科学性的。在此重点讨论第一层含意。
重复的目的有两个,一是稳定标准差,获得实验误差估计值;其二可使均值接近真实值,使实验组与对照组差异能够准确地显露出来。在正确地估计实验误差与了解组间差异的基础上,便可科学地做出统计推断,结论较为可靠。
样本大小的影响因素
总体参数(δ) 指两个样本均数或两个率比较时,其总体均数或率的差值(δ=|μ1-μ2|, δ=|π1-π2|)。δ越大,说明差异越明显,需要的样本量越小。虽总体参数δ未知,但可根据预备实验两样本均数或样本率间的差异进行估计。
实验误差 实验方法越准确,个体间差异越小,实验误差必然较小,越易达到统计学的显著性,所需样本越小;否则,样本要大。
检验水准 实验所需样本数与实验设计规定的检验水准成反比,检验水准α定得愈低,所需样本含量愈大,α= 0.01所需样本数大于α=0.05所需样本数。
检验效能 检验效能(1-β)指当两总体确有差别时,按检验水准发现它们有显著性差别的能力。检验效能由β(第Ⅱ类错误的概率)大小所决定,当β=0.1,β=0.2时,相应的检验效能为0.8和0.9。检验效能越大,所需要的样本量也越大。
资料性质 一般来说,在同等情况下,数值变量资料所需样本量少于分类变量。数值变量需要较少样本即可达到统计学的显著,而分类变量需要较大的样本量才能达到统计学的显著。但如果分类变量结果上相差悬殊,对照组全为阴性,实验组全为阳性,则少数样本也可达到统计学的显著性。
实验结果的可能性 双向结果(存在A≥B或A≤B两种可能性)所需样本数多,单向结果(只存在A≥或A≤B 一种可能性)所需样本数少。
实验设计的类型 从常用实验设计来看,完全随机实验设计所需样本多,配对设计与随机区组实验设计所需样本较少,拉丁方实验设计所需样本更少。与常用实验设计相比,序贯实验设计所需样本数又可少30%~50%。
样本大小的估计方法
样本含量越大或重复次数越多,越能反映变异的客观真实情况。但若认为样本含量过大,即使无专业意义的很小差异,也可得到有统计学意义的结论,实则浪费人力物力。若样本含量过小,即使有专业意义的差异,也可能没有统计学意义,造成假阴性错误。因此,正确估计样本含量十分重要。
粗估法
根据以往经验确定,如在动物实验时,大动物(犬,猫)5~15只/组,中等动物(兔、豚鼠)10~20只/组;小动物(大鼠、小鼠)15~30只/组。临床研究一般难治愈的疾病,疗效显著时(如痛症)5~10例即可;急重病死亡率高的(如休克、心衰、肾衰、呼吸衰竭)需30~50例,一般病和慢性病300~500例;按WHO规定,血清流行病学调查需300~600例,一般流行病学调查和正常值调查则常需千例以上。恶性肿瘤的流行病学调查至少10万人口以上,多因素分析时,样本含量数是研究因素数的5~10倍以上。
计算法
(1) 计量资料比较样本含量
样本均数与总体均数比较或配对均数比较的样本含量:样本均数与总体均数比较样本量估计按(6-1)计算
(2-1)
式中,n为所需样本含量;s为总体标准差的σ估计值:δ为容许差,μ μβ由界值表(υ=∞)得,有单侧值和双侧值之分,μβ只取单侧值。
例如,用某药物治疗矽肺病患者,估计可增加硅尿排出量,其标准差为89.0mmol/L,若要求,β=0.10的概率,能辨别出尿硅排除量平均增加35.6mmol/L,试问需要多少硅矽肺病人做实验?
本δ=35.6 s=89.0 单侧
μ0.1=1.282 代入公式2-1得:
2=53.5 取54。
故可认为需治疗54名硅肺病人。即以54例进行试验,如该药能增加尿硅排出量,则有90%(1-β=0.9)的把握可得出有差别的结论。
查表法:查表,单侧α=0.05,β=0.10
δ/σ=35.6/89.0=0.4,得n=55,与上述计算结果相近。
在配对实验中,若为前后或左右配对,求出r,为所需样本例数:若为异体配对,求出n为所需样本对子数。
均衡性原则
均衡的意义
在医学科研设计中还需考虑的一个原则是均衡(balance)原则,即实验组和对照组或各实验组之间,除了观察的受试因素外,其他一切条件应尽可能相同或一致,如动物的种属、品系、窝别、年龄、性别、体重、健康状况、生理条件、饲养环境等要保持一致。如果受试对象是病人,则要求病人的病种、病期、病型、病程、年龄、性别、生活、社会、心理等因素保持均衡一致,以便更好地避免偏性,减少误差,提高实验的精确性。
均衡的方法
(1)交叉均衡法 无论是在动物实验还是临床观察,尽管研究者经过精心策划,企图使实验组和对照组非处理因素达到尽可能一致,但要达到绝对一致是难以做到的。在不能达到完全一致或有的因素无法均衡,或还有一些不可预料到的非处理因素等情况下,采用交叉均衡方法基本可以将两组间的实验条件均衡。例如,某医生研究评价一种中药预防甲肝的效果,作者在甲大学选10000名健康大学生,其中男、女各5000人,服用某中药干预作为实验组:在乙大学也选同年龄、同年级、其他条件与甲大学基本一致的大学生10000名,男、女各5000人,服用安慰剂作为对照组。经过两年观察,甲大学10000人中甲肝发病率明显下降,而乙大学甲肝发病率有上升趋势,两校甲肝发病率差异有显著意义(P<0.01),结论表明;该中药预防甲肝有显著效果。这一设计设置了对照组,且两组间年龄、性别和其他条件基本一致,初看设计似乎合理,无可挑剔,但仔细推敲这种设计是不能得出上述结论的。它的致命缺陷是实验设计不均衡。因为甲肝的发病与饮食卫生,饮水卫生、个人卫生有关,而设计将甲大学全作为实验组,乙大学全作为对照组,很难均衡两所大学间许许多多的卫生状况,如果乙大学食堂卫生条件差于甲大学,两组之间更没有可比性了,所以上述结论很可能受均衡性影响而产生了偏倚。但若采用交叉均衡办法,即每个学校观察人数、性别及其他条件仍然一样,所不同的就是将甲大学和乙大学观察对象1/2作为处理组,1/2作为对照组,然后分析实验组与对照组之间甲肝发病率差异。这样,即使甲大学与乙大学之间有一些条件难以均衡,或还有一些未预料到的非处理因素,通过交叉均衡设计后两组之间就均衡了。当然,在设计时首先还是要尽可能选择条件一致的两个观察单位,不能依靠交叉把所有的非处理因素都均衡掉。