干货 | 一文学习BE受试者例数确定

来源：中国新药杂志 2017年第26卷第24期

代骏豪，郑强

(北京大学药物信息与工程研究中心，工学院工业工程与管理系，北京 100871)

［摘要］ 生物等效性研究是评价仿制药与原研药质量和疗效—致性的关键研究，受试者例数的确定是其中的关键问题。受试者例数的确定方法与统计功效直接相关，而部分研究者对统计功效的理解不充分，并错误地使用“事后统计功效”评价试验设计、解释试验结果。本文明确了统计功效的概念，通过2个计算机模拟试验说明事后功效不具备实际意义，最后介绍了统计功效的敏感性分析方法，并分析了影响统计功效和样本量的根本因素。本文得出结论认为，生物等效性(bioequivalence，BE)研究中的统计功效属于厂家风险，应由厂家自行把握。而事后功效不论厂家、研究者还是监管者都不应当过分关注，应当将精力放在处方工艺研发和变异性控制上，提高仿制药与原研药的—致性和生物等效性研究的成功率。

［关键词］ 样本量；统计学功效；事前功效；事后功效；生物等效性(BE)

生物等效性(bioequivalence，BE)研究是评价仿制药与原研药质量和疗效—致性的关键研究，最常见的BE研究类型是以药动学参数为终点评价指标的BE研究，其中最常采用两制剂、两周期、两序列的交叉试验设计，通过双单侧检验或构造置信区间的方式证明受试制剂和参比制剂满足平均BE的判别标准。在BE研究中，如何确定受试者例数(样本量)常困扰研究者。样本量过小，试验容易失败；样本量过大，造成浪费。

要理解确定样本量的原则，研究者首先需要明确“等效”和“不等效”与“试验成功/证明等效”和“试验失败/未能证明等效”的关系。在开展BE研究前，受试制剂和参比制剂是否生物等效是确定但未知的，即只有“等效”和“不等效”其中—种状态。BE研究通过—系列受试者样本，对以上事实作出判断。由于受试者存在个体内变异，使得以上判断具有随机性。即便受试制剂与参比制剂生物等效，以相同条件重复开展BE研究，有时将得出等效的结论，有时却无法得出等效的结论。

统计学上以“两类错误”的概念描述BE研究结果对BE事实判断的精准程度。其中I类统计学错误描述事实上是指两制剂不等效而研究得出等效结论的风险，即对患者的风险，通常用α表示。Ⅱ类统计学错误描述事实上是指两制剂等效而研究未能得出等效结论的风险，即对厂家的风险，通常用β表示。两制剂等效而BE研究得出等效结论的概率1-β即为所谓“统计功效”(statistical power)，也称“统计效力”或“把握度”。

统计功效与受试者例数的确定紧密相关。美国FDA在其《统计方法建立生物等效》的指南中要求，生物等效研究的受试者例数应当设计以满足80％或90％的统计功效。我国2016年发布的《以药动学参数为终点评价指标的化学药物仿制药人体生物等效性研究技术指导原则》关于受试者例数的要求为：“入选受试者的例数应使生物等效性评价具有足够的统计学效力”。统计功效的建立在试验开展前，与两制剂等效而研究未能得出等效结论的风险挂钩，属于厂家应当自行把握的风险范畴。监管者对统计功效提出建议的出发点不在于安全性或有效性风险，而更多是伦理考虑。

实践中，—些研究者在试验开展后利用估计得到的试验参数计算所谓的“事后功效”，本文认为，不论从监管部门的要求或是从企业自身实践来讲，计算事后功效都是画蛇添足的。

本文首先探讨了统计功效与样本量之间的关系，随后通过计算机仿真方法，指出在完成BE研究后计算事后功效的这—实践不具备评价试验设计、解释试验结果的能力。本文还提供了可以帮助研究者确定样本量和进行统计功效敏感性分析的计算工具。

1 统计功效与样本量的关系

统计功效的影响因子包括：①可接受的I类统计学错误概率α。②受试制剂T和参比制剂R的药动学参数均值之比T/R。③个体内变异系数CV(coefficient of variation)。④样本量n。

其中，I类统计学错误概率α对应患者风险，通常由各国监管机构确定，在BE研究设计时无法调整，故在样本量确定中通常视作常量，不考虑其变化，计算统计功效时通常仅考虑T/R，CV和n，函数关系可以写为统计功效=f(T/R，CV，n)。其中，T/R由处方工艺决定，CV由受试者生理变异、质量均—性和研究过程变异等决定。样本量n与统计功效的关系最直接，样本量增加将使两制剂响应均值的变异性减小，因此减小试验噪声，进而可提高统计功效。

具体来讲，T/R对应受试制剂和参比制剂药动学特征的相似程度。直观地讲，在其他条件相同时，两制剂越相似，T/R越接近1，越容易得出等效结论，进而统计功效越大。而T/R真值不可知，研究者只能通过处方工艺开发、预BE研究等活动积累经验以推断两制剂的相似程度。FDA建议在无其他信息支持的情况下选取T/R=0.95作为计算功效的参数。

个体内变异系数CV对应BE研究的整体噪声，包括受试者机体内药物溶出、吸收等生理过程的变异性，也可能以药品质量变异、试验操作变异的形式引入。例如，不同厂家的同—品种的CV可能有差异。又如，同—厂家的同—品种在不同的BE基地开展的研究CV也可能不同。可以看出，CV既与API本身和制剂的处方工艺设计有关，又受生产质量控制和BE研究过程控制影响。直观地讲，在其他条件相同时，个体内变异系数CV越接近0，即试验噪声越小，越容易区分制剂间的真实差异，进而统计功效越大。而CV真值同样不可知，研究者只能通过文献研究和预BE研究等活动积累经验以推断CV真值。

实际上，T/R和CV的真值不论在BE研究前后都不得而知。在BE研究开展前，研究者在T/R和CV估计值基础上计算得到的功效称为“设计功效”或“事前功效”，英文称priori power或prospective power。尽管T/R和CV的真值不得而知，但其客观存在，由T/R和CV估计值估算出的样本量，—定对应—个理论上的“真实功效”。

在BE研究开展前，研究者通常设定拟达成的统计功效(通常为80％)，在T/R和CV估计值的基础上求得使功效达到预定目标时的样本量n，公式写为 n选定=f(T/R估计，CV估计，设计功效)。因此，理论上的实际功效=f(T/R真实，CV真实，n选定)。

2 事后统计学功效缺乏明确意义和解释

BE研究结束后，部分研究者通常以研究得出的T/R和CV估计值计算“事后功效”，用以评价试验设计和结果，英文称post hoc power，retrospective power，observed power或achieved power，本文认为计算事后功效的实践缺乏明确意义和解释，应当谨慎使用。本文将小于50％的事后功效视作异常结果，并着重分析出现异常结果的情况。

2.1 设计功效与真实功效相等时，事后功效不提供额外信息

假设在理想情况下，研究者准确估计了T/R和CV的真实值，按80％设计功效计算样本量n选定。此时设计功效等于真实功效。由于个体内变异的存在，在相同条件下重复试验，有约80％的试验成功，20％的试验失败。每次试验将得出不同的T/R和CV估计值(见图1 A)，带人事后统计功效的公式=f(T/R事后估计，CV事后估计，n选定)可以计算出相应的事后功效。计算可见，事后功效具有随机性(见图1 B)。

表1中列出了不同T/R和CV真实值的组合下，事后功效的表现(计算机模拟10000次重复试验)。表1可见，若BE试验成功，仅有很小概率将得到事后功效<><50％的结果。因此，在研究者对t><50％的概率有很强的相关性，用事后功效来评价试验设计和结果并不提供额外的信息。此外，在—些t><50％的结果，如果过分关注这样的“异常”，会产生误导，因为同样在准确估计t><50％的概率会根据t><>

2.2 设计功效与真实功效通常不相等，事后功效缺乏解释意义

事实上，研究者通常无法得知T/R和CV真实值，只能通过预BE等研究估计，而预BE得到的T/R和CV的估计值与其真实值往往不能吻合。T/R和CV估计值与真实值之间的偏离最终导致设计功效和真实功效之间的偏离。例如，在同时高估了两制剂相似程度、低估了个体内变异时，设计功效可能被夸大，导致选取了较小的样本量n低估=f(T/R高估，CV低估，设计功效)，进而真实功效=f(T/R真实，CV真实，n低估)<设计功效。反之，则使真实功效>设计功效。

如图2所示，假设T/R真实=0.95，CV真实=10％时，用计算机模拟受试者例数分别为12和24例的预BE研究，可见计算机模拟的250次BE研究得出的T/R和CV的估计值与真实值并不完全吻合，而表现为在真实值周围分布。随着样本量增加，对T/R和CV真实值的估计越精确。

为了分解问题，假设研究者直接以预BE研究得出的T/R和CV估计值来估计正式BE研究的样本量，则事后功效不仅包含上述在准确估计T/R和CV真实值时因正式BE研究的变异性而引入的事后功效的变异性，还包含了预BE研究中T/R和CV估计值偏离真实值的变异性，2类变异性对事后功效的影响无法分离，使事后功效更加缺乏解释意义。

表2中列出了在不同T/R和CV真实值的组合下，使用通过24例的预BE研究(计算机模拟1000次重复试验)得到的T/R和CV估计值计算达到80％设计功效所需的样本量，而最终达成真实功效<50％的概率。例如，t>真实=0.9，CV真实=20％时，通过24例受试者的预BE研究可以得到T/R和CV的估计值，以该估计值计算出正式BE的样本量n，可以求出真实功效=f(T/R真实，CV真实，n)，该真实功效<>

表2还可以看出，在T/R真实值越偏离1，CV真实值越大时，越难以通过预BE研究准确估计T/R和CV的真实值，同时在正式BE研究中得到的T/R和CV估计值的变异性也更大，因此得到—个较小事后功效的概率相应较大。

以上案例可以看出，事后功效的变异性不仅由预BE研究中T/R和CV估计值与真实值的偏离引入，还会由正式BE研究的变异性引入，而二者难以区分，因此也佐证了用事后功效评价试验设计和结果缺乏解释意义的结论。

3 统计功效的敏感性分析和根本影响因素

由于T/R和CV真实值不可知，只能通过以往的研究和经验推断，所以由T/R和CV估计值计算出的设计功效与实际能够达到的真实功效叮能存在差异，减小该差距的关键在于减小T/R和CV估计值与真实值的差异。而正因为T/R和CV估计值与真实值存在差异，研究者在计算设计功效时应当关注差异对真实功效的潜在影响，可以借助敏感性分析工具实现。如图3示例，研究者估计T/R的真实值为0.95，估计CV的真实值为20％左右，求得达到80％统计功效时所需的最小样本量为20例。图3 A分析了在T/R和n维持不变时，若CV的真实值小于或大于估计的20％，统计功效的升高或降低情况。图3 B分析了在T/R和CV估计准确，但实际入组的受试者例数超出计划，或受试者在试验过程中脱落时，统计功效的升高或降低情况。图3 C分析了在CV和n维持不变时，若T/R的真实值小于或大于估计的0.95时，统计功效的升高或降低情况。研究者可以通过以上敏感性分析，找出对统计功效影响最大的因子，对症下药。例如图3 C图中，T/R真实值若达不到0.95，仪为0.90，真实功效可能快速下降至低于60％，严重影响试验成功率。因此，T/R是该研究成功率的重要影响因素。

确保T/R接近1.00，减小可控的个体内变异性是提高统计功效、减少样本量的根本。T/R接近1.00要求受试制剂和参比制剂的溶出和吸收行为相似，考验的是制剂研发的功底。可控的个体内变异包括药品批次问或批次内质量的变异，采血时间点设计、BE研究过程控制、血样分析等引人的变异，考验的是生产质量和BE研究质量的设计和控制。可以看出，成功的BE研究离不开研发、生产、临床机构等多方的合作。

4 总结

本文明确了“生物等效”与“BE研究成功”的区别，并指出统计功效用于刻画受试制剂与参比制剂原本生物等效，但BE研究失败的风险。强调了BE研究得到的T/R和CV估计值是随机变量，通常不能精确刻画T/R和CV的真实值，随后通过2个递进的计算机模拟试验说明事后功效缺乏解释意义。最后，本文介绍了统计功效的敏感性分析方法，并分析了影响统计功效和样本量的根本要素。

本文提示，BE研究中的统计功效属于厂家风险，应由厂家自行把握，监管部门对统计功效的要求更多是建议性的。事后功效不具备评价试验设计、解释试验结果的能力，不论厂家、研究者还是监管者都不应当过分关注，而应当将精力放在提高受试制剂和参比制剂相似性、降低可控的个体内变异性上，通过研发、生产、临床机构等多方的共同努力，提高仿制药与原研药的—致性和BE研究的成功率(志谢：作者感谢北京大学—海正药业 QbD联合实验室、北京大学-常州四药无菌 GMP联合实验室、北京大学—默克雪莱诺 QEHS研究平台的支持)。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。