從統(tǒng)計學角度比較新冠口服藥: 輝瑞Paxlovid和國產(chǎn)VV116
● ● ●
2022年12月28日,新英格蘭醫(yī)學雜志 (NEJM)刊登了關于君實生物醫(yī)藥科技有限公司和蘇州旺山旺水生物醫(yī)藥有限公司負責研制開發(fā)的抗新冠病毒口服藥物VV116的臨床試驗結果[1]。該試驗以上海交通大學附屬的瑞金醫(yī)院牽頭開展,為一項多中心、單盲(研究者保持盲態(tài))、隨機、對 照 III 期非劣效性臨床試驗。
VV116為小分子口服抗SARS-CoV-2病毒藥物,其設計結構類似于美國生物制藥公司吉利德科學研制的瑞德西韋(Remdesivir)。通過靜脈注射治療新冠的藥物Remdesivir于2020 年10月 22日已經(jīng)獲美國藥監(jiān)局(US Food and Drug Administration:FDA)批準。此項VV116臨床試驗的對照組為FDA批準的口服藥Paxlovid,通常被稱為新冠“特效藥”。
什么是非劣效性試驗?
三期臨床試驗可以劃分為不同的類型,其中最常見的是優(yōu)效性和非劣效性試驗。優(yōu)效性和非劣效性是臨床試驗中兩個比較容易混淆的概念。優(yōu)效性試驗的目的在于檢測試驗藥物的療效是否優(yōu)于標準藥物。非劣效性試驗的目的是檢測試驗藥物的療效是否不劣于標準藥物或至多比標準藥物相差δ,這里δ > 0 為試驗預先設定的非劣效限度。在VV116試驗中,如果風險比例的95%置信區(qū)間的下界不低于0.8,則可以得出VV116不劣效于Paxlovid的結論。雖然有時試驗藥物相對于標準藥物的療效稍差,但如果兩者的差異是在一個可以接受的范圍之內,并且試驗藥物具備許多其它優(yōu)點,例如用藥途徑較方便(以口服或貼片形式用藥,而非靜脈注射)、毒性較低、副作用較少或者價格相對便宜,那么非劣效性試驗會更加適用于這種情況。
與優(yōu)效性試驗相比,非劣效性試驗在設計、執(zhí)行和詮釋上難度較大。我們不能簡單地認為非劣效性試驗是優(yōu)效性試驗的后備方案。在非劣效性試驗中,對照組通常是當前的標準藥物(VV116對照組為Paxlovid)。如果試驗組與對照組之間的療效差異的95% 置信區(qū)間不包含非劣效限度(在VV116試驗中,風險比例的95%置信區(qū)間的下界不低于0.8),那么我們可以得出試驗藥物非劣效于標準藥物的結論。進一步而言,如果療效差異的95% 置信區(qū)間甚至也不包含原假設預先指定的參數(shù)值(風險比例的95%置信區(qū)間的下界不低于1),那么我們可以直接確認試驗藥物的療效優(yōu)于標準藥物,即得出優(yōu)效性的結論。根據(jù)封閉檢驗原則(Closed testing principle),我們無需對此時的多重檢驗作調整[2]。
但是,反之則不成立:如果優(yōu)效性試驗不能夠拒絕原假設,即無法得出試驗藥物優(yōu)效性的結論,那么我們不可以隨后進行藥物非劣效性的檢驗。這是因為若需要檢驗藥物的非劣效性,則我們必須在試驗啟動之前明確地指定非劣效限度的大小。然而,若試驗的整體設計基于藥物的優(yōu)效性檢驗,則我們不會預先確定該非劣效限度,而它的取值對于非劣效性試驗至關重要,并且也不允許在試驗數(shù)據(jù)分析后才確定該限度。
如何在優(yōu)效性和非劣效性試驗中選擇目標分析人群?
假設檢驗通常包括一個原假設和一個備擇假設。一般而言,原假設是我們希望在數(shù)據(jù)的支持下拒絕的假設,而備擇假設則是和原假設相對立的假設,即我們希望可以得到數(shù)據(jù)的支持并接受的假設。
在臨床試驗中,我們應盡量確保試驗按照預先設定的方案進行,并將操作失誤或偏離方案所帶來的影響降為最低。試驗的參與者對于研究方案的依從程度取決于諸多因素。例如,病人可能會拒絕隨機分配的藥物,或者可能由于病情惡化或未達到預期療效而提前退出試驗,也可能因為藥物的毒性或副作用過強而退出試驗,甚至會從所分配的治療組轉到其它治療組。
在上述情況下,患者治療方式的改變與試驗方案的偏離會增加統(tǒng)計推斷的難度。
在隨機臨床試驗的數(shù)據(jù)分析中,主要關注三類病人樣本的分析對象:意向性(ITT: intent-to-treat)群體,符合方案(PP: per-protocol)群體和實際治療(AT: as-treated)群體。由于這三種分析針對的人群不同,其相應的結論和統(tǒng)計推斷也會有所不同。最常用的ITT 方法囊括了試驗中所有的參與者,并以他們在試驗最初隨機分配所屬的治療組別作為分析基準。PP 方法的原則是將不服從試驗安排的病人從分析樣本中剔除,從而只納入完全遵守試驗方案的病人。因此,在這樣理想的狀況下(即參與者完全服從試驗方案),PP 方法旨在評估藥物之間顯示出的最大療效差異。AT 方法則是介于ITT 與PP 方法之間的折中策略,它是基于病人在試驗中實際接受的療法,而非病人最初分配的療法[3]。
對于優(yōu)效性試驗,主要的分析對象為意向性分析(ITT)群體。該分析群體基于意向性治療原則,即對所有經(jīng)過隨機分組的病人,按照他們最初所分配的治療組進行評價和分析,而不論他們在試驗期間是否依從試驗的分組及治療方案。在優(yōu)效性試驗中,ITT分析方法較為保守,它更傾向于接受原假設(即低估兩種藥物之間的療效差異)。與ITT分析方法相對的病人群體是符合方案(PP)分析群體,該分析群體只納入嚴格遵守試驗分組、方案和規(guī)定的病人。與ITT 分析方法相比,PP分析方法更傾向于檢測出或高估兩種藥物之間的療效差異,因此其檢驗結果相對較為激進,即更傾向于拒絕原假設。
然而,對于非劣效性試驗,上述情況恰恰相反。優(yōu)效性試驗的原假設(無療效差異)在非劣效性試驗下成為備擇假設,因此ITT分析方法更傾向于支持無療效差異(即支持備擇假設),所以其結論過于激進。與ITT分析方法相比,PP分析方法對于非劣效性試驗較為保守,更傾向于接受原假設(即支持劣效性)。
總結與討論
該VV116試驗為單盲試驗,即研究者不知道患者服用何種藥物,但患者知道自己服用的藥物,而這會影響統(tǒng)計結果的真實性。
對于有高危因素的輕中度COVID-19成人患者,在主要終點“至持續(xù)臨床康復時間”方面,基于ITT分析群體的風險比例為1.17,95% 置信區(qū)間為 [1.02, 1.36];基于PP分析群體的風險比例為1.17,95%置信區(qū)間為[1.01, 1.35]。ITT和PP分析群體風險比例的95% 置信區(qū)間均不包含非劣效限度0.8,也不包含1。因此,試驗數(shù)據(jù)不但支持VV116非劣效于Paxlovid,而且優(yōu)效于Paxlovid?;颊叻?VV116康復時間中位數(shù)為4天,Paxlovid康復時間中位數(shù)為5天。
VV116試驗樣本量不大——分配VV116組384人,Paxlovid組387人。兩組中均沒有參與者進展為重癥或死亡。在次要終點分析中,持續(xù)癥狀消退的時間和SARS-CoV-2檢測轉陰時間在兩組之間沒有統(tǒng)計顯著性差異。到服藥第28天,VV116組的不良事件發(fā)生率(67.4%)低于Paxlovid組(77.3%),具有統(tǒng)計顯著性差異。
然而,輕癥患者的康復時間并不是Paxlovid獲得FDA批準的主要原因,其最核心的競爭力為大幅降低高?;颊叩闹匕Y(住院)或死亡率(ERIC-HR臨床試驗結果顯示Paxlovid可以降低重癥或死亡率達89%[4])。而且,對于康復時間,Paxlovid并沒有顯示出與安慰劑的差別。
該試驗顯示VV116是具有研發(fā)前景的抗新冠病毒的口服藥物。然而,公眾最關心的指標并不是患者的臨床康復時間,而是重癥或死亡率的降低。這是因為新冠病毒對長者的危害尤其大,很多長者由于擔心疫苗的副作用而沒有接種疫苗,而且長者通?;加谢A病。試驗的參與標準可以只限于這類高危人群,主要終點設為重癥或死亡率,因為新冠藥物最重要的指標是降重癥和降死亡[5]。