Stata:≧3群間の比較

≧3群間の患者背景の違いを評価するために利用する検定は、変数の種類によって異なります。

正規分布している連続変数の群間比較:Analysis of variance (ANOVA)

anova varname groupvar

正規分布していない連続変数の群間比較:Kruskal-Wallis test

kwallis varaname, by(groupvar)

カテゴリ変数の群間比較:chi-squared test

tabulate var1 var2, chi

サンプルデータCancer Drug Trialを利用して、実際にやってみましょう。

. use https://www.stata-press.com/data/r16/drugtr

Cancer Drug Trialデータセット (drugtr) には、下記の変数が含まれています。

  • studytime: 追跡期間(月)
  • died: アウトカム(0=生存、1=死亡)
  • drug: 介入因子(1=介入群、0=比較群)
  • age: 年齢

年齢の分布を、ヒストグラムで確認します。

. histogram age

xtileコマンドを利用して、年齢を三分位に分けてみましょう。

. xtile age3 = age, nquantile(3)
. bysort age3: summarize age

-------------------------------------------------------------------------------
-> age3 = 1

    Variable |        Obs        Mean    Std. Dev.       Min        Max
-------------+---------------------------------------------------------
         age |         18    49.94444    1.589385         47         52

-------------------------------------------------------------------------------
-> age3 = 2

    Variable |        Obs        Mean    Std. Dev.       Min        Max
-------------+---------------------------------------------------------
         age |         16      56.375    1.360147         54         58

-------------------------------------------------------------------------------
-> age3 = 3

    Variable |        Obs        Mean    Std. Dev.       Min        Max
-------------+---------------------------------------------------------
         age |         14    62.92857    2.786348         59         67

第1分位(age3==1)47-52歳、第2分位(age3==2)54-58歳、第3分位(age3==3)59-67歳です。

年齢の分位別の追跡期間を比較してみましょう。まずは、ヒストグラムで全体の分布を確認します。

. histogram studytime
(bin=6, start=1, width=6.3333333)

正規分布地とは言えない分布です。ついでに、年齢の3分位別の追跡期間も確認してみましょう。

. histogram studytime, by(age3)

年齢は正規分布していないので、Kruskal-Wallis testを利用して、年齢の3分位別の追跡期間を比較してみます。

. kwallis studytime, by(age3)

Kruskal-Wallis equality-of-populations rank test

  +-----------------------+
  | age3 | Obs | Rank Sum |
  |------+-----+----------|
  |    1 |  18 |   534.00 |
  |    2 |  16 |   385.00 |
  |    3 |  14 |   257.00 |
  +-----------------------+

chi-squared =     5.162 with 2 d.f.
probability =     0.0757

chi-squared with ties =     5.171 with 2 d.f.
probability =     0.0754

Probability = 0.0757ですので、追跡期間に統計学的に有意な差を認めません。

もし、追跡期間が正規分布していたならば、anovaコマンドを利用します。

. anova studytime age3

                         Number of obs =         48    R-squared     =  0.0905
                         Root MSE      =    9.99604    Adj R-squared =  0.0501

                  Source | Partial SS         df         MS        F    Prob>F
              -----------+----------------------------------------------------
                   Model |   447.5625          2   223.78125      2.24  0.1182
                         |
                    age3 |   447.5625          2   223.78125      2.24  0.1182
                         |
                Residual |  4496.4375         45   99.920833  
              -----------+----------------------------------------------------
                   Total |       4944         47   105.19149  

P = 0.1182であり、追跡期間に統計学的な差を認めません。

次は、年齢3分位別の死亡率を比較してみましょう。カテゴリ変数×カテゴリ変数ですので、Pearson chi-squared testを利用してP値を算出します。Stataでは、tabulateのchiオプションを使用します。

. tabulate died age3, chi column

+-------------------+
| Key               |
|-------------------|
|     frequency     |
| column percentage |
+-------------------+

      1 if |
   patient |        3 quantiles of age
      died |         1          2          3 |     Total
-----------+---------------------------------+----------
         0 |         9          4          4 |        17 
           |     50.00      25.00      28.57 |     35.42 
-----------+---------------------------------+----------
         1 |         9         12         10 |        31 
           |     50.00      75.00      71.43 |     64.58 
-----------+---------------------------------+----------
     Total |        18         16         14 |        48 
           |    100.00     100.00     100.00 |    100.00 

          Pearson chi2(2) =   2.7194   Pr = 0.257

Pr = 0.257であり、統計学的な差を認めません。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください