CLASSDATA集計の薦め

1.5K Views

March 31, 24

#[第3回大阪sas勉強会] #SAS #データ集計 #CLASSDATA #欠損値処理 #PROC SUMMARY

スライド概要

[第3回大阪sas勉強会] 森岡裕

森岡裕[SASユーザー総会世話人]

@6484025

スライド一覧

SAS言語を中心として，解析業務担当者・プログラマなのコミュニティを活性化したいです

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

MMRM入門

[第8回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 46.9K

t検定の基礎(Studentのt検定とWelchのt検定)

[第9回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 32.6K

SASユーザー総会論文集 2024年

sasユーザー総会論文集 2024年

森岡裕[SASユーザー総会世話人] 26.8K

SASのコールルーチンは57個あるねん10分で全部説明するねん

[第9回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 25.1K

統計解析・確率論に関連するパラドックス

森岡裕[SASユーザー総会世話人] 24.2K

ゼロからでも始められるSASプログラミングのエッセンス

森岡裕[SASユーザー総会世話人] 19.2K

各ページのテキスト

CLASSDATA集計の薦め私，ゼロ埋めしないので森岡裕

お・こ・と・わ・り本発表は，発表者個人の責任で，いかなるものも代表しません．内容は発表者の偏見にまみれています．一般的な見解ではなく，とにかく偏った美意識に基づくものだと予めご了承ください．

主旨ダミーデータセットをマージして，ゼロ埋めすることは正しくない

使用するテストデータ →グループ別カテゴリー別に要約統計量と検査値が４超の割合を算出する data test; group=1;category=1;VAL=1;output; group=1;category=1;VAL=2;output; group=1;category=1;VAL=3;output; group=1;category=2;VAL=4;output; group=1;category=2;VAL=5;output; group=1;category=3;VAL=6;output; group=1;category=3;VAL=7;output; group=3;category=2;VAL=8;output; group=3;category=2;VAL=9;output; group=3;category=2;VAL=1;output; group=3;category=2;VAL=2;output; group=3;category=3;VAL=5;output; run; data test; set test; FN=VAL>4; run; グループ(group)：1,2,3 カテゴリー(category)：1,2,3

普通に書けば，以下のような感じですかね proc summary data=test nway; class group category; var VAL FN; output out=out1_1(drop=_TYPE_ _FREQ_) n= mean= std= lclm= uclm= min= median= run; max= sum= /autoname; data out1_2; length group category 8. N FN FPER MEAN CLM STD CLM MIN MEDIAN MAX $15.; set out1_1; N = cats(VAL_N); FN=cats(FN_SUM); FPER=put(round(divide(FN_SUM,VAL_N)*100,0.1),8.1 -L); MEAN = put(round(VAL_Mean,0.1),8.1 -L); if ^missing(VAL_StdDev) then STD = put(round(VAL_StdDev,0.01),8.2 -L); else STD="-"; if n(VAL_lclm,VAL_uclm)=2 then CLM=catx(" , ",put(round(VAL_lclm,0.1),8.1),put(round(VAL_uclm,0.1),8.1)); else CLM="-"; MIN=cats(VAL_Min); MEDIAN=put(VAL_MEDIAN,8.1 -L); MAX=cats(VAL_Max); keep group--MAX; run;

当然，元のデータに存在する水準でしか集計されない一例のため，STDと平均の信頼区間は算出不能

データに存在しなくても，規定の水準で集計結果を表示したい

data dummy; do group=1 to 3; do category=1 to 3; output; end; end; run; data out2_1; merge dummy out1_2; by group category; run; よく見るのが，dummyで全水準を持ったレイアウトデータセットを作って，それにマージする方法．あとは，内容に応じて０やハイフンを代入する

data out2_2; set out2_1; array zero N FN; do over zero; zero=coalescec(zero,"0"); end; array hy FPER--MAX; do over hy; hy=coalescec(hy,"-"); end; run;

10.

気に食わない．私はこのやり方が気に食わない．実際に集計していないのに，あとから欠損を0に変換して体裁をごまかしているだけ．データがないならないで，その水準で集計して，きちんとn=0という結果を得るべきである．結果は同じでも，正しい道を歩むべきである

11.

data clds; do group=1 to 3; do category=1 to 3; output; end; end; run; proc summary data=test classdata=clds nway; class group category; var VAL FN; output out=out3_1(drop=_TYPE_ _FREQ_) n= mean= std= lclm= uclm= min= median= run; max= sum= /autoname;

12.

dummyを作ってマージするのと似たようなもんじゃないかと思うかもしれないけども．きちんと与えられた水準で集計することで，０とするべきものにはきちんと0が入り，算出不能なもののみが欠損となる →あとは全ての値について欠損をハイフンに変えるだけでよい． →余計な忖度が入らないので，ミスが起きない

13.

data wk1; set adam.adae adam.adae(in=ina) end=eof; where saffl="Y"; where same anl01fl="Y"; if ina then trtan=4; AEの事象別集計のように水準が確定しないものについても応用ができる．多群の試験において，いずれかの群にのみ生じた事象はその他の群では度数0になるということなので，群を問わずに発生した事象をユニークにしたデータセットを作成し，それを群で倍化重複してクラスデータにすればよい /*SOCクラスデータをhashで作成*/ if _N_=1 then do; declare hash soc(); soc.definekey("AEBDSYCD","AEBODSYS"); soc.definedone(); end; /*PTクラスデータをhashで作成*/ if _N_=1 then do; declare hash pt(); pt.definekey("AEPTCD","AEDECOD","AEBDSYCD"); pt.definedone(); end; soc.ref(); pt.ref(); if eof then do; soc.output(dataset:"_soc_class"); pt.output(dataset:"_pt_class"); end; run; data soc_class; set _soc_class; do TRTAN=1 to 4; output; end; run; data pt_class; set _pt_class; do TRTAN=1 to 4; output; end; run;

14.

/*soc例数集計*/ proc sort data=wk1 out=_wk1 nodupkey; by USUBJID TRTAN AEBDSYCD AEBODSYS ; run; proc summary data=_wk1 classdata=soc_class nway exclusive ; class TRTAN AEBDSYCD AEBODSYS ; var TRTAN; output out=soc_1(drop=_TYPE_ _FREQ_) n=count ; run; /*soc件数集計*/ proc summary data=wk1 classdata=soc_class nway exclusive ; class TRTAN AEBDSYCD AEBODSYS ; var TRTAN; output out=esoc_1(drop=_TYPE_ _FREQ_) n=ecount ; run;

15.

水準が動的な解析については，ハッシュオブジェクトで何か処置のついでにクラスデータを作成しておき，それでsummaryするのが私の定跡文句があるならかかってこい！！

16.

ご清聴ありがとうございました