« R入門 その2 | トップページ | 「魔法の言葉」 »

R入門 その3

R入門 その3

仮に、「VMI」のデータを以下のようにすると

>VMI<- c(“114”,”114”,”107”,”77”,”131”,”86”,”131”,”114”,”121”,”77”)
「VMI」は変数です。「c」はcombineでこの10個のデータを結合させるということで、
「<-」は一まとまりにしたデータを「VMI」という名前の倉庫に入れるということです。

データの表示:
倉庫に入れたデータを表示するのは、
> VMI
でOKでしたね。
> table(VMI) と入力すると  度数が表示されます。
また、
> hist(VMI)と入力すると   ヒストグラムを描くことができます。

平均:
合計は sum()  データの個数は length()という関数ですから
>sum(VMI)/length(VMI)
で平均が出力されますが、mean()という平均を求める関数もあります。
分散・標準偏差:
データのばらつきを見るときに、「分散、標準偏差」があります。
分散は各データの値から平均を引いた値(平均からの偏差)を二乗しその合計をデータの個数で割ったもの(標本分散)とデータの個数-1で割ったもの(不偏分散)があります。Rではvar()  が不偏分散の関数です。標本としてデータを扱う場合は不偏分散を使うことが多いようです。 
標準偏差は不偏分散の平方根の値です。関数は sd()です。
平均偏差:
上に述べた「平均からの偏差」の絶対値の平均を平均偏差といいます。Rでは
>mean(abs(VMI-mean(VMI))
となります。absは絶対値を求める関数です。
標準化:
標準化とは、平均と標準偏差がある特定の値になるように変換することで、変換された得点を標準得点といいます。平均0標準偏差1になる得点をz得点といいます。Rでは
>VMIz得点<-(VMI-VMI平均)/VMI標準偏差 
で計算できます。
偏差値:
偏差値とは平均50、標準偏差10になるように標準化した標準得点です。
偏差値はz得点×10+50で求めます。

2つの変数の記述統計について

量的変数どうしの関係のことを相関、質的変数どうしの関係のことを連関といいます。
散布図はRでは
>plot(VMI,WISC)
で図が出力されます。もちろん事前に変数「WISC」にデータが入っていることが前提ですが。
変数xが大きいほど変数yも大きい傾向にあることを正の相関といいます。
変数xが大きいほど変数yは小さい傾向にあることを負の相関といいます。
変数xの大小の変化と変数yの大小の変化の間に関係はないことを無相関といいます。

共分散:共分散は「平均からの偏差の積の平均」です。Rではcnv()という関数を使います。
相関関数:共分散を2つの変数の標準偏差の積で割ったものです。これにより測定単位の影響を受けなくなります。Rではcor()という関数があります。相関係数が0に近いほど無相関であるといえます。
数値での評価は以下のようになります。

相関係数       評価 
±0.2     ほとんど相関なし
±0.2~0.4   弱い相関あり
±0.4~0.7 中程度の相関あり
±0.7~1.0   強い相関あり

ファイ係数:1と0の2つの値からなる変数(二値変数)に対する関係係数です。相関係数と同様な解釈をすることができます。1か0で表現した2つの変数をcor関数を使って算出します。

クロス集計:度数を表示するtable関数に2つの変数を入れるとクロス集計表ができます。

以上が手元にデータがある場合の分析についての主なものです。
統計の本質は手元のデータの向こう側にある母集団を想定し、それについて論議していくものであると思いますが、今私が扱うデータとしてはここまでで十分なので、入門編としては今回で終了します。

読んでくれてありがとう!ブログランキングに参加しています。気に入っていただけたら、ぽちっとワンクリックお願いします。もっとポジティブになれるので ⇒ にほんブログ村 教育ブログ 特別支援教育へ

|

« R入門 その2 | トップページ | 「魔法の言葉」 »

理論・知見」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/502259/42508105

この記事へのトラックバック一覧です: R入門 その3:

« R入門 その2 | トップページ | 「魔法の言葉」 »