分布分析法举例:
1、定量数据的分布分析
方法1:直方图
将数据取值的范围分成若干等距区间,考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数,这种直方图可以估计总体的概率密度。
在R语言中,使用hist()函数画出样本的直方图。
方法2:核密度图
与直方图相配套的是核密度图,其目的是用已知样本,估计其密度,执行下面代码得到图6.6。
>set.seed(1234)
>x<-rnorm(100,0,1)
>hist(x,breaks = 10,freq=FALSE,col = "gray")
>lines(density(x),col="red",lwd=2)
方法2:茎叶图
与直方图比较,茎叶图更能细致地看出数据分布结构。R语言中使用stem()函数绘制茎叶图,如:
> stem(islands)
The decimal point is 3 digit(s) to the right of the |
0 | 00000000000000000000000000000111111222338
2 | 07
4 | 5
6 | 8
8 | 4
10 | 5
12 |
14 |
16 | 0
在茎叶图中,纵轴为测定数据,横轴为数据频数,数据的十分位表示“茎”,作为纵轴的刻度;个位数作为“叶”,显示频数的个数,作用与直方图类似。
3、定性数据的分布分析
对于定性变量,常常根据分类变量来分组,可以采用饼图来描述定性变量的分布。
饼图的每一个扇形部分代表每一类型的百分比或频数,根据定性变量的类型数目将饼形图分成几个部分,每一部分的大小与每一类型的频数成正比。