好文档 - 专业文书写作范文服务资料分享网站

大数据探索性分析考试题

天下 分享 时间: 加入收藏 我要投稿 点赞

以附件1中上海市药械化稽查办案数据,利用抽样的方法(抽取容量为200的样本),对其某一方面的特性进行分析、研究。

这里在R里采用简单随机抽样抽取容量为200的样本数据,程序如下:

#####简单随机抽样 data=read.csv(\

head(data)#将数据集读入R中,并查看前六行数据 library(sampling)#加载抽样包 N=length(data[,3])#总体个数 n=200#需要抽取样本个数 set.seed(1)

yangben=srswor(n,N)#在总样本量N中抽取n个样本,返回其位置 yangben=getdata(data,yangben)#取出抽到样本的数据

write.csv(srs,file=\药械化稽查办案信息抽取样本1.csv\将抽到的数据读入本地文件 class(yangben)#查看抽到的数据类型

抽到的样本前几个部分展示如下:

接下来,我们对其中某些特性进行统计分析,首先,我关注的是所在区县,程序展示如下:

a=table(yangben$所属区县)#统计17个区县出现的频数

barplot(a,main = \区县出现频数分布图\绘出所在区县分布图,x轴所对应的区县分别为(NA 宝山 长宁 崇明 奉贤 虹口 黄浦 嘉定 金山 静安 闵行 浦东 普陀 青浦 松江 徐汇 杨浦 闸北 ) a1=sort(a)#按升序排列

a2=sort(a,decreasing =T)#按降序排列

barplot(a1,main = \区县出现频数升序分布图\绘出所在区县按升序排列的分布图,x轴所对应的区县分别

1 / 9

为(NA 闵行 黄浦 嘉定 宝山 松江 普陀 徐汇 长宁 闸北 静安 虹口 青浦 杨浦 浦东 金山 崇明 奉贤) barplot(a2,main = \区县出现频数降序分布图\a3=prop.table(table(yangben$所属区县))

barplot(a3,main = \所在区县比例分布图\使用比例的形式来呈现相同的观察并绘制分布图 par(mfcol=c(2,2))#准备画四个图的地方

barplot(a,main = \区县出现频数分布图\ barplot(a1,main = \区县出现频数升序分布图\barplot(a3,main = \所在区县比例分布图\ barplot(a2,main = \区县出现频数降序分布图\par(mfcol=c(1,1))#取消par(mfcol=c(2,2))

a4=a1[14:18];barplot(a4,col=c(2:6))#查看分布最多的五个区县,并将这五个区县的分布用不同的颜色表示 a5=sort(a3);sum(a5[14:18])

barplot(a5) ;par(mfcol=c(1,2));barplot(a4,col=\比例最高的五个区县比例分布图\barplot(a5[14:18],col=\通过程序结果可知,各区县被处罚的频数和分布图如下:

NA 宝山 长宁 崇明 奉贤 虹口 黄浦 嘉定 金山 静安 闵行 浦东 普陀 青浦 松江 徐汇 杨浦 闸北

1 10 6 17 27 11 7 15 22 8 3 8 7 18 13 8 9 10 NA 闵行 长宁 黄浦 普陀 静安 浦东 徐汇 杨浦 宝山 闸北 虹口 松江 嘉定 崇明 青浦 金山 奉贤 1 3 6 7 7 8 8 8 9 10 10 11 13 15 17 18 22 27

2 / 9

通过频数分布图和比例分布图可以观察到这17各区县违法行为出现的频率并不相同,并且差异比较大。计算所占稽查违法行为所占比例最高的五个区县分别为嘉定、崇明、青浦、金山、奉贤,并且这五个区县所占比例和为0.495,基本占了样本数据的一半,所以在后期检测中要着重对这五个区县进行稽查,或者对这五个区县有关部门提出整改意见,以便对这些区县的企业有一定监督作用。

下面对处罚决定时间分析程序代码及分析结果如下:

datetime=yangben$处罚决定时间#将抽取样本的处罚决定时间提取出来赋给datetime

b=format(as.POSIXct(datetime),\先使用as.POSIXct()函数将datetime转换成日期时间的变量格式,使用format()函数从日期时间变量中单独取出年部分

c=table(b,yangben$所属区县)#使用table()这个命令构造出一个列联表 rownames(c)=c(\

barplot(c,legend.text=rownames(c),sub = \每一年各区县违规企业分布\

barplot(c,legend.text=rownames(c),col = c(6,5,8),sub = \每一年各区县违规企业分布\同上,只是柱状的颜色发生变化

barplot(c,beside=T,legend.text=rownames(c),col = c(6,5,8),sub = \每一年各区县违规企业分布\每一年各区县违规企业分布 par(mfcol=c(1,2))

barplot(c,legend.text=rownames(c),col = c(6,5,8),sub = \每一年各区县违规企业分布(1)\barplot(c,beside=T,legend.text=rownames(c),col = c(6,5,8),sub = \每一年各区县违规企业分布(2)\par(mfcol=c(1,1))#取消par(mfcol=c(2,2))结果展示:

对一级分类进行统计后得到的列联表结果如下:

> c

b na 宝山 长宁 崇明 奉贤 虹口 黄浦 嘉定 金山 静安 闵行 浦东 普陀 青浦 松江 徐汇 杨浦 闸北 2014 1 0 0 1 3 0 0 0 1 0 0 1 0 0 0 0 0 1 2015 0 1 0 11 6 5 4 6 8 3 2 2 4 13 3 7 5 8 2016 0 9 6 5 18 6 3 9 13 5 1 5 3 5 10 1 4 1

进而对每一年各区县的违法行为进行绘图分析结果如下

3 / 9

1、首先,通过上述图形可以看出奉贤区和金山区整体犯罪行为虽然最多,但并不是每年都最多,甚至有些年份跟其他区县相比还是比较少的,这大概是因为2016年整体增长的太多造成的;其次,可以看到奉贤区、金山区、浦东区违法行为明显是呈逐年递增趋势;所以,我们可以预测如果这三个区县有关部门不对管辖范围内的企业进行管制,2017年的违法行为将呈急剧增长趋势。

2、像青浦、崇明、闸北这些区县2016年比2015年的数据有明显的下降趋势;像奉贤、

4 / 9

松江、金山这些区县2016年比2015年出现了明显的涨幅波动,所以,有关部门可以约谈相关区县负责人学习交流出现这种趋势的原因,总结经验,进而采取措施使得2017年数据总体都呈下降趋势。而其中一些波动趋势时增时减的区县需要自己寻找问题。 下面对一级分类进行研究,程序代码及分析结果如下:

d=yangben$一级分类#提取样本的一级分类

d1=table(yangben$一级分类)#对一级分类进行频数统计 d2=sort(d1);d3=prop.table(table(yangben$一级分类)) d4=sort(d3);plot(yangben$一级分类)#一级分类有十类 par(mfcol=c(2,2))#准备画四个图的地方

barplot(d1,main = \一级分类各类别频数分布图\一级分类各类别频数升序分布图\barplot(d3,main = \一级分类各类别比例分布图\一级分类各类别比例分布图\par(mfcol=c(1,1))#取消par(mfcol=c(2,2))

频数及比例列联表如下:

na 化妆品经营 化妆品生产 药品连锁 药品零售 药品批发 药品生产 医疗器械经营 医疗器械生产 医院制剂 22 32 21 1 63 9 10 29 13 0 na 化妆品经营 化妆品生产 药品连锁 药品零售 药品批发 药品生产 医疗器械经营 医疗器械生产 医院制剂 0.110 0.160 0.105 0.005 0.315 0.045 0.050 0.145 0.065 0.000

通过上图可以分析得出,在药品零售、化妆品经营、医疗器械经营这三个大类抽到的样本比较多,所

以以后在稽查的过程中可以对着些行业进行中重点稽查。

5 / 9

大数据探索性分析考试题

以附件1中上海市药械化稽查办案数据,利用抽样的方法(抽取容量为200的样本),对其某一方面的特性进行分析、研究。这里在R里采用简单随机抽样抽取容量为200的样本数据,程序如下:#####简单随机抽样data=read.csv(\head(data)#将数据集读入R中,并查看前六行数据library(sampling)#加载抽样包N=leng
推荐度:
点击下载文档文档为doc格式
4dzfe944uh423gj8gje700kc5204u900kgx
领取福利

微信扫码领取福利

微信扫码分享