5.1 走近数据分析 知识点题库

下图是某国各类能源消费量各年份的变化趋势情况分析表,从图中可看出什么,请简要回答。

图片_x0020_20

图1是时代电器广场用Excel制作的9月份主要商品销售统计表。

图1

请根据表中数据回答下列问题:

  1. (1) 李明在单元格G3使用公式“=F3/$F$10”计算手机占总利润百分比,并对区域G4:G9进行了自动填充,则G9单元格的公式是
  2. (2) 李明想将编号这一列数据设计成“001,002,……,007”样式,可每次输入“001,002,……,007”样式后都自动变成了“1,2,……,7”,请给出一种解决方法
  3. (3) 根据图2所示,9月份占总利润百分比最大的商品名称是

    图2

  4. (4) 将图2所示的图表以图片形式复制到Word文档中并设置了文字环绕方式,部分界面如图3所示,该图表环绕方式是(单选,填字母:A .嵌入型/B .四周型/C .浮于文字上方/D .紧密型)。

    图3

下列有关数据关联分析的说法正确的是(    )
A . 对数据进行预处理,发现和处理缺失值,异常数据、绘制直方图,观察数据分布的特征,求最大值、最小值、极差等描述性统计量。 B . 分析发现存在于大量数据之间的关联性和相关性,从而描述一个事物的共同规律和模式。 C . 是一种探索性的分析。不必事先给出一个分类标准,而是让其自动分类。 D . 是数据分析中最基本的方法。先基于样本数据构建分类器,然后进行预测。
我们每天都在跟各类软件打交道:聊天购物、看新闻和短视频……每一次我们的点击和滑动都会成为数据的一部分,有关组织通过数据的搜集、存储分析和可视化技术,解决大数据海量、高速、多变、价值密度低的问题,使数据从散乱的信息变成知识和智慧,帮助组织解决发展中遇到的实际问题。

对于上述描述,下列说法不正确的是(    )

A . 你的每次上网行为及相关数据可能会被采集 B . 你在上网时的每次操作,蕴含着巨大的价值 C . 你在聊天、购物、看新闻和短视频等过程中,有可能泄露个人隐私 D . 网站提供给你的“个性化推荐”,依赖于你的上网行为
某组织将关于春节期间人们主要支出的调查数据进行可视化分析,其结果如图所示,下列分析错误的是(    )

A . 不同年龄段的人群“买年货”的支出都比较多 B . 在“娱乐活动”的支出中,23~30岁人群的花费最多 C . 60岁以上人群支出最多的是“压岁钱”,支出最少的是“交通费” D . 在“走亲访友的礼物”支出中,51岁以上人群的花费比较多
图图收集了“近四年某高校各专业学生人数”的相关数据,并使用Excel软件进行数据处理,如图a所示。

  1. (1) 为计算图a中各个年份入学的总人数,图图已正确计算了单元格I3中的数据。他希望将单元格I3中的公式向下自动填充至单元格I6,从而正确计算出区域I4:I6中的数据,则下列修改I3中的公式方法不可行的是(单选,填字母)。

    (提示:SUMIF函数用于统计某个区域中满足条件的单元格数值之和,例=SUMIF(B3:B22,H3,D3:D22),用于统计2017年各专业男生人数之和)

    A . =SUMIF($B$3:$B$22,H3,$F$3:$F$22) B . =SUMIF(B$3:B$22,H3,F$3:F$22) C . =SUMIF($B3:$B22,H3,$F3:$F22)
  2. (2) 根据图a中数据制作的图表如图b所示,创建该图表的数据区域是B2,F2,

  3. (3) 在图a所示的工作表中对数据作进一步的数据处理,已知F列中的数据是通过在F3单元格中输入公式“=D3+E3”再向下自动填充至F22计算得到的。则下列说法正确的是     。(多选,填字母)
    A . 将区域B2:F22中的数据按“总人数”升序排序,则区域I3:I6中的数据不会发生变化 B . 若删除A列,则F列中的单元格将出现错误信息“#REF!” C . 将单元格D15中的数据改为“230”,则图表随之变化 D . 若要筛选出“2020年”总人数最多的专业名称,可以通过“入学年份”为“2020年”,“总人数”为最大1项筛选得到
小李收集了某校招聘教师笔试成绩数据,并用Excel软件进行数据处理,如图a所示,请回答下列问题。

图a

  1. (1) J3单元格中显示的是参加“小学美术”职位的报考人数,利用J3单元格中的公式,对区域K3:L3进行自动填充,则K3单元格中的显示结果是( 单选, 填字母:A . #VALUE! / B . 0 / C . 7)。

    (提示:公式“=COUNTIF(D3:D27,J2)”统计区域 D3:D27 中值等于J2的单元格个数,即参加“小学美术”职位的报考人数。)

  2. (2) 若要正确计算各个职位报考人数,可先对J3单元格中的公式进行修改,再对区域K3:L3进行自动填充,则J3单元格中的公式应改为
  3. (3) 根据图a中数据制作的图表如图b所示,则制作该图表的数据区域是 。

    图b

  4. (4) 若对区域A2:G27中的数据以“报考职位”等于“小学音乐”,“笔试成绩”最大一项进行筛选,则筛选后显示的数据一定是报考职位为“小学音乐”中“笔试成绩”的最高分吗?(选填:是/否)。
在Excel中,擅长比较数据间的多少与大小关系的是下列哪两种图表(   )
A . 柱形图和条形图 B . 柱形图和折线图 C . 条形图和折线图 D . 饼形图和折线图
下面关于关联分析的基本算法错误的是(    )
A . 扫描历史数据,并对每项数据进行频率次数统计。 B . 构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。 C . 对候选项集的支持度进行筛选,筛选的数据项支持度应当小于最小支持度, 从而形成频繁项集L1。 D . 对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或 者最大频繁项集。
小董收集了某黄金首饰网店的销售数据,并用 Excel 软件进行数据处理,如图a所示。

图a

请回答下列问题:

  1. (1) 区域F3:F167的数据是通过公式计算得到的,在F3单元格中输入公式,再使用自动填充功能完成区域F4:F167的计算。

    (提示:活动价格(元)=重量(克)×黄金单价(元/克)×活动折扣+加工费(元))


     

  2. (2) 根据图a中数据制作的图表如图b所示,创建该图表的数据区域是

    图 b

  3. (3) 结合图a和图b,下列说法正确的有 _____________(多选,填字母)。
    A . 若不慎将K列删除,则F3单元格的显示结果是0.00 B . 若将区域E3:E167的单元格格式设置为“数值”并保留 0位小数,“第一季度加工费”列的数值不变 C . 若将区域A165:H167数据以“列D”为关键字进行升序排序,图表会随之改变 D . 若将区域A2:H167以“品种”为手链进行筛选,再以“重量(克)”为关键字降序排序,选取排在最前面的首饰一定是最贵的手链
如下图,根据表中数据,下列描述正确的是(   )

图片_x0020_100032

A . 机构数一直都在增长 B . 从业人员数一直都在增长 C . 2019年演出收入比2018年高 D . 2019年国内演出观众人次最高
如图b所示,可以看出成绩稳步上升的班级是(    )

A . 高一(1)班 B . 高一(2)班 C . 高一(3)班 D . 不能确定
列关于投针实验的描述错误的是(     )。
A . 投针实验起源于18世纪 B . 投针实验应用了蒙特卡洛方法并采用计算机进行模拟 C . 投针实验中拋掷的次数越多,结果偏离越大 D . 投针实验可通过“网络画板”平台进行模拟
手机导航能实时提示前方路况,主要体现了大数据的(    )特征
A . 数据体量巨大 B . 速度快 C . 数据类型多 D . 价值密度低
小赵收集了近三年浙江省接待入境旅游者人数的数据,并使用Excel软件进行数据处理:

  1. (1) 在M4单元格中使用AVERAGEIF函数计算2017年亚洲所有国家的平均入境人数,然后通过自动填充得到M5:M7的公式,则M4单元格中的公式为(提示:AVERAGEIF函数用于对区域中满足条件的单元格求平均。例如:= AVER-AGEIF(A4: A18,J4, E4: E18)表示2016年所有亚洲国家的人境人数平均数)
  2. (2) 根据图a中数据制作的图表如图b所示,创建该图表的数据区域是:

  3. (3) 在图a所示的工作表中对数据作进一步操作,下列说法正确的是      (多选:填字母)
    A . 对表格数据区域A4:H18按“列A”为主要关键字升序排序,则图b中所示的图表不会发生变化。 B . 若要筛选出2016年欧洲入境旅游者人数同比增长最多的国家,可以选择A2:H18区域,以地区为“欧洲”、2016年“同比(%)”为最大1项进行筛选。 C . 若要筛选出2016 年欧洲人境旅游者人数同比增长最多的国家,可以选择A2:H18区域,以地区为“欧洲”进行筛选,再以2016年“同比(%)”为关键字进行降序排序,选取排在最前面的国家。 D . 在正确完成M4:M7计算后,小赵不小心将B列删除,则原M4:M7单元格中的数据不会发生变化。
图示为某段时间我国灯光强度变化区域示意图,黑点为主要城市位置,红色表示该区域2018年度灯光强度较2017年实现增长。下面说法正确的是(      )

①图片、文字、数值都是数据,数据就是信息

②从图片中可以看到灯光强度增长区域大集中在东部,在一定意义上也代表着东部经济比西部发展得更快

③这张示意图在计算机中是以二进制形式保存的

④灯光强度增强区域示意图的形成得益于大数据的采集和分析

A . ②③④ B . ①②③④ C . ①②③ D . ①②④
(      )是项目研究结果的展示,也是数据分析结论的有效承载形式。
A . 数据分析 B . 数据可视化表达 C . 数据分析报告 D . 数据运算
大数据是以(     )存取速度快、应用价值高为主要特点的数据集合。
A . 容量大、类型单一 B . 蓉量小、类型单一 C . 容重大、类型多 D . 蓉量小、类型多
很多情况下,我们需要把表格数据转换成图表数据,这样看上去对比效果更好要直观。下列类型的统计图表中,具备X轴、Y轴的是(     )
A . 饼形图 B . 圆环图 C . 条形图 D . 雷达图
小明搜集了某网络购物平台2021年1月1日至2021年9月30日时间段内的日用化妆品销售数据,原始数据如下图a所示。

  1. (1) 小明对数据进行了整理,下列操作不恰当的是(   )(单选,填字母)。
    A . 发现记录中有6 条重复,对这6 条记录进行了删除 B . 发现记录中有38 处数据项缺失,直接删除相关记录 C . 将某条记录中订单日期“2050-6-9”订正为“2021-6-9” D . 将某条记录中订单日期“2021#3#11”修改为“2021-3-11”
  2. (2) 小明发现数据中仍有极少量时间段外的记录混杂其中,利用Python 及pandas 模块进行处理。请回答问题:

    ① 采用pandas 模块中的(单选:填字母:A .Series / B .DataFrame)

    数据结构存储全部数据会比较高效。

    ② 全部数据保存于变量df 中,为筛选出订单日期为2021 年第一季度内的所有记录,

    可以执行Python 语句df1 =  ,则df1 中保存筛选结果。(单选,填字母。

    提示:多条件筛选时,条件之间用“&”连接,表示需要同时满足这多个条件)

    A.df[ (df['订单日期'] <= '2021-1-1' ) & (df ['订单日期'] <= '2021-3-31') ]

    B.df [ (df ['订单日期'] >= '2021-1-1') & (df ['订单日期'] >= '2021-3-31') ]

    C.df [(df ['订单日期'] >= '2021-1-1') & (df ['订单日期'] <= '2021-3-31')]

  3. (3) 经过以上两步处理之后,为了解“所在地市”第一季度“订购数量”前10 名的情况,

    编写如下Python 程序段:

    #数据整理结果保存于变量df1中,代码略

    g = df1.groupby('所在地市', as_index = False).sum()

    print           )

    则划线处的代码可为(   )(多选,填字母)

    A . g.sort_values('订购数量',ascending = False) [0:10] B . g.sort_values('订购数量',ascending = True).tail(10) C . g.sort_values('订购数量',ascending = True)[0:10] D . g.sort_values('订购数量',ascending = False).head(10)
  4. (4) 根据以上数据整理结果,小明对第一季度所在地市的“订购数量”进行可视化处理,如图b所示。

    实现上述功能的Python程序部分代码如下:

    #按“所在地市”对第一季度数据分组并求和,再按“订购数量”升序排序

    #选取最后10条数据,存入变量s,代码略

    import matplotlib.pyplot as plt

    x = s['所在地市']

    y =

    plt.barh(x, y, color = 'r')

    plt.show( )

    程序中划线处代码应为

  5. (5) 小明借助大数据技术,对近几年来该网络购物平台的日用化妆品销售数据进行了分析。

    应用该分析结果可能提供的数据服务是(列举一条即可)。

最近更新