5.1 走近数据分析知识点题库

下图是某国各类能源消费量各年份的变化趋势情况分析表，从图中可看出什么，请简要回答。

图片_x0020_20

图1是时代电器广场用Excel制作的9月份主要商品销售统计表。

图1

请根据表中数据回答下列问题：

（1）李明在单元格G3使用公式“=F3/$F$10”计算手机占总利润百分比，并对区域G4:G9进行了自动填充，则G9单元格的公式是
（2）李明想将编号这一列数据设计成“001，002，……，007”样式，可每次输入“001，002，……，007”样式后都自动变成了“1，2，……，7”，请给出一种解决方法
（3）根据图2所示，9月份占总利润百分比最大的商品名称是

图2
（4）将图2所示的图表以图片形式复制到Word文档中并设置了文字环绕方式，部分界面如图3所示，该图表环绕方式是（单选，填字母：A ．嵌入型/B ．四周型/C ．浮于文字上方/D ．紧密型）。

图3

下列有关数据关联分析的说法正确的是（）

A . 对数据进行预处理，发现和处理缺失值，异常数据、绘制直方图，观察数据分布的特征，求最大值、最小值、极差等描述性统计量。 B . 分析发现存在于大量数据之间的关联性和相关性，从而描述一个事物的共同规律和模式。 C . 是一种探索性的分析。不必事先给出一个分类标准，而是让其自动分类。 D . 是数据分析中最基本的方法。先基于样本数据构建分类器，然后进行预测。

我们每天都在跟各类软件打交道：聊天购物、看新闻和短视频……每一次我们的点击和滑动都会成为数据的一部分，有关组织通过数据的搜集、存储分析和可视化技术，解决大数据海量、高速、多变、价值密度低的问题，使数据从散乱的信息变成知识和智慧，帮助组织解决发展中遇到的实际问题。

对于上述描述，下列说法不正确的是( )

A . 你的每次上网行为及相关数据可能会被采集 B . 你在上网时的每次操作，蕴含着巨大的价值 C . 你在聊天、购物、看新闻和短视频等过程中，有可能泄露个人隐私 D . 网站提供给你的“个性化推荐”，依赖于你的上网行为

某组织将关于春节期间人们主要支出的调查数据进行可视化分析，其结果如图所示，下列分析错误的是( )

A . 不同年龄段的人群“买年货”的支出都比较多 B . 在“娱乐活动”的支出中，23~30岁人群的花费最多 C . 60岁以上人群支出最多的是“压岁钱”，支出最少的是“交通费” D . 在“走亲访友的礼物”支出中，51岁以上人群的花费比较多

图图收集了“近四年某高校各专业学生人数”的相关数据，并使用Excel软件进行数据处理，如图a所示。

（1）为计算图a中各个年份入学的总人数，图图已正确计算了单元格I3中的数据。他希望将单元格I3中的公式向下自动填充至单元格I6，从而正确计算出区域I4:I6中的数据，则下列修改I3中的公式方法不可行的是（单选，填字母）。
（提示：SUMIF函数用于统计某个区域中满足条件的单元格数值之和，例=SUMIF(B3:B22,H3,D3:D22)，用于统计2017年各专业男生人数之和）

A . =SUMIF($B$3:$B$22,H3,$F$3:$F$22) B . =SUMIF(B$3:B$22,H3,F$3:F$22) C . =SUMIF($B3:$B22,H3,$F3:$F22)
（2）根据图a中数据制作的图表如图b所示，创建该图表的数据区域是B2,F2,。
（3）在图a所示的工作表中对数据作进一步的数据处理，已知F列中的数据是通过在F3单元格中输入公式“=D3+E3”再向下自动填充至F22计算得到的。则下列说法正确的是。（多选，填字母）

A . 将区域B2:F22中的数据按“总人数”升序排序，则区域I3:I6中的数据不会发生变化 B . 若删除A列，则F列中的单元格将出现错误信息“#REF!” C . 将单元格D15中的数据改为“230”，则图表随之变化 D . 若要筛选出“2020年”总人数最多的专业名称，可以通过“入学年份”为“2020年”，“总人数”为最大1项筛选得到

小李收集了某校招聘教师笔试成绩数据，并用Excel软件进行数据处理，如图a所示，请回答下列问题。

图a

（1） J3单元格中显示的是参加“小学美术”职位的报考人数，利用J3单元格中的公式，对区域K3:L3进行自动填充，则K3单元格中的显示结果是( 单选，填字母:A . #VALUE! / B . 0 / C . 7)。
(提示:公式“=COUNTIF(D3:D27,J2)”统计区域 D3:D27 中值等于J2的单元格个数，即参加“小学美术”职位的报考人数。)
（2）若要正确计算各个职位报考人数，可先对J3单元格中的公式进行修改，再对区域K3:L3进行自动填充，则J3单元格中的公式应改为。
（3）根据图a中数据制作的图表如图b所示，则制作该图表的数据区域是。

图b
（4）若对区域A2:G27中的数据以“报考职位”等于“小学音乐”，“笔试成绩”最大一项进行筛选，则筛选后显示的数据一定是报考职位为“小学音乐”中“笔试成绩”的最高分吗？（选填：是/否）。

在Excel中，擅长比较数据间的多少与大小关系的是下列哪两种图表（）

A . 柱形图和条形图 B . 柱形图和折线图 C . 条形图和折线图 D . 饼形图和折线图

下面关于关联分析的基本算法错误的是（）

A . 扫描历史数据，并对每项数据进行频率次数统计。 B . 构建候选项集C1，并计算其支持度，即数据出现频率次数与总数的比。 C . 对候选项集的支持度进行筛选，筛选的数据项支持度应当小于最小支持度，从而形成频繁项集L1。 D . 对频繁项集L2进行连接生成候选项集C2，重复上述步骤，最终形成频繁K项集或者最大频繁项集。

小董收集了某黄金首饰网店的销售数据，并用 Excel 软件进行数据处理，如图a所示。

图a

请回答下列问题：

（1）区域F3:F167的数据是通过公式计算得到的，在F3单元格中输入公式，再使用自动填充功能完成区域F4:F167的计算。
（提示：活动价格（元）=重量（克）×黄金单价（元/克）×活动折扣+加工费（元））
（2）根据图a中数据制作的图表如图b所示，创建该图表的数据区域是。

图 b
（3）结合图a和图b，下列说法正确的有 _____________（多选，填字母）。

A . 若不慎将K列删除，则F3单元格的显示结果是0.00 B . 若将区域E3:E167的单元格格式设置为“数值”并保留 0位小数，“第一季度加工费”列的数值不变 C . 若将区域A165:H167数据以“列D”为关键字进行升序排序，图表会随之改变 D . 若将区域A2:H167以“品种”为手链进行筛选，再以“重量(克)”为关键字降序排序，选取排在最前面的首饰一定是最贵的手链

如下图，根据表中数据，下列描述正确的是（）

图片_x0020_100032

A . 机构数一直都在增长 B . 从业人员数一直都在增长 C . 2019年演出收入比2018年高 D . 2019年国内演出观众人次最高

如图b所示，可以看出成绩稳步上升的班级是（）

A . 高一(1)班 B . 高一(2)班 C . 高一(3)班 D . 不能确定

列关于投针实验的描述错误的是（）。

A . 投针实验起源于18世纪 B . 投针实验应用了蒙特卡洛方法并采用计算机进行模拟 C . 投针实验中拋掷的次数越多，结果偏离越大 D . 投针实验可通过“网络画板”平台进行模拟

手机导航能实时提示前方路况，主要体现了大数据的（）特征

A . 数据体量巨大 B . 速度快 C . 数据类型多 D . 价值密度低

小赵收集了近三年浙江省接待入境旅游者人数的数据，并使用Excel软件进行数据处理：

（1）在M4单元格中使用AVERAGEIF函数计算2017年亚洲所有国家的平均入境人数，然后通过自动填充得到M5：M7的公式，则M4单元格中的公式为(提示：AVERAGEIF函数用于对区域中满足条件的单元格求平均。例如：= AVER-AGEIF(A4： A18，J4， E4： E18)表示2016年所有亚洲国家的人境人数平均数)
（2）根据图a中数据制作的图表如图b所示，创建该图表的数据区域是：。
（3）在图a所示的工作表中对数据作进一步操作，下列说法正确的是 (多选：填字母)

A . 对表格数据区域A4：H18按“列A”为主要关键字升序排序，则图b中所示的图表不会发生变化。 B . 若要筛选出2016年欧洲入境旅游者人数同比增长最多的国家，可以选择A2：H18区域，以地区为“欧洲”、2016年“同比(%)”为最大1项进行筛选。 C . 若要筛选出2016 年欧洲人境旅游者人数同比增长最多的国家，可以选择A2：H18区域，以地区为“欧洲”进行筛选，再以2016年“同比(%)”为关键字进行降序排序，选取排在最前面的国家。 D . 在正确完成M4：M7计算后，小赵不小心将B列删除，则原M4：M7单元格中的数据不会发生变化。

图示为某段时间我国灯光强度变化区域示意图，黑点为主要城市位置，红色表示该区域2018年度灯光强度较2017年实现增长。下面说法正确的是（ )

①图片、文字、数值都是数据，数据就是信息

②从图片中可以看到灯光强度增长区域大集中在东部，在一定意义上也代表着东部经济比西部发展得更快

③这张示意图在计算机中是以二进制形式保存的

④灯光强度增强区域示意图的形成得益于大数据的采集和分析

A . ②③④ B . ①②③④ C . ①②③ D . ①②④

( )是项目研究结果的展示，也是数据分析结论的有效承载形式。

A . 数据分析 B . 数据可视化表达 C . 数据分析报告 D . 数据运算

大数据是以（）存取速度快、应用价值高为主要特点的数据集合。

A . 容量大、类型单一 B . 蓉量小、类型单一 C . 容重大、类型多 D . 蓉量小、类型多

很多情况下，我们需要把表格数据转换成图表数据，这样看上去对比效果更好要直观。下列类型的统计图表中，具备X轴、Y轴的是( )

A . 饼形图 B . 圆环图 C . 条形图 D . 雷达图

小明搜集了某网络购物平台2021年1月1日至2021年9月30日时间段内的日用化妆品销售数据，原始数据如下图a所示。

（1）小明对数据进行了整理，下列操作不恰当的是（）（单选，填字母）。

A . 发现记录中有6 条重复，对这6 条记录进行了删除 B . 发现记录中有38 处数据项缺失，直接删除相关记录 C . 将某条记录中订单日期“2050-6-9”订正为“2021-6-9” D . 将某条记录中订单日期“2021#3#11”修改为“2021-3-11”
（2）小明发现数据中仍有极少量时间段外的记录混杂其中，利用Python 及pandas 模块进行处理。请回答问题：
① 采用pandas 模块中的（单选：填字母：A .Series / B .DataFrame）

数据结构存储全部数据会比较高效。

② 全部数据保存于变量df 中，为筛选出订单日期为2021 年第一季度内的所有记录，

可以执行Python 语句df1 = ，则df1 中保存筛选结果。（单选，填字母。

提示：多条件筛选时，条件之间用“&”连接，表示需要同时满足这多个条件）

A．df[ (df['订单日期'] <= '2021-1-1' ) & (df ['订单日期'] <= '2021-3-31') ]

B．df [ (df ['订单日期'] >= '2021-1-1') & (df ['订单日期'] >= '2021-3-31') ]

C．df [(df ['订单日期'] >= '2021-1-1') & (df ['订单日期'] <= '2021-3-31')]
（3）经过以上两步处理之后，为了解“所在地市”第一季度“订购数量”前10 名的情况，
编写如下Python 程序段：

#数据整理结果保存于变量df1中，代码略

g = df1.groupby('所在地市', as_index = False).sum()

print )

则划线处的代码可为（）（多选，填字母）

A . g.sort_values('订购数量',ascending = False) [0:10] B . g.sort_values('订购数量',ascending = True).tail(10) C . g.sort_values('订购数量',ascending = True)[0:10] D . g.sort_values('订购数量',ascending = False).head(10)
（4）根据以上数据整理结果，小明对第一季度所在地市的“订购数量”进行可视化处理，如图b所示。

实现上述功能的Python程序部分代码如下：

#按“所在地市”对第一季度数据分组并求和，再按“订购数量”升序排序

#选取最后10条数据，存入变量s，代码略

import matplotlib.pyplot as plt

x = s['所在地市']

y =

plt.barh(x, y, color = 'r')

plt.show( )

程序中划线处代码应为。
（5）小明借助大数据技术，对近几年来该网络购物平台的日用化妆品销售数据进行了分析。
应用该分析结果可能提供的数据服务是（列举一条即可）。

5.1 走近数据分析 知识点题库

5.1 走近数据分析知识点题库