4.2 大数据处理 知识点题库

四川雅安地震发生后,某公司各部门员工积极捐款,公司决定对捐款最多的部门进行表扬。现有一张含有员工姓名、部门、捐款额等信息的Excel工作表,能快速得到捐款最多的部门的方法是(   )   
A . 按捐款额排序 B . 按部门+捐款额排序 C . 自动筛选 D . 按部门分类汇总捐款额
Excel文件的扩展名默认为(   )   
A . ppt B . doc C . xls D . htm
以下属于大数据应用实例的是(     )。

①某系统通过用户视频点播的基础数据如评分、播放、快进等,分析计算出用户可能喜爱的影片,并为他提供定制化的推荐

②某网站通过追踪用户在其网络的行为,识别用户在它的网络中的好友,从而给出新的好友推荐建议

③某交通流量数据公司依靠分析历史和实时路况数据,能给出及时的路况报告,以帮助司机避开正在堵车的路段,并且帮他们提前规划好行程

④某保险公司天都会对美国境内超过100万个地点、未来两年的天气情况进行超过1万次模拟,而后将根系结构和土壤孔隙度的相关数据,与模拟结果相结合,为成千上万的农民提供农作物保险

A . ①②④ B . ①②③ C . ②③④ D . ①②③④
如图1是某校信息技术成绩概况表,分析回答下列问题:

图1

  1. (1) 如图1所示,区域C3:C14是通过公式计算得到的,要实现计算,可以选择区域中的C3单元格,输入公式,然后利用自动填充功能完成其他单元格的计算。

    (提示:合格数=实考数*(1-不及格率))

  2. (2) 若要将表格中的数据对班级按“优秀率”进行从高到低的排序,应选择的排序数据区域为
  3. (3) 若要用图表直观显示各班实考人数占全校实考人数的占比情况,应选择的数据区域是
  4. (4) 根据图1中数据制作的图表如图2所示,在下列操作中,能引起图表发生变化的是(多选,填序号:A . 以“平均分”为关键字对表格数据进行排序;B . 选定区域D3:D14设置单元格格式,保留2位小数;C . 把单元格D6的数据手工修改为73.4;D . 通过函数计算出全校平均分,填在单元格D15 )。

    图2

   迭代法也称,是用计算机解决问题的一种基本方法。迭代通常是为了接近并达到所需的目标或结果。每一次对过程的称为一次“迭代”,而每一次迭代得到的会被用来作为下一次迭代的
结合分治策略,递归也可以用三个字概况。分:将原有问题成K个子问题;治:对这K个子问题。如果子问题的规模仍然不够小,则将其再分解为K个子问题,如此进行下去,直到问题足够小时,就很容易求出子问题的解。合:将求出的小规模问题的解为一个更大规模问题的解,自下而上逐步求出原问题的解。
下列关于聚类挖掘技术的说法中,错误的是(   )。
A . 不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B . 要求同类数据的内容相似度尽可能小 C . 要求不同类数据的内容相似度尽可能小
数据可视化的呈现类型有(     )
A . 探索型 B . 试探型 C . 逻辑型 D . 布尔型
Seaborn是主要关注(     )的可视化。
A .   统计模型 B . 交互式 C . 操作式 D . 驱动式
如下图,根据表中数据,下列描述正确的是(   )

图片_x0020_100032

A . 机构数一直都在增长 B . 从业人员数一直都在增长 C . 2019年演出收入比2018年高 D . 2019年国内演出观众人次最高
某超市统计了特价商品的相关信息,用Excel软件对商品数据进行处理,如图a所示。

  1. (1) 要通过自动填充将“编号”列的值填充为如图a所示的序列“01,02,……,74”,则可先将该区域单元格格式设置为(单选,填字母:A .数值/B .货币/C .百分比/D .文本)。
  2. (2) 图a中区域H4:H75的折扣率是根据H3单元格自动填充得到,则H3单元格中的公式(折扣率=(零售价–特价)/零售价×100)
  3. (3) 对区域A2:H75进行相关数据分析,下列说法错误的是       (多选,填字母)。
    A . 删除了“单位”列,“折扣率%”列数据不会发生变化 B . 若要找出所有名称中含“茶”的饮料,可对“名称”列按图b条件进行筛选 C . 为找出“产地”为浙江,折扣率最大的商品,可以“产地”等于“浙江”为条件进行筛选,再对“折扣率%”进行筛选,选择“10个最大的值”,并显示为最大的1项 D . 为找出“产地”为广州,零售价格最高的商品,可以“零售价格”为关键字降序排序,再对“产地”进行筛选,条件为“广州”
关于新冠肺炎疫情的信息,由疫情实时大数据报告(如图为部分数据截图)获知,其中用汉字、数值、加减符号描述疫情确诊、治愈、死亡等情况;还可以用颜色、数据表、图描述疫情地区分布、境外输入确诊趋势等情况。请运用数据信息、知识与智慧之间的相互关系完成下列判断。

  1. (1) 疫情实时数据记录的形式有汉字、颜色、图等,因此数据具有二进制性特征。
  2. (2) 图1中用深红色突出显示确诊人数在10000以上的地区,深红色是数据,也是载体,它所承载的信息是“新冠肺炎确诊人数≥10000”。
  3. (3) 由图2可获知“新型冠状病毒肺炎国外新增确诊人数呈上升趋势”。
  4. (4) 由图1中“数据更新至2020.10.21 15:26”表明信息具有时效性,一旦超过其“生命周期”就失去原有的效用,成为历史记录。
  5. (5) 从图中获取新冠疫情数据和信息,不仅能帮助我们了解疫情情况,还能帮助我们解决个人防护问题。
  6. (6) 知悉新冠肺炎具有传染性后,我们需要学习新冠肺炎预防知识进行个人防护。
数据处理的一般过程是:采集—分析—整理—可视化表达。
某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这种属于数据的(  )
A . 聚类分析 B . 关联分析 C . 分类分析 D . 回归分析
自新冠病毒感染肺炎疫情爆发以来,各大网络平台纷纷使用大数据技术进行实时分析。以下是某网站2021年6月10日的全球新增确诊可视化分析报告。在对数据进行分析时,该分析采用了(   )。

A . 横向对比分析法 B . 纵向对比分析法 C . 平均分析法 D . 结构分析法
小王收集了2011~2020年我国电力行业发展的部分数据,并使用Excel软件对数据进行处理,如图a所示。

请回答下列问题:

  1. (1) 利用M4单元格中的公式通过自动填充功能完成区域M5:M12的计算,如果继续填充到MI3单元格,则M13单元格中显示为。(单选,填字母: A . 0/B . #VALUE! 1/C . #DIV/0!)
  2. (2) 区域L4:L13的数据是通过公式计算得到的,在L4单元格中输入公式,再使用自动填充功能完成区域L5:L13的计算。
  3. (3) 为了反映2011~2019年我国电力行业五类发电投资变化储况,根据图a中的数据创作的图表如图b所示。综合图a和图b,下列说法正确的有           (多选,填字母)。

    A . 创建该图表的数据区域为A4:A12,G4:K12 B . 2011~2019年间五类发电中投资最少的是太阳能发电。 C . 对图a中数据按年份进行降序排序后,图表会随之发生变化。 D . 对图a中数据按太阳能发电量大于200进行筛选后,图表会随之发生变化。
图像的存储和处理在计算机内部的是采用二进制的形式,一幅图像常常由分辨率、颜色深度的方式来存储,Python的PIL模块能够直接读取图像中每个像素点的颜色信息,一般采用 RGB(红:0~255,绿:0~255,蓝:0~255)的方式表示颜色。现有一幅红字白底图像1.bmp,基本信息如下:

1 bmp

1 bmp属性截图

#程序段 1:

from PIL import Image

import numpy as np

import matplotlib.pyplot as plt

img=np.array(Image.open('1.bmp').convert("L"))

rows,cols=img.shape#获取图像的行数和列数

for i in range(rows):

for j in range(cols):

if img[i,j]>128:

img[i,j]=0 #设置为黑色

else:

img[i,j]=1 #设置为白色

plt.figure("1.bmp")

plt.imshow(img,cmap="gray") #以灰度模式显示

plt.axis("off")

plt.show()

说明:以上程序段1实现将1.bmp 以黑底白字显示

请根据以上信息回答下列问题:

  1. (1) 程序段1运行过程中,变量j的值范围是
  2. (2) 程序段2调试时出现“IndexError: index 128 is out of bounds for axis 1 with size 128”的提示,则上述程序出现这个错误的语句是

    A. rows,cols=img.shape                        B. for i in range(rows)

    C. img[i,j],img[i,cols-j]=img[i,cols-j],img[i,j]       D. plt.imshow(img,cmap="gray")

    应该修改为:

  3. (3) 将第(2)题表述的错误修改正确后,程序段2运行后图片呈现的内容:

    #程序段 2:

    from PIL import Image

    import numpy as np

    import matplotlib.pyplot as plt img=np.array(Image.open('1.bmp').convert("L"))

    rows,cols=img.shape

    for i in range(rows):

    for j in range(cols//2):

    img[i,j],img[i,cols-j]=img[i,cols-j],img[i,j]

    plt.figure("hh")

    plt.imshow(img,cmap="gray")

    plt.axis("off")

    plt.show()

某品牌公司统计商品年销售数据,并用Excel软件进行数据处理,部分数据如第13题图a所示。请回答下列问题:

  1. (1) 图a中H2:K2单元格计算各销售渠道销售总额在2021年度总销售额中的占比,I2:K2的值是通过H2单元格自动填充得到,则H2单元格公式为

    (提示:各销售渠道销售总额在2021年度总销售额中的占比=各销售渠道销售总额/2021年度总销售额* 100)

  2. (2) 根据图a中的数据,制作了一张部分销售渠道2021年销售额走势图表,如图b所示,则制作该图表的数据区域是

  3. (3) 下列有关对图表和数据表操作描述,正确的是            (多选)。
    A . 将H2:K2区域设置单元格数字格式保留3位小数,会影响第13题图b所示图表效果 B . 为增加统计数据,在“月份”列后插入一列新数据,不影响原区域H2:K2所对应的新区域中的值 C . 要对2021全年12个月数据按“品牌官网”销售额排序,可以仅选择B2:B14 区域进行排序 D . 要筛选出电商平台和抖音直播间销售额均排在最高前三位的月份,可同时设置“电商平台”和“抖音直播间”列筛选条件为“最大的3项”得到
(      )是项目研究结果的展示,也是数据分析结论的有效承载形式。
A . 数据分析 B . 数据可视化表达 C . 数据分析报告 D . 数据运算
使用Excel软件,处理浙江省2020年各行业、各类型就业人员人数相关数据,如图a所示。请回答下列问题:

  1. (1) D4单元格正确计算了国有单位就业人数占比,通过复制D4单元格中的公式粘贴到F4和H4,并对区域F5:F23和H5:H23进行自动填充,发现计算结果不符合要求。若要正确计算F列和H列的数据,应将D4单元格的公式修改为 。
  2. (2) 根据图a中数据制作的图表如图b所示,创建该图表的数据区域是

  3. (3) 结合图a和图b进行相关数据分析,下列说法正确的是              (多选,填字母)。;
    A . 图b柱形上方的数值可以通过数据标签进行添加。 B . 对“合计”列设置筛选条件为最大3项,则筛选出的行号为7、9、20。 C . 对数据区域A3:H23以“合计”为主要关键字进行降序排序,则图b会发生改变。 D . 在图a所示工作表的“合计”列前插入一列,D列的数值会发生改变。
最近更新