4.2 大数据处理 知识点题库

根据下图用函数填空:

①求参加语文考试的学生人数的函数:

②求所有同学数学成绩的平均分的函数:

③求总分最高的学生分数 的函数:

④求“谢娜”同学所在的等级的函数:

(说明:总分>=250,等级“优秀”,250>总分>=200,等级“良好”,200>总分>=160,等级“合格”,其他为“不合格”。)

图1是时代电器广场用Excel制作的9月份主要商品销售统计表。

图1

请根据表中数据回答下列问题:

  1. (1) 李明在单元格G3使用公式“=F3/$F$10”计算手机占总利润百分比,并对区域G4:G9进行了自动填充,则G9单元格的公式是
  2. (2) 李明想将编号这一列数据设计成“001,002,……,007”样式,可每次输入“001,002,……,007”样式后都自动变成了“1,2,……,7”,请给出一种解决方法
  3. (3) 根据图2所示,9月份占总利润百分比最大的商品名称是

    图2

  4. (4) 将图2所示的图表以图片形式复制到Word文档中并设置了文字环绕方式,部分界面如图3所示,该图表环绕方式是(单选,填字母:A .嵌入型/B .四周型/C .浮于文字上方/D .紧密型)。

    图3

小方使用Excel分析某网店2018年第四季度销售的相关数据,部分界面如下图所示:

  1. (1) 表中本季总销量的计算是通过在L5单元格中输入公式,并将公式自动填充到L18单元格后得到的,请问,L8单元格中的公式是
  2. (2) 建立了一张反应本季单品总盈的柱型图,如下图所示:应选择的数据区域是,图表生成后,小方对本季单品总盈这列数据进行了 操作,已生成的图表(填“会”或“不会”)发生变化。

  3. (3) 对表中各产品的“进价(元)”和“12月销量”的数据进行筛选操作,筛选条件设置如下图所示,则按此设置筛选出的产品有个。

使用Python编程研究一组幂函数的图象问题,程序如下。

import matplotlib.pyplot as plt

import numpy as np

# numpylinspace(start, stop, num=50)

#产生从start到stop的等差数列,num为元素个数,默认50个

x = np. linspace(-1,1,50)

forn in [1/3,1/2,1,2,3]:

    y=x**n

               

plt. show( )

请回答下面问题:

  1. (1) 划线处应填写的语句是
  2. (2) 程序运行后,绘制了个函数的图象,分别为
编写如下 Python程序研究随机数值的分布情况,某次运行时绘制的图形如图所示。

import numpy as np

import matplotlib.pyplot as plt

plt. figure(figsize=(9,6))

n=5000

x=np. random. randn(1,n)    #返回n个随机数,具有标准正态分布

y=np. random. randn(1,n)

t=np. arctan2(x,y)    #函数arctan2(x,y)返回给定的坐标值的反正切值

plt. scatter(x,y,c=t,s= 15,alpha=0.5,marker='o')

# s:散点的大小,t:散点的颜色, alpha:是透明程度

请回答下列问题:

  1. (1) 每次运行程序绘制的数据点个数为 。
  2. (2) 每次运行程序绘制的散点图 (选填:“相同” 或“不同”)。
  3. (3) 本次绘制的散点图中,数据点的分布有什么特征?
下列数据处理中,不属于文本数据处理的是(    )
A . 对简历数据进行关键信息提取,构建人才画像,匹配精准岗位 B . 分析消费者的意见数据,挖掘用户观点,辅助运营决策 C . 实时监测景区的人流数据,及时导流、限流 D . 解析大量合同文档,有效监控风险条款,节省人力和时间成本
对比分析法也叫比较分析法,分为横向和纵向对比。
下列不是有关趋势的分析的是(     )
A . 折线图 B . 柱形图 C . 堆叠柱形图 D . 圈图
小刘开发了“留言收集系统”的应用软件。为了实现收集论坛某用户名发表的所有留言,他使用Python外接Requests函数库(爬虫)来采集数据。系统将根据用户输入的关键字采集数据,并将采集到的数据存储到数据库中。
  1. (1) 采集后的数据是一个有序的文本数据,系统根据关键字进行搜索,并将搜索到的时间和留言内容保存到result数据表中。请你为该数据表设计字段,写出至少3个字段名称及其数据类型。

    字段名

    数据类型

    备注

     

       

     

       

     

       
  2. (2) 编写FlaskWeb框架的Python程序,实现输入关键字,单击“搜索”按钮,显示result数据表中字段key值为所输入关键字的所有记录数。输出界面如图所示。

    请完善横线处的代码,实现将resut数据表中字段key值为txt(网页表单输入的关键字字符)的记录保存到列表变量rec中,并统计数量保存到sum中。

    from flask import Flask, render_template

    import sqlite3

    #打开Flask网页模板和打开数据库并建立conn对象等代码略

    app= Flask(_ name_ )

    app.config['SECRET_KEY']='xxx_Sss_ 1276589'

    bootstrap = Bootstrap(app)

    class NameForm(FlaskForm):

        txt = StringField('查询:', validators=[DataRequired( )])

        submit = SubmitField('搜索')

    @app.route(/)

    @app.route('/cx', methods=['GET', 'POST'])

    def index_cx( ):

        rec=[ ]

        sum= 0

    cu = conn.cursor( )   #建立游标对象

    rec =        #使用fetchall( )函数将结果保存到列表rec中

    sum =       #统计列表变量rec的数量

    conn.commit( )       #执行数据库语句

    ru.close#关闭游标对象

    conn.close

    return render_ template('t4.html', form-myform, txt=sum)

    if _name_ ='_main_':

    app.run( )

小王收集了某公司员工六月的薪资数据,并用Excel软件进行处理,如图a所示。

请回答下列问题:

  1. (1) 区域K4:M7中的数据是从K4单元格利用自动填充功能得到的,则L5单元格中的公式是=AVERAGEIF ()。
  2. (2) 根据题图a中的“平均薪资统计”表数据直接生成如图b所示的图表,则创建该图表的数据区域是

  3. (3) 结合题的图a和图b,下列说法正确的是                (多选,填字母)。
    A . 若不慎将H列数据清除,则M4:M7显示结果是0.00 B . 若将区域K4:M7设置小数位数为1位,则图b所示的图表不会发生变化 C . 若将区域B3:H39按照“工资总额”进行降序排序,则图b所示的图表会发生变化 D . 若将区域B3:H39先以“职务”为“高级工程师”进行筛选,再以“加班工资”为关键字降序排序,则排在最前面的是加班工资最多的高级工程师。
数据分析的常见方法包括平均分析、对比分析、交叉分析。
以下属于数字化可视化表达工具的是(   )。
A . 思维导图 B . 搜索引擎 C . QQ D . 电子邮件
某商场想捆绑销售商品,应使用方法。
下列描述的场景与处理方法使用不恰当的是(  )
A . 分析前一年的高铁客流数据优化高铁运行采用批处理计算 B . 京东网双12通过实时分析用户行为实现商品的推荐采用流计算 C . 图计算为腾讯超大规模社交网络图数据的各类计算提供支撑 D . 分析近五年的信息技术选考试卷梳理高频考点采用流计算
下列属于数字化可视化表达工具的是(         )
A . 微课视频 B . 笔记本电脑 C . 课件 D . 思维导图
2020年双十一期间,甲电商平台销售额超过4900亿元,同比增长26.7% ;乙电商平台销售额超过2700亿元,同比增长33%。对此数据进行分析,下列正确的是(    )
A . 通过分析可知,乙电商平台销售额增速低于甲电商平台 B . “双十一”、“电商平台” 等文字不是数据 C . 4900亿、 2700亿仅为大约数值,并不是数据 D . 面对电商平台每天产生的海量数据,需运用大数据技术来分析,挖掘其中蕴藏的价值
图为2020年2月3日-4月15日我国工程建设领域复工率(含新建项目)、复工强度变化的图标表达,下面说法正确的是(        )

A . ①②④⑤ B . ①②③ C . ③④⑤ D . ①④⑤
以下哪一个选项不是数据分析主要用于的场景(       )
A . 现状分析 B . 数据运算 C . 原因分析 D . 预测分析
小明上网查询了浙江省新冠疫情各个地级市的相关数据(截止4月28日16时),并制成了Excel表格,界面如图a所示,请回答下列问题。

图a

  1. (1) J4:J14区域的数据是通过J3的单元格进行自动填充得到的,则J3单元格的公式是 (累计确诊百分比=当前市累计确诊/总计累计确诊*100)

    图b

  2. (2) 根据第图a中数据制作的图表如图b所示,创建该图表的区域是
  3. (3) 下列描述正确的是          
    A . 若单元格C3被误删,则J3单元格显示为#REF! B . 若要对数据按照“累计确诊”进行排序,排序区域为A2:J14 C . 将A2:J13复制到新的工作表中,以“累计确诊”最大3项筛选,再按“新增本土”最大3项筛选,结果筛选出2条记录 D . 在列A后插入一列,J列“累计确诊占全省的百分比(%)”相应数据不发生变化 E . 对区域A2:J13按照“现有确诊”排序后,图b会发生变化
“抖音”APP会针对用户喜好推送视频。该推送功能是基于对大数据的分析,在进行大数据分析时不需要的操作是(   )。
A . 收集、分析用户在不同视频上停留的时间 B . 分析关键词所属的视频类别 C . 采集用户搜索的关键词 D . 统计用户使用抖音的时间
最近更新