5.1 走近数据分析 知识点题库

以下为2016年亚冠比赛部分球队的技术统计表,请根据表格提供的信息回答下面小题。

  1. (1) 分析数据表,该表F3单元格的公式应该为,若要把小数点后位数设置为2位,应该在下图格式设置进行设置。

  2. (2) 一同学选中I2:I12并如下图提示继续完成对球队的攻次数从高到低排序,请问排序完成后“排名”列的顺序会不会发生改变(填  会/不会);若按射正率进行排序应该选择的区域是

  3. (3) 下图图表的数据源区域为,若不小心把I3的数据改变了,请问图表中对应的柱形图会不会改变(填:会/不会)。

小王收集了2017年5月美国SUV销量排行榜数据,并用Excel进行数据处理,如图a所示。请回答下列问题:

  1. (1) 为计算同比变化情况,小王首先在E4单元格输入公式=(C4-D4)/D4,然后选中E4单元格Ctrl+C复制,随后在H4单元格热行Ctrl+V粘贴,然后向下填充H5:H13区域,则单元格H13的公式是
  2. (2) 小王需对2017年5月的同比变化数据(第E列)进行降序排序,则应选择的排序区域是
  3. (3) 小王需筛选出2017年1-5月销量(第F列)位于前3名的车型,他首先选择A2:H13区域,然后执行筛选操作,却发现无法得到筛选结果,试分析其操作中的错误原因
  4. (4) 小王根据表中数据制作了如图b所示的图表,则建立该图表的数据区域是

小刘收集了“技术学科2017届,2018届选考成绩”相关数据,使用Excel处理,部分界面如图a所示。

图a

请回答以下问题:

  1. (1) 区域D4:D11的数据由单元格D4中的公式自动填充得到,为了保证修改各档人数后“单档比例”仍然正确,则D4单元格中输入的公式是
  2. (2) 若要将各档数据按“累计比例差”升序排序,排序时应选择的数据区域是
  3. (3) 小刘为了对比2017届、2018届各档比例,制作了如图b所示的图表。

    图b

    结合原始数据和图表,下列说法正确的是______(多选)。

    A . 将D4:D11中的公式复制并粘贴到H4开始区域,一定可以得到“2018届各档比例” B . 各档数据按“累计比例差”升序排序后,图表中数据先后位置也会变化 C . 将B4单元格的数值改为33,图中仅2017届“100人数”所对应的“柱形”变短 D . 选择“A4:A11,D4:D11,H4:H11”作为数据区域,并对标题、图例进行设置,可生成上述图表
数据分析的常见方法包括(   )
A . 对比分析、关联分析、平均分析 B . 对比分析、平均分析、交叉分析 C . 交叉分析、关联分析、平均分析 D . 关联分析、对比分析、交叉分析
下图一是某校高二信息技术课选修模块的人数统计表。

图片_x0020_100005

图一

  1. (1) 图一中第B列第10行单元格是B10,表示所有班级选择 “模块一”的人数之和。那么表示所有班级选择 “模块三”的人数之和的单元格是,其值为
  2. (2) 图一中计算单元格B10的值用到的计算公式是SUM(B4:B9) ;单元格G4是表示高二(1)班选修各模块人数总和,写出一种计算单元格G4的值的公式
  3. (3) 表格数据的图形化表达类型有柱形图、饼图、折线图等,图二中能清楚地表示各个选修模块人数占所有人数的百分比的图形的序号是,其图形化表达类型为

    图片_x0020_100006

我们可以把数据放在第三方公共或公有的“云端”存储。
数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
大数据其实就是海量资料巨量资料,这些巨量资料来源于世界各地随时产生的数据,在大数据时代,任何微小的数据都可能产生不可思议的价值。
小李收集了2020年浙江省城市主要经济指标的数据,并使用Excel软件进行数据处理,如图a所示。

图a

请回答下列问题:

  1. (1) 如图a所示,“省内位次”(嘉兴在全省各城市中的排名)行的数据是通过RANK函数计算得到,在B17单元格中输入公式后,使用自动填充功能完成区域C17:I17的计算。现如果把B17单元格中的公式改为=RANK(B9,B6:B16),那么向右自动填充完成区域C17:I17的计算,是否会出错。(填:会/不会)(提示:RANK函数语法形式:RANK(number,ref),其中number为需要排名的那个数值或单元格,ref为排名的参照数值区域)
  2. (2) 对浙江省内城市(不包含浙江省)的三大类产业的“实绩”列同时进行筛选,筛选设置都如图b所示,则筛选出的城市个(填数字)。

     

    图b

  3. (3) 根据图a中的数据制作图表如图c所示,下列说法正确的有          (多选,填字母)。

    图c

    A . 柱形图可以比较直观的显示数据多少,而饼图可以比较形象的显示各组成所占比率 B . 由图c可知,图表选择的数据区域是A5:A16,F5:F16 C . 对数据区域A6:I16,按列B降序排序,图c所示图表会随之改变 D . 在图a所示工作表的“地区”列前插入一列“地区编号”,图c所示图表不会随之改变
项目学习:解密盛唐时期诗人关系

[项目情境]

唐代诗人史传有名有姓者不下千余人,他们组成了大大小小不同的朋友圈。有的因为诗风接近,如李白代表的浪漫主义、杜甫代表的现实主义、王维代表的田园山水、芩参代表的边塞诗风;有的因为年龄大体相近,如盛唐时期的李白、杜甫、贺知章等;有的因为政见相近,如韩愈作为古文运动的领袖级人物,当时很多文人墨客以进人他的朋友圈为荣。在盛唐时期有这样一个朋友圈,他们的友谊跨越数十年,诗人之间通过互动诗歌,表达、抒发情感,是他们朋友圈的一种表现方式,用计算机来分析这个时代的唐诗,就会发现诗人之间有着你意想不到的千丝万缕的关系。学校某研究性学习小组利用大数据分析技术,通过对诗词分析,绘制盛唐时期几位诗人(杜甫、李白、王维、孟浩然……)之间的社交关系网络图,试图推测哪位诗人是同时代诗人的核心,哪位诗人的影响最大,从而更好地学习、理解唐诗。

[项目准备]为完成项目,需要确定主题、目标、制订规划等各项工作。在此不一一展示。明确的主题——盛唐时期的诗人及诗词分析和诗人社交关系网络图

[项目实施]项目研究主要以诗人诗作为依据。具体实施过程如下:

  1. (1) 明确需要采集的数据,选择合适的采集途径、工具和方法。

    全唐诗一共四万多首,分析采集相关数据的条件:①盛唐时期;②诗人、诗人之间经常称呼对方的别名;③考虑到同名同姓的问题,因此还需要诗人的生卒年的信息。

    根据要求,完成答题。

    ①全唐诗数量较多,一共四万多首,来源分散,存储在互联网不同的服务器与各客户终端。从大数据存储与计算的角度来看,由此可知大数据具有的特征。(单选)

    A.精确让位于模糊

    B.价值密度低

    C.分布式存储

    D.变化速度快

    ②网络上如此海量的关于唐诗的数据,有文字图片、视频、音频等。这些数据种类和格式也不一致,表明各种数据共存于网络中。(多选)

    A.结构化

    B.半结构化

    C.非结构化

    D.网状结构

    ③面对繁杂的数据,学习小组决定研究解密盛唐时期诗人关系,并利用计算机程序从网络中采集诗人别名等相关的文本数据,并以一定的数据结构存储,形成盛唐诗库。存储数据主要有两种方式,一种是,一种是数据云存储。你建议学习小组采用数据存储方式,理由是

  2. (2) 利用Python程序采集、整理、分析数据。

    第一步,从互联网中筛选出符合条件的诗人及诗作等文本,整理并形成盛唐诗库;第二步,确定人物关系分析策略,即从唐诗库中搜索、统计诗人或别名的引用次数,确定二人之间的疏密关系,规则是诗的标题和正文中只要提到过对方,那么两者之间的引用关系加1,若一首诗中提到多次对方,只算一次引用;第三步,编写程序并调试验证。

    用爬虫程序段(如下图所示)采集数据。根据要求,完成答题。

     

    使用爬虫程序获取文本数据并形成唐诗库文件,所使用的数据采集方法为(选填:系统日志采集法、网络数据采集法、其他数据采集方法)。阅读程序可知,每首诗存放于列表poem[ ]中(以唐诗“春晓”为例,如下表),采集后的数据保存在poet.txt文件中,该文件是一个(选填:数据库文件、文档文件、图像文件、网页文件)。该数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的数据文件,并以化的方式存储(选填:结构化、半结构化)。

    Poem[0]

    Poem[1]

    Poem[2]

    Poem[3]

    “春晓”

    “唐"

    “孟浩然”

    “春眠不觉晓……花落知多少”

    以诗人甲,乙为例,解密二人关系。根据要求,完成答题。

    ①数据处理过程中要运用一定的分析方法对大量、无序的数据进行整理、分析,挖掘数据内在的结构和规律,从而提取有价值的、有意义的数据。数据分析一般包括特征探索、关联分析、聚类与分类等。让计算机搜索遍历唐诗库中有关甲,乙两位诗人的诗文,统计两位诗,人或别名相互的引用次数,找寻二人之间的关联。这是运用了(选填:特征探索、关联分析、聚类与分类)方法进行数据分析,也是(选填:枚举、二分查找、排序)算法思想去求解这一问题的体现。

    ②编制计算机程序解决问题的过程中,是编程的核心, 是解决问题的方法和步骤。选用Python程序设计语言编写程序,Python属于(选填:分析问题、设计算法、编写程序、调试运行、机器语言、汇编语言高级语言)。图a示意,使用 (选填:自然语言、流程图、伪代码)进行算法描述,且运用循环控制结构嵌套了控制结构,如果要跳出本次循环体的执行,应使用语句实现跳转。

    ③阅读程序(图b示意),程序中以“#”开头的语句,其作用是,程序调试完成,通过“另存为”保存文件,文件后缀名为

  3. (3) 分析数据,进行可视化表达,并推测盛唐时期诗人关系。

    解密盛唐时期诗人关系。根据要求,完成答题。

    ①数据的可视化以易于理解的方式展示和诠释数据之间的关系、趋势与规律等,使人们更好地理解数据。从常用和实用的维度,数据可视化的呈现类型主要分为探索型和解释型,其中型可以帮助人们发现数据背后的价值,型则把数据简单明了地解释给人们(选填:探索、解释)。数据分析类型不同可视化呈现方式也不同,如关于趋势的分析,可用类型的图表呈现,关于比例的分析,可用类型的图表呈现,关于关系的分析,可用类型的图表呈现。

    ②学习小组选择用网络关系图呈现盛唐时期诗人社会网络关系(如图所示)。图中,箭头表示诗人之间的引用关系,如李白引用了贺知章,那么就有李白指向贺知章箭头;箭头的粗细程度则表示了诗人之间引用关系的强弱,如李白引用孟浩然的数量达4次,箭头就要粗一些。

    ③观察图示,从绘制的盛唐的诗人社交关系网络图,尝试推测哪位诗人是盛唐诗人的核心,哪位诗人的影响最大,请简要阐述。(要求100字左右)

    ④通过对该项目案例的研究学习,请谈谈大数据对学习生活的影响。

小明想运用Excel统计这个学期自己月考、期中考和期末考的数学成绩,用图表反映出自己的进退步情况,请问他该用哪种图表能更好的反映成绩的变化趋势呢?(    )
A . 柱形图 B . 条形图 C . 折线图 D . 饼形图
手机导航应用能够实时推荐最快路线,主要体现了大数据的(     )特征。
A . 数据体量巨大 B . 数据类型多 C . 数据变化速度快 D . 价值密度低
在2021年7月23日到8月8日举行的“2020东京奥运会”上,共有206个国家、地区、独立代表团的11669名运动员参赛,争夺339枚金牌。奥运会闭幕后,小明从网上下载了金牌数前10名的国家,数据如图-1所示,然后根据各国金牌数绘制了柱形图,如图-2所示,请回答下面问题:

  1. (1) 在图-1中,表格标题“2020东京奥运会奖牌榜”所在的单元格是
  2. (2) 小明根据金牌数来计算各国名次,金牌数最多的为第1名,金牌数量相同名次也相同。小明采用“COUNTIF"函数在A3单元格计算美国队的名次,并自动填充到A4:A12单元格来计算其他国家的名次,则A3单元格应该输入(提示:“COUNTIF" 函数的功能是根据指定的条件来计数,例如=COUNTIF (F3:F12, ">"&F4)表示F3:F12范围内,统计比F4大的数的个数,结果是1。)
  3. (3) 根据图-1表格中的数据制作了图-2的图表,下列说法正确的是         (填字母)
    A . 绘制图-2图表时选择的数据区域是B3:C12 B . 将图-1表格中的数据以“奖牌总数”为关键字进行降序排列后,图-2的图表会发生变化 C . 若在图-1表格中“金牌”列前插入“参赛人数”列,图-2的图表会发生变化 D . 在图-2图表中的柱子上显示了金牌数据,这是通过“添加数据标签”实现的 E . 对图-1表格中。“国家/地区”列设置筛选条件为“包含国”,师选后,在图-2图表中看不到“日本”的情况(图表“隐藏和空单元格设置”默认
导航软件提供了“未来出行”功能,用户可以设定未来出行时间,软件利用大数据分析,预估未来行程所需时长,为用户合理规划出行时间提供参考。这一功能凸显了大数据分析的哪一个核心作用?(  )
A . 了解事物的现状 B . 剖析事物的发展历程 C . 预测事物的未来走向 D . 数据价值化
数据分析的方法不包括(     )
A . 线性分析 B . 关联分析 C . 聚类分析 D . 数据分类
下列关于数据分析报告叙述正确是

①数据分析报告是项目研究结果的展示

②数据分析报告是数据分析结论的有效承载形式

③通过报告不仅是把数据分析的起因、过程、结果及建议完整的展现出来

④数据分析报告不能为决策者提供科学、严谨的决策依据

下列不属于大数据特征的是()
A . 数量大 B . 多样性 C . 稳定性 D . 速度快
小王收集了2021年8月我国50个城市部分食品平均价格变动情况数据,并使用Excel软件对数据进行处理,如图a所示。

请回答下列问题:

  1. (1) 区域F3:F12 的数据是通过公式计算得到的,在F3单元格中输入公式 ,再使用自动填充功能完成区域F4:F12的计算。
  2. (2) 完成F3:F12的计算后,小王误删了第14行,则F3单元格中显示为(单选,填字母:A . #REF!\ B . #VALUE!\C . 30.93)
  3. (3) 小王根据EXCEL表中数据创建了如图b所示柱形图。结合图b,下列说法正确的有                。(多选,填字母)。

    A . 创建图b的数据区域为B2:E5 B . 由图可知,三种水产品8月份的价格相对稳定 C . 对区域A6:F12根据列C进行升序排列,则第13题图b会随之改变 D . 删除第13题图b中活草鱼中旬价格的柱子,则第13题图a中D4单元格的数值也会消失
某校一个班学生成绩的统计数据,用Excel软件进行数据处理,如图a所示。请回答下列问题:

图a

  1. (1) 下列关于数据整理的说法,不正确的是(   )。
    A . 数据处理的核心是数据,所以在进行数据分析和数据挖掘前,通常进行数据整理。 B . 数据集中的异常数据,可以用平均值、中间值或概率统计值来修改异常值。 C . 不同来源的数据可能存在格式不一致的情况,需要进行统一转换。 D . 数据整理的目的是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。
  2. (2) 图a中C9单元格复制粘贴至H41,可知H41单元格公式为
  3. (3) 根据图a中的数据,作了一张某小组学生总分图表,如图b所示,则制作该图表的数据区域是

    图b

在数据处理中,除了可以对数值型数据进行分析外,还可以对文本、图像等数据进行分析。

最近更新