5.3.3 聚类分析 知识点题库

EXCEL中分类汇总之前首先要对分类字段进行(  )
A . 有效计算 B . 排序 C . 筛选 D . 汇总
小明收集了近年我国网民手机互联网应用使用率的相关数据,并使用Excel软件进行数据处理,如1 图所示。

1 图

请回答下列问题:

  1. (1) 区域H4:H10的数据是通过公式计算得到的,在H4单元格输入公式时应用了RANK函数,并用自动填充功能完成区域H5:H10的计算,则H4单元格中的公式是。(提示:如RANK(A1,$A$1:$A$8)表示A1在A1:A8范围内的排名值)
  2. (2) 对1 图中的数据按2016年的用户规模作为关键字进行降序排序,出现如第 2 图所示的错误,改正的方是

    2 图

  3. (3) 若要以1 图中的数据,制作一张反映2014-2016年各应用领域的网民使用率变化趋势的图表,应选择的图表类型是(填字母:A .柱形图 / B .折线图 / C .饼 图),选择的图表区域是
  4. (4) 将区域 A3: H10 的数据复制到新工作表,在新工作表中设置如第 20 题-3 图所示的筛选条件,则按此设置筛选出的行有行(填数字)。
小王收集了近十年国家公务员考试报考情况数据,并使用Excel软件进行数据处理,如图a所示。

图 a

请回答下列问题:

  1. (1) 区域G3:G12的数据是通过复制E3单元格,再选中G3单元格粘贴,然后向下自动填充得到的,则G3单元格中的公式是
  2. (2) 区域A2 :G12数据区域已进行了排序。排序时,选择的主要关键字为“最终比例”,次要关键字选择“初步比例”,排序次序都为“降序”,按上述步骤正确操作后,2013年的数据排在2012年前面,其是原因
  3. (3) 对“年份”和“最终比例”列进行筛选,分别如图b和图c所示,则筛选出的年份有个(填数字)。

    图 b

    图 c

  4. (4) 根据图a中数据,制作了一张反映近十年国家公务员考试招录人数的图表,如图d所示,但该图表横坐标并不是显示年份,改正的方法是

    图 d

贝叶斯分类技术属于(   )
A . 特征探索 B . 聚类分析 C . 数据分类 D . 关联分析
使用Excel软件处理“2019年4月流通领域重要生产资料市场价格变动情况”数据,如图所示。

  1. (1) 计算表中下旬价格相比上期价格的涨跌幅(%):选择G4单元格输入公式,然后用自动填充功能完成其他单元格的计算则G4单元格中可使用的公式为
  2. (2) 若要对比分析图中的上、下旬价格的变化情况,写出一种分析方法。
数据分析的常见方法包括(   )
A . 对比分析、关联分析、平均分析 B . 对比分析、平均分析、交叉分析 C . 交叉分析、关联分析、平均分析 D . 关联分析、对比分析、交叉分析
对比分析法也叫比较分析法,分为横向和纵向对比。
K-平均算法属于(     )分析方法。
A . 线性 B . 关联 C . 聚类 D . 聚类  
wordcloud库是一个(     )的第三方库。
A . 统计分析 B . 中文分词 C . 词云展示 D . 绘图
使用Excel软件处理2020年度浙江省地区生产总值和增长速度相关数据,如图a所示。

请回答下列问题:

  1. (1) B14单元格计算了2020年第一季度各产业的生产平均值,C14:K14的值由B14单元格通过自动填充得到,则J14单元格中的公式为
  2. (2) 对各产业数据以“2020 年第四季度”的“绝对值(亿元)”为关键字按升序排序,则排序的数据区域是
  3. (3) 根据图a中部分数据创建了如图b所示的图表,结合图a和图b,下列描述正确的有              (多选,填字母)

    A . 对区域A1:K1执行“合并单元格”操作,合并后的单元格名称为A1 B . 若B5 单元格的数据修改为“500”,则图表会随之发生改变 C . 生成图b 所示的图表的数据区域为A2,A5:A10,F2:F3,F5:F10 D . 若对区域B4:K14设置单元格格式为保留0位小数,则图表不会随之发生变化
项目学习:解密盛唐时期诗人关系

[项目情境]

唐代诗人史传有名有姓者不下千余人,他们组成了大大小小不同的朋友圈。有的因为诗风接近,如李白代表的浪漫主义、杜甫代表的现实主义、王维代表的田园山水、芩参代表的边塞诗风;有的因为年龄大体相近,如盛唐时期的李白、杜甫、贺知章等;有的因为政见相近,如韩愈作为古文运动的领袖级人物,当时很多文人墨客以进人他的朋友圈为荣。在盛唐时期有这样一个朋友圈,他们的友谊跨越数十年,诗人之间通过互动诗歌,表达、抒发情感,是他们朋友圈的一种表现方式,用计算机来分析这个时代的唐诗,就会发现诗人之间有着你意想不到的千丝万缕的关系。学校某研究性学习小组利用大数据分析技术,通过对诗词分析,绘制盛唐时期几位诗人(杜甫、李白、王维、孟浩然……)之间的社交关系网络图,试图推测哪位诗人是同时代诗人的核心,哪位诗人的影响最大,从而更好地学习、理解唐诗。

[项目准备]为完成项目,需要确定主题、目标、制订规划等各项工作。在此不一一展示。明确的主题——盛唐时期的诗人及诗词分析和诗人社交关系网络图

[项目实施]项目研究主要以诗人诗作为依据。具体实施过程如下:

  1. (1) 明确需要采集的数据,选择合适的采集途径、工具和方法。

    全唐诗一共四万多首,分析采集相关数据的条件:①盛唐时期;②诗人、诗人之间经常称呼对方的别名;③考虑到同名同姓的问题,因此还需要诗人的生卒年的信息。

    根据要求,完成答题。

    ①全唐诗数量较多,一共四万多首,来源分散,存储在互联网不同的服务器与各客户终端。从大数据存储与计算的角度来看,由此可知大数据具有的特征。(单选)

    A.精确让位于模糊

    B.价值密度低

    C.分布式存储

    D.变化速度快

    ②网络上如此海量的关于唐诗的数据,有文字图片、视频、音频等。这些数据种类和格式也不一致,表明各种数据共存于网络中。(多选)

    A.结构化

    B.半结构化

    C.非结构化

    D.网状结构

    ③面对繁杂的数据,学习小组决定研究解密盛唐时期诗人关系,并利用计算机程序从网络中采集诗人别名等相关的文本数据,并以一定的数据结构存储,形成盛唐诗库。存储数据主要有两种方式,一种是,一种是数据云存储。你建议学习小组采用数据存储方式,理由是

  2. (2) 利用Python程序采集、整理、分析数据。

    第一步,从互联网中筛选出符合条件的诗人及诗作等文本,整理并形成盛唐诗库;第二步,确定人物关系分析策略,即从唐诗库中搜索、统计诗人或别名的引用次数,确定二人之间的疏密关系,规则是诗的标题和正文中只要提到过对方,那么两者之间的引用关系加1,若一首诗中提到多次对方,只算一次引用;第三步,编写程序并调试验证。

    用爬虫程序段(如下图所示)采集数据。根据要求,完成答题。

     

    使用爬虫程序获取文本数据并形成唐诗库文件,所使用的数据采集方法为(选填:系统日志采集法、网络数据采集法、其他数据采集方法)。阅读程序可知,每首诗存放于列表poem[ ]中(以唐诗“春晓”为例,如下表),采集后的数据保存在poet.txt文件中,该文件是一个(选填:数据库文件、文档文件、图像文件、网页文件)。该数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的数据文件,并以化的方式存储(选填:结构化、半结构化)。

    Poem[0]

    Poem[1]

    Poem[2]

    Poem[3]

    “春晓”

    “唐"

    “孟浩然”

    “春眠不觉晓……花落知多少”

    以诗人甲,乙为例,解密二人关系。根据要求,完成答题。

    ①数据处理过程中要运用一定的分析方法对大量、无序的数据进行整理、分析,挖掘数据内在的结构和规律,从而提取有价值的、有意义的数据。数据分析一般包括特征探索、关联分析、聚类与分类等。让计算机搜索遍历唐诗库中有关甲,乙两位诗人的诗文,统计两位诗,人或别名相互的引用次数,找寻二人之间的关联。这是运用了(选填:特征探索、关联分析、聚类与分类)方法进行数据分析,也是(选填:枚举、二分查找、排序)算法思想去求解这一问题的体现。

    ②编制计算机程序解决问题的过程中,是编程的核心, 是解决问题的方法和步骤。选用Python程序设计语言编写程序,Python属于(选填:分析问题、设计算法、编写程序、调试运行、机器语言、汇编语言高级语言)。图a示意,使用 (选填:自然语言、流程图、伪代码)进行算法描述,且运用循环控制结构嵌套了控制结构,如果要跳出本次循环体的执行,应使用语句实现跳转。

    ③阅读程序(图b示意),程序中以“#”开头的语句,其作用是,程序调试完成,通过“另存为”保存文件,文件后缀名为

  3. (3) 分析数据,进行可视化表达,并推测盛唐时期诗人关系。

    解密盛唐时期诗人关系。根据要求,完成答题。

    ①数据的可视化以易于理解的方式展示和诠释数据之间的关系、趋势与规律等,使人们更好地理解数据。从常用和实用的维度,数据可视化的呈现类型主要分为探索型和解释型,其中型可以帮助人们发现数据背后的价值,型则把数据简单明了地解释给人们(选填:探索、解释)。数据分析类型不同可视化呈现方式也不同,如关于趋势的分析,可用类型的图表呈现,关于比例的分析,可用类型的图表呈现,关于关系的分析,可用类型的图表呈现。

    ②学习小组选择用网络关系图呈现盛唐时期诗人社会网络关系(如图所示)。图中,箭头表示诗人之间的引用关系,如李白引用了贺知章,那么就有李白指向贺知章箭头;箭头的粗细程度则表示了诗人之间引用关系的强弱,如李白引用孟浩然的数量达4次,箭头就要粗一些。

    ③观察图示,从绘制的盛唐的诗人社交关系网络图,尝试推测哪位诗人是盛唐诗人的核心,哪位诗人的影响最大,请简要阐述。(要求100字左右)

    ④通过对该项目案例的研究学习,请谈谈大数据对学习生活的影响。

小枫收集了2020年上半年两个季度的全国建筑业发展情况,并用Excel软件进行处理,如图a所示。请回答下列问题:

  1. (1) 图a中,区域K4:K33中的数据是通过在K3单元格中输入公式并利用自动填充得到的,则K3单元格中的公式为 。(注:季度环比增长倍数=(第二季度总产值-第一季度总产值)/第一季度总产值)
  2. (2) 利用图a中的部分数据制作了图表,如图b所示,则该图表的数据区域是

      

  3. (3) 若要对华北地区各省市按“季度环比增长倍数”的情况进行降序排序,则应选择的排序区域是
  4. (4) 根据图a中的表格数据,下列说法正确的是            。(单选,填字母)。
    A . C列数据一定是利用公式计算得出 B . 若隐藏题图a表格的第8-0行,则题图b的图表会发生变化 C . 华北、东北、华东三个地区中,东北地区第二季度建筑业的环比增长最快
下图是某国各类能源消费量各年份的变化趋势情况分析表,从图中可看出(  )。

①历年来煤炭在各类能源消费中所占比例最高

②从1970年至2000年石油消费呈逐年递减的趋势

③近年该国加大力度开发石油、天然气资源,石油、天然气的消费增高,而煤炭消费比重降低

④天然气具有价格低、污染少、安全等优点,人们对天然气的需求大幅度增加

A . ①② B . ①③ C . ①③④ D . ①④
字节跳动公司的抖音APP利用强大的算法对用户观看内容的大数据进行分析,为用户提供适合用户要求的内容。其算法对数据处理的过程属于数据分类。
小王收集了2020年双十一部分商品销售情况,并使用Excel软件进行数据分析,如图a所示。请回答下列问题:

  1. (1) C4单元格统计的是“服饰"类商品销售总金额。小王在G4单元格中输入公式后,对区域H4:I4进行了自动填充,则H4单元格中显示的结果是。(单选,填字母:A . # VALUE !/B . 5793. 56. 84/C . #DIV/0! /D . 0. 00)。

    (提示: SUMIF 函数用于对满足条件的单元格求和。例如“=SUMIF (B4:B33, G3, E4:E33)”,用于统计2020年11月类别为“服饰”的金额总和。)

  2. (2) 若要正确计算H4和I4单元格中的数据,可对G4单元格中的公式进行修改,并对区域H4:14进行自动填充,则G4单元格中的公式应改为:
  3. (3) 下列对数据处理和分析正确的是              (多选,填字母)。
    A . 选中A3:E18区域,以“人数”为主要关键字进行升序排序,不会影响图表的呈现效果。 B . 若要查看“医疗器械”中销售额最大的商品,可以按“类别”为医疗器械,“金额(万元)”为最大1项进行筛选。 C . 假如G3单元格中“服饰”字样被误删,则G4单元格中的显示结果变为#REF!。 D . 先以“类别”为医疗器械进行筛选,再以“金额(万元)”为关键字降序排序,与先以“金额(万元)”为关键字降序排序,再以“类别”为医疗器械进行筛选,两种操作后排在最前面的商品相同。
某国的一家大型连锁超市通过利用信息系统对大量的销售数据进行了特定的分发现一个“奥秘”,于是这家超市就把尿布和啤酒这两种看起来没有关联的商品摆放在一起销售,结果销售量大幅增加。原来,超市经营者从数据分析中发现,婴儿尿布通常是男人们下班时购买的,而他们在购买尿布时又会顺便购买自己爱喝的啤酒。这个案例中的超市信息系统应用了大数据分析中的技术。
数据分析报告是项目的展示,也是数据分析结论的有效承载形式。在数据分析报告中,首先需要明确数据分析的,阐述目前及通过分析希望解决的问题;其次需要描述数据来源和数据分析的;最后需要重点呈现数据分析的
对数据进行分析,首先要根据分析的目标,然后选择恰当的进行分析,是否正确,继而得出相应的结论。
图为2017-2018年国内灯光强度增强区域示意图,其中,黑点为主要城市,红色表示该区域2018年度灯光强度较2017年实现增长,下列说法正确的是(        )

①图片、文字、数值都是数据,数据就是信息

②从图片中可以看到灯光强度增长区域大量集中在东部,在一定意义上也代表着东部经济比西部发展得更快

③这张示意图在计算机中是以二进制形式保存的

④灯光强度增强区域示意图的形成得益于大数据的采集和分析

A . ①②③④ B . ①②③ C . ①②④ D . ②③④
(      )是项目研究结果的展示,也是数据分析结论的有效承载形式。
A . 数据分析 B . 数据可视化表达 C . 数据分析报告 D . 数据运算
最近更新