5.4 数据的可视化表达 知识点题库

以下数据为1945年—2015年间登陆我国的台风数据记录。按数据流计算,尝试使用数据分析的方法,建立模型推测下一次台风登陆我国的地点及时间,并阐述你的理由。

图1

图2

图3

采集某市某辆出租车2007年2月20日全天行驶轨迹的数据集,如图所示。该数据集特征包括:出租车ID、时间、经度、纬度、夹角角度、出租车的瞬时速度和出租车载客状态。

  1. (1) 图所示数据集文件名为,出租车ID、时间、经度、纬度、夹角角度、出租车的瞬时速度和出租车载客状态数据的间隔符为,经度、纬度的数据类型为
  2. (2) 绘制该数据集中出租车行驶轨迹的Python程序如下,请在方框中填写合适的代码,完善程序。

    import matplotib. pyplot as plt

    def track(file):     #绘制GPS坐标轨迹

         jd=[ ]      #经度

         wd=[ ]       #纬度

         for line in open(file):

             #切分行数据生成列表

             line_data=line. split(',')

             #取轨迹坐标

            

             jd. append(x)

             wd. append(y)

         plt. plot(jd, wd)

    filename='Taxi_ 105. txt'

    track(filename)

    plt. show( )

  3. (3) 运行程序,绘制的图形如图所示。说说你从图中发现了什么。

  4. (4) 尝试编写Python程序,从该数据集中挖掘其他你感兴趣的信息。
散点图用来比较每个数据相对中心的数据变化。
将EXCEL中的数据用条形、线形、柱形、及其它图形来表示,这些图形称作(    )
A . 数据 B . 数据标识 C . 图表 D . 数组
小吴收集了NBA现役巨星的职业生涯数据,并用Excel软件进行数据处理,如图a所示。

图片_x0020_100008

图a

请回答下列问题:

  1. (1) 如图a中所示,小吴已计算了G3单元格中的数据。他希望将单元格G3中的公式向下自动填充至G15,并正确计算出区域G3:G15中的数据,则G3单元格中的公式应修改为
  2. (2) 根据图a中数据制作的图表如图b所示,创建该图表的数据区域是H9:J10,

    图片_x0020_100009

    图b

  3. (3) 若要对图a中的后卫球员以“罚球命中率%”为关键字进行降序排序,则排序选择的数据区域是
  4. (4) 对区域A1:J15的数据进行筛选,设置“投篮命中率%”和“三分命中率%”的筛选方式均如图c所示,则筛选出(填数字)项数据。

    图片_x0020_100010

    图c

小李收集了2016年-2017年某地“双十一”行业销售数据,并使用Excel软件进行数据处理,采集的数据如图1所示,请根据要求回答以下问题。

图片_x0020_100011

图1

  1. (1) 计算增长率,请写出计算D3单元格增长率的公式?(增长率=增长量/原总量*100%)
  2. (2) 其他单元格(D4:D13)的增长率可以用填充柄填充完成计算,这种方法叫做什么?
  3. (3) 如果要在C14中用函数计算“双十一”销售总额,请写出计算的函数式。
  4. (4) 为了获得17年销售额(亿元)10以上亿元的行业销售数据,小李想对该列的数据进行筛选操作,如图2所示的自定义筛选的条件应该如何设置?

    图片_x0020_100012

    图2

  5. (5) 小李想建立一张反映16年各行业销售额占总比例的分析图,选择什么图表比较合适?
下图一是某校高二信息技术课选修模块的人数统计表。

图片_x0020_100005

图一

  1. (1) 图一中第B列第10行单元格是B10,表示所有班级选择 “模块一”的人数之和。那么表示所有班级选择 “模块三”的人数之和的单元格是,其值为
  2. (2) 图一中计算单元格B10的值用到的计算公式是SUM(B4:B9) ;单元格G4是表示高二(1)班选修各模块人数总和,写出一种计算单元格G4的值的公式
  3. (3) 表格数据的图形化表达类型有柱形图、饼图、折线图等,图二中能清楚地表示各个选修模块人数占所有人数的百分比的图形的序号是,其图形化表达类型为

    图片_x0020_100006

某校对高一进行了七选三科目的摸底统计,数据情况如图1所示。请回答下列问题:

  1. (1) 图1区域N2:T15的公式是从N2单元格通过自动填充功能得出,可知T2单元格公式为。(提示:SUMPRODUCT函数返回相应的数组或区域乘积的和。例如:=SUMPRODUCT((A4:A500="101")*(D4:D500="物理"))表示在数据区域D4:D500中统计“101”班选“物理”的人数)
  2. (2) 对图1中各班级的数据按技术选科人数进行降序排序,应选择的数据区域为
  3. (3) 由图1的数据制作的图表如图2所示,则制作该图表的区域为

  4. (4) 复制图1中L1:T15 的数据到新工作表中,对生物和物理学科分别按图3所示的条件进行筛选,则筛选结果为。(填班级名称)

图表中适合描述数据之间的比例分配关系的是(     )。
A . 柱形图 B . 条形图 C . 线形图 D . 饼图
2020年我国的国内生产总值突破了100万亿大关。分季度看国内生产总值,一季度下降6.8%,二季度增长3.2%,三季度增长4.9%,四季度增长6.5%。为了更形象的表示出我国2020年各季度经济增长状况,最合适的图形表示方式为(   )
A . 饼图 B . 柱形图 C . 扇形图 D . 折线图
项目学习:解密盛唐时期诗人关系

[项目情境]

唐代诗人史传有名有姓者不下千余人,他们组成了大大小小不同的朋友圈。有的因为诗风接近,如李白代表的浪漫主义、杜甫代表的现实主义、王维代表的田园山水、芩参代表的边塞诗风;有的因为年龄大体相近,如盛唐时期的李白、杜甫、贺知章等;有的因为政见相近,如韩愈作为古文运动的领袖级人物,当时很多文人墨客以进人他的朋友圈为荣。在盛唐时期有这样一个朋友圈,他们的友谊跨越数十年,诗人之间通过互动诗歌,表达、抒发情感,是他们朋友圈的一种表现方式,用计算机来分析这个时代的唐诗,就会发现诗人之间有着你意想不到的千丝万缕的关系。学校某研究性学习小组利用大数据分析技术,通过对诗词分析,绘制盛唐时期几位诗人(杜甫、李白、王维、孟浩然……)之间的社交关系网络图,试图推测哪位诗人是同时代诗人的核心,哪位诗人的影响最大,从而更好地学习、理解唐诗。

[项目准备]为完成项目,需要确定主题、目标、制订规划等各项工作。在此不一一展示。明确的主题——盛唐时期的诗人及诗词分析和诗人社交关系网络图

[项目实施]项目研究主要以诗人诗作为依据。具体实施过程如下:

  1. (1) 明确需要采集的数据,选择合适的采集途径、工具和方法。

    全唐诗一共四万多首,分析采集相关数据的条件:①盛唐时期;②诗人、诗人之间经常称呼对方的别名;③考虑到同名同姓的问题,因此还需要诗人的生卒年的信息。

    根据要求,完成答题。

    ①全唐诗数量较多,一共四万多首,来源分散,存储在互联网不同的服务器与各客户终端。从大数据存储与计算的角度来看,由此可知大数据具有的特征。(单选)

    A.精确让位于模糊

    B.价值密度低

    C.分布式存储

    D.变化速度快

    ②网络上如此海量的关于唐诗的数据,有文字图片、视频、音频等。这些数据种类和格式也不一致,表明各种数据共存于网络中。(多选)

    A.结构化

    B.半结构化

    C.非结构化

    D.网状结构

    ③面对繁杂的数据,学习小组决定研究解密盛唐时期诗人关系,并利用计算机程序从网络中采集诗人别名等相关的文本数据,并以一定的数据结构存储,形成盛唐诗库。存储数据主要有两种方式,一种是,一种是数据云存储。你建议学习小组采用数据存储方式,理由是

  2. (2) 利用Python程序采集、整理、分析数据。

    第一步,从互联网中筛选出符合条件的诗人及诗作等文本,整理并形成盛唐诗库;第二步,确定人物关系分析策略,即从唐诗库中搜索、统计诗人或别名的引用次数,确定二人之间的疏密关系,规则是诗的标题和正文中只要提到过对方,那么两者之间的引用关系加1,若一首诗中提到多次对方,只算一次引用;第三步,编写程序并调试验证。

    用爬虫程序段(如下图所示)采集数据。根据要求,完成答题。

     

    使用爬虫程序获取文本数据并形成唐诗库文件,所使用的数据采集方法为(选填:系统日志采集法、网络数据采集法、其他数据采集方法)。阅读程序可知,每首诗存放于列表poem[ ]中(以唐诗“春晓”为例,如下表),采集后的数据保存在poet.txt文件中,该文件是一个(选填:数据库文件、文档文件、图像文件、网页文件)。该数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的数据文件,并以化的方式存储(选填:结构化、半结构化)。

    Poem[0]

    Poem[1]

    Poem[2]

    Poem[3]

    “春晓”

    “唐"

    “孟浩然”

    “春眠不觉晓……花落知多少”

    以诗人甲,乙为例,解密二人关系。根据要求,完成答题。

    ①数据处理过程中要运用一定的分析方法对大量、无序的数据进行整理、分析,挖掘数据内在的结构和规律,从而提取有价值的、有意义的数据。数据分析一般包括特征探索、关联分析、聚类与分类等。让计算机搜索遍历唐诗库中有关甲,乙两位诗人的诗文,统计两位诗,人或别名相互的引用次数,找寻二人之间的关联。这是运用了(选填:特征探索、关联分析、聚类与分类)方法进行数据分析,也是(选填:枚举、二分查找、排序)算法思想去求解这一问题的体现。

    ②编制计算机程序解决问题的过程中,是编程的核心, 是解决问题的方法和步骤。选用Python程序设计语言编写程序,Python属于(选填:分析问题、设计算法、编写程序、调试运行、机器语言、汇编语言高级语言)。图a示意,使用 (选填:自然语言、流程图、伪代码)进行算法描述,且运用循环控制结构嵌套了控制结构,如果要跳出本次循环体的执行,应使用语句实现跳转。

    ③阅读程序(图b示意),程序中以“#”开头的语句,其作用是,程序调试完成,通过“另存为”保存文件,文件后缀名为

  3. (3) 分析数据,进行可视化表达,并推测盛唐时期诗人关系。

    解密盛唐时期诗人关系。根据要求,完成答题。

    ①数据的可视化以易于理解的方式展示和诠释数据之间的关系、趋势与规律等,使人们更好地理解数据。从常用和实用的维度,数据可视化的呈现类型主要分为探索型和解释型,其中型可以帮助人们发现数据背后的价值,型则把数据简单明了地解释给人们(选填:探索、解释)。数据分析类型不同可视化呈现方式也不同,如关于趋势的分析,可用类型的图表呈现,关于比例的分析,可用类型的图表呈现,关于关系的分析,可用类型的图表呈现。

    ②学习小组选择用网络关系图呈现盛唐时期诗人社会网络关系(如图所示)。图中,箭头表示诗人之间的引用关系,如李白引用了贺知章,那么就有李白指向贺知章箭头;箭头的粗细程度则表示了诗人之间引用关系的强弱,如李白引用孟浩然的数量达4次,箭头就要粗一些。

    ③观察图示,从绘制的盛唐的诗人社交关系网络图,尝试推测哪位诗人是盛唐诗人的核心,哪位诗人的影响最大,请简要阐述。(要求100字左右)

    ④通过对该项目案例的研究学习,请谈谈大数据对学习生活的影响。

小张收集了“2019年中国电子商务城市十强榜单”数据,并使用Excel软件进行数据处理,如图a所示。

请回答下列问题:

  1. (1) 区域A3:A12的数据是通过函数计算得到的:在A3单元格中输入公式,再利用自动填充功能完成区域A4:A12的计算。(RANK函数表示返回某数字在一列数字中相对于其他数值的大小排名,其中0表示降序)
  2. (2) 已知I3单元格的内容是由公式“=SUM(C3:H3)”计算得到,若将C3:H3单元格的数值小数位数设置为0,则I3单元格中显示的值。(单选,填字母:A .变大/ B .不变/ C .变小)
  3. (3) 根据图a中数据,制作一张“2019年中国电子商务城市十强综合指数”图表,如图b所示。但该图表中显示的并不是城市名称,改正的方法是

  4. (4) 对数据区域A2:I12进行筛选操作,“网上市场指引力指数”和“创新指数”的筛选设置均如图c所示,则筛选出的城市是(填城市名称)。

在Excel中,数据源发生变化时,相应的图表如何变化?(    )。
A . 自动跟随变化 B . 手动跟随变化     C . 不跟随变化 D . 不受任何影响
图为2020年2月3日-4月15日我国工程建设领域复工率(含新建项目)、复工强度变化的图表表达,下面说法正确的是(    )

①单独一个数据是没有意义的,将数据联系起来进行加工处理分析,可以获取信息

②数据和信息都是有价值的,其价值时刻都能体现出来

③折线图适合表示数据间的对比,柱形图适合表示数据变化趋势

④从图表中可以分析出4月15日复工率已达3月18日的1.5倍左右,这反映了我国工程建设领域市场旺盛的需求

⑤根据对图表的分析,建议加强工程机械供应链及生产管理,保障工程建设复工的顺利进行

A . ①②④⑤ B . ①④⑤ C . ③④⑤ D . ①②③
在WPS表格中,可以创建多种图表,有柱形图、折线图、饼图、条形图、雷达图、组合图等。为了表达项目在时间维度上的增减变化趋势,应该选择(   )
A . 条形图 B . 柱形图 C . 饼图 D . 折线图
2020年2月3日-4月15日我国工程建设领域复工率(含新建项目)、复工强度变化的图表表达如下图,选项说法正确的是(     )

①单独一个数据是没有意义的,将数据联系起来进行加工处理分析,可以获取信息

②数据和信息都是有价值的,其价值时刻都能体现出来

③折线图适合表示数据间的对比,柱形图适合表示数据变化趋势

④从图表中可以分析出4月15日复工率已达3月18日的1、5倍左右,这反映了我国工程建设领域市场旺盛的需求

⑤根据对图表的分析,建议加强工程机械供应链及生产管理,保障工程建设复工的顺利进行

A . ①④⑤ B . ①②④⑤ C . ③④⑤ D . ①②③
使用Excel软件处理某届快乐阳光幼儿歌唱比赛数据,如图a所示。

请回答下列问题:

  1. (1) 区域G3:G31的数据是在G3单元格输入公式后,通过自动填充实现计算,则G3单元格中的公式应为
  2. (2) 设置如图b所示的筛选条件,下列地区中能显示的是              (单选,填字母)

    ①温州②甘孜州③黔东南州④湘西自治州⑤万州区

    A . ①② B . ①⑤ C . ②⑤ D . ③④
  3. (3) 为了解各省市入围情况,绘制图表如图c所示,结合图a和图c,下列说法正确的是       (多选,填字母)。

    A . 修改B列城市名,图表不会发生变化 B . 在图a所示工作表的G列前插入一列,图表不会发生变化 C . 对A2:C434区域,按“省份”筛选浙江省,图表会发生变化 D . 对A2:C434区域,按“省份”为主要关键字进行升序排序,图表会发生变化
某智能农业⼤棚系统中,管理员可以通过局域⽹查看⼤棚的环境的温度和湿度信息。⼩明使⽤micro:bit开发板作为智能信息采集终端采集环境数据,每隔一分钟向服务器提交数据。智能农业⼤棚系统搭建示意图如所示:

信息采集终端部分代码如下:

IP  =  "10.89.1.2"  ;  PORT=  "8080"   ;  SSID = "jxtx"     #设置连接参数

PASSWORD = "20220626"

Uart.init(baudrate = 115200,bits=8,parity=None,stop=1,tx=pin2,rx=pin1) while Obloq.connectWifi(SSID, PASSWORD, 10000) ! = True:

display.show(Image.SAD) display.scroll(Obloq. ifconfig( ))

Obloq.httpSet(IP,  PORT) #根据ip 和port 建⽴连接

while True:

    temp,hum  = dht11.read(16)           #读取温度、湿度

    ermo,resp = Obloq.get("input?x="+str(temp)+  "&y="+str(hum),  10000)

    if errno== 200:

        display.scroll(resp)

    else:

        display.scroll(str(errno))

sleep(1000*60)         #设置采集间隔时间

WEB 服务器部分代码如下所示:

from flask import Flask

app = Flask( name )

@app.route('/') def index():

#读取终端最近一次的温度和湿度存⼊ temp 和hum,代码略return "当前温度"+str(temp)+ "当前湿度"+str(hum)

@app.route('/input',methods=['POST', 'GET']) def  add_data():          #终端上传最新采集的数据

#代码略

if name == ' main ':

  app.run(host="10.89.1.2", port=8080)

  1. (1) 搭建系统的前期准备⼯作有如下5个主要过程:①开发模式的选择 ②概要设计 ③ 需求分析 ④详细设计 ⑤可⾏性分析,在实施时正确的步骤是(   )(选填字⺟)
    A . ③①④②⑤ B . ③⑤①②④ C . ③⑤①④② D . ⑤③①④②
  2. (2) 物联⽹IoT模块连接开发板的引脚是(   )(选填字⺟)
    A . pin0 和pin1 B . pin1 和pin2 C . pin16 D . PORT
  3. (3) Web服务器端采⽤(选填:POST 或GET)⽅式接受温度和湿度数据。若某时刻温度数值是28,湿度值53,则传输数据时使⽤的URL 是(选填字⺟)

    A. //10.89.1.2:8080/input?temp=28&hum=53

    B. //10.89.1.2:8080/input&temp=28?hum=53

    C. //10.89.1.2:8080/input?x=28&y=53

    D. //10.89.1.2:8080/input &x=28?y=53

  4. (4) 当⼤棚温度超过警戒温度28℃时,系统会发出温度报警提醒。⼩明从服务器的SQLite数据库中导出了1~6⽉份的温度数据并整理到Excel⽂件,数据格式如图a所示。利⽤Python编写程序统计每⽉发出报警提醒的次数并按图b所示可视化。

    图a

    图b

    统计及可视化的部分程序如下,请补充完善:

    df=pd.read_excel('温度数据.xlsx') df1 =

    g1=df1.groupby('⽉份',as_index=False).count( )

    plt.bar(g1.⽉份, g1.温度)

    plt.title('1-6 ⽉份发出温度报警提醒次数情况')

    plt.show( )

小明搜集了某网络购物平台2021年1月1日至2021年9月30日时间段内的日用化妆品销售数据,原始数据如下图a所示。

  1. (1) 小明对数据进行了整理,下列操作不恰当的是(   )(单选,填字母)。
    A . 发现记录中有6 条重复,对这6 条记录进行了删除 B . 发现记录中有38 处数据项缺失,直接删除相关记录 C . 将某条记录中订单日期“2050-6-9”订正为“2021-6-9” D . 将某条记录中订单日期“2021#3#11”修改为“2021-3-11”
  2. (2) 小明发现数据中仍有极少量时间段外的记录混杂其中,利用Python 及pandas 模块进行处理。请回答问题:

    ① 采用pandas 模块中的(单选:填字母:A .Series / B .DataFrame)

    数据结构存储全部数据会比较高效。

    ② 全部数据保存于变量df 中,为筛选出订单日期为2021 年第一季度内的所有记录,

    可以执行Python 语句df1 =  ,则df1 中保存筛选结果。(单选,填字母。

    提示:多条件筛选时,条件之间用“&”连接,表示需要同时满足这多个条件)

    A.df[ (df['订单日期'] <= '2021-1-1' ) & (df ['订单日期'] <= '2021-3-31') ]

    B.df [ (df ['订单日期'] >= '2021-1-1') & (df ['订单日期'] >= '2021-3-31') ]

    C.df [(df ['订单日期'] >= '2021-1-1') & (df ['订单日期'] <= '2021-3-31')]

  3. (3) 经过以上两步处理之后,为了解“所在地市”第一季度“订购数量”前10 名的情况,

    编写如下Python 程序段:

    #数据整理结果保存于变量df1中,代码略

    g = df1.groupby('所在地市', as_index = False).sum()

    print           )

    则划线处的代码可为(   )(多选,填字母)

    A . g.sort_values('订购数量',ascending = False) [0:10] B . g.sort_values('订购数量',ascending = True).tail(10) C . g.sort_values('订购数量',ascending = True)[0:10] D . g.sort_values('订购数量',ascending = False).head(10)
  4. (4) 根据以上数据整理结果,小明对第一季度所在地市的“订购数量”进行可视化处理,如图b所示。

    实现上述功能的Python程序部分代码如下:

    #按“所在地市”对第一季度数据分组并求和,再按“订购数量”升序排序

    #选取最后10条数据,存入变量s,代码略

    import matplotlib.pyplot as plt

    x = s['所在地市']

    y =

    plt.barh(x, y, color = 'r')

    plt.show( )

    程序中划线处代码应为

  5. (5) 小明借助大数据技术,对近几年来该网络购物平台的日用化妆品销售数据进行了分析。

    应用该分析结果可能提供的数据服务是(列举一条即可)。

某中学为更好组织高三学生参加某高校的三位一体招生考试(该高校三位一体招生学业水平考试成绩折算如下:各科学考等级按A=10分、B=9分、C=8、D=6分进行折算),统计了所有学生学业水平成绩情况,并保存在“学考成绩.xlsx”中,如图a所示。用Python读取“学考成绩.xlsx”文件,并计算每个学生的折算分,筛选出各班“A总数”最多的前5条数据,导出到“各班前5名统计.xlsx”文件中。同时为直观展示各班折算分92分以上人数对比,生成图b所示图表。

图 a

图 b

  1. (1) 在对表格进行整理时发现,表格中关于“德乐蕊”的记录,可能存在的数据问题是 (选填:A .数据缺失/B .数据异常/C .逻辑错误/D .格式不一致)。
  2. (2) “各班前5名统计.xlsx”文件中共有 位学生数据。
  3. (3) 请在下述程序的划线处填上合适的代码。

    Python 程序代码如下:

    import pandas as pd

    import matplotlib.pyplot as plt

    plt.rcParams['font.sans-serif']=['SimHei']

    df=pd.read_excel('学考成绩.xlsx')

    #正常显示汉字

    df.折算分=

    #对df以“班级”为主要关键字升序、“A总数”为次要关键词降序进行排序

    df_sort=df.sort_values(['班级', 'A 总数'], ascending=[True, False])

    result=df_sort.head(5)

    for i in range(2, 7):

    result=result.append(df_sort[ ].head(5), ignore_index=True) result.to_excel('各班前5名统计.xlsx')

    df=df[df.折算分>=92]

    df_count=df.groupby('班级').count( )

    #修改“折算分”列名为“上线人数”

    df_count = df_count.rename(columns={'折算分':'上线人数'})

    x=df count.index

    y=

    plt.figure(figsize=(8, 4))

    plt.bar(x, y,  label='上线人数')

    plt.ylim(15, 30)

    plt.legend( )

    plt.show( )

最近更新