图1
图2
图3
import matplotib. pyplot as plt
def track(file): #绘制GPS坐标轨迹
jd=[ ] #经度
wd=[ ] #纬度
for line in open(file):
#切分行数据生成列表
line_data=line. split(',')
#取轨迹坐标
jd. append(x)
wd. append(y)
plt. plot(jd, wd)
filename='Taxi_ 105. txt'
track(filename)
plt. show( )

图a
请回答下列问题:

图b
图c
图1
图2
图一
[项目情境]
唐代诗人史传有名有姓者不下千余人,他们组成了大大小小不同的朋友圈。有的因为诗风接近,如李白代表的浪漫主义、杜甫代表的现实主义、王维代表的田园山水、芩参代表的边塞诗风;有的因为年龄大体相近,如盛唐时期的李白、杜甫、贺知章等;有的因为政见相近,如韩愈作为古文运动的领袖级人物,当时很多文人墨客以进人他的朋友圈为荣。在盛唐时期有这样一个朋友圈,他们的友谊跨越数十年,诗人之间通过互动诗歌,表达、抒发情感,是他们朋友圈的一种表现方式,用计算机来分析这个时代的唐诗,就会发现诗人之间有着你意想不到的千丝万缕的关系。学校某研究性学习小组利用大数据分析技术,通过对诗词分析,绘制盛唐时期几位诗人(杜甫、李白、王维、孟浩然……)之间的社交关系网络图,试图推测哪位诗人是同时代诗人的核心,哪位诗人的影响最大,从而更好地学习、理解唐诗。
[项目准备]为完成项目,需要确定主题、目标、制订规划等各项工作。在此不一一展示。明确的主题——盛唐时期的诗人及诗词分析和诗人社交关系网络图
[项目实施]项目研究主要以诗人诗作为依据。具体实施过程如下:
全唐诗一共四万多首,分析采集相关数据的条件:①盛唐时期;②诗人、诗人之间经常称呼对方的别名;③考虑到同名同姓的问题,因此还需要诗人的生卒年的信息。
根据要求,完成答题。
①全唐诗数量较多,一共四万多首,来源分散,存储在互联网不同的服务器与各客户终端。从大数据存储与计算的角度来看,由此可知大数据具有的特征。(单选)
A.精确让位于模糊
B.价值密度低
C.分布式存储
D.变化速度快
②网络上如此海量的关于唐诗的数据,有文字图片、视频、音频等。这些数据种类和格式也不一致,表明各种数据共存于网络中。(多选)
A.结构化
B.半结构化
C.非结构化
D.网状结构
③面对繁杂的数据,学习小组决定研究解密盛唐时期诗人关系,并利用计算机程序从网络中采集诗人别名等相关的文本数据,并以一定的数据结构存储,形成盛唐诗库。存储数据主要有两种方式,一种是,一种是数据云存储。你建议学习小组采用数据存储方式,理由是。
第一步,从互联网中筛选出符合条件的诗人及诗作等文本,整理并形成盛唐诗库;第二步,确定人物关系分析策略,即从唐诗库中搜索、统计诗人或别名的引用次数,确定二人之间的疏密关系,规则是诗的标题和正文中只要提到过对方,那么两者之间的引用关系加1,若一首诗中提到多次对方,只算一次引用;第三步,编写程序并调试验证。
用爬虫程序段(如下图所示)采集数据。根据要求,完成答题。
使用爬虫程序获取文本数据并形成唐诗库文件,所使用的数据采集方法为(选填:系统日志采集法、网络数据采集法、其他数据采集方法)。阅读程序可知,每首诗存放于列表poem[ ]中(以唐诗“春晓”为例,如下表),采集后的数据保存在poet.txt文件中,该文件是一个(选填:数据库文件、文档文件、图像文件、网页文件)。该数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的数据文件,并以化的方式存储(选填:结构化、半结构化)。
|
Poem[0] |
Poem[1] |
Poem[2] |
Poem[3] |
|
“春晓” |
“唐" |
“孟浩然” |
“春眠不觉晓……花落知多少” |
以诗人甲,乙为例,解密二人关系。根据要求,完成答题。

①数据处理过程中要运用一定的分析方法对大量、无序的数据进行整理、分析,挖掘数据内在的结构和规律,从而提取有价值的、有意义的数据。数据分析一般包括特征探索、关联分析、聚类与分类等。让计算机搜索遍历唐诗库中有关甲,乙两位诗人的诗文,统计两位诗,人或别名相互的引用次数,找寻二人之间的关联。这是运用了(选填:特征探索、关联分析、聚类与分类)方法进行数据分析,也是(选填:枚举、二分查找、排序)算法思想去求解这一问题的体现。
②编制计算机程序解决问题的过程中,是编程的核心, 是解决问题的方法和步骤。选用Python程序设计语言编写程序,Python属于(选填:分析问题、设计算法、编写程序、调试运行、机器语言、汇编语言高级语言)。图a示意,使用 (选填:自然语言、流程图、伪代码)进行算法描述,且运用循环控制结构嵌套了控制结构,如果要跳出本次循环体的执行,应使用语句实现跳转。
③阅读程序(图b示意),程序中以“#”开头的语句,其作用是,程序调试完成,通过“另存为”保存文件,文件后缀名为。
解密盛唐时期诗人关系。根据要求,完成答题。
①数据的可视化以易于理解的方式展示和诠释数据之间的关系、趋势与规律等,使人们更好地理解数据。从常用和实用的维度,数据可视化的呈现类型主要分为探索型和解释型,其中型可以帮助人们发现数据背后的价值,型则把数据简单明了地解释给人们(选填:探索、解释)。数据分析类型不同可视化呈现方式也不同,如关于趋势的分析,可用类型的图表呈现,关于比例的分析,可用类型的图表呈现,关于关系的分析,可用类型的图表呈现。
②学习小组选择用网络关系图呈现盛唐时期诗人社会网络关系(如图所示)。图中,箭头表示诗人之间的引用关系,如李白引用了贺知章,那么就有李白指向贺知章箭头;箭头的粗细程度则表示了诗人之间引用关系的强弱,如李白引用孟浩然的数量达4次,箭头就要粗一些。
③观察图示,从绘制的盛唐的诗人社交关系网络图,尝试推测哪位诗人是盛唐诗人的核心,哪位诗人的影响最大,请简要阐述。(要求100字左右)

④通过对该项目案例的研究学习,请谈谈大数据对学习生活的影响。
请回答下列问题:
①单独一个数据是没有意义的,将数据联系起来进行加工处理分析,可以获取信息
②数据和信息都是有价值的,其价值时刻都能体现出来
③折线图适合表示数据间的对比,柱形图适合表示数据变化趋势
④从图表中可以分析出4月15日复工率已达3月18日的1.5倍左右,这反映了我国工程建设领域市场旺盛的需求
⑤根据对图表的分析,建议加强工程机械供应链及生产管理,保障工程建设复工的顺利进行
①单独一个数据是没有意义的,将数据联系起来进行加工处理分析,可以获取信息
②数据和信息都是有价值的,其价值时刻都能体现出来
③折线图适合表示数据间的对比,柱形图适合表示数据变化趋势
④从图表中可以分析出4月15日复工率已达3月18日的1、5倍左右,这反映了我国工程建设领域市场旺盛的需求
⑤根据对图表的分析,建议加强工程机械供应链及生产管理,保障工程建设复工的顺利进行

请回答下列问题:
①温州②甘孜州③黔东南州④湘西自治州⑤万州区


信息采集终端部分代码如下:
IP = "10.89.1.2" ; PORT= "8080" ; SSID = "jxtx" #设置连接参数
PASSWORD = "20220626"
Uart.init(baudrate = 115200,bits=8,parity=None,stop=1,tx=pin2,rx=pin1) while Obloq.connectWifi(SSID, PASSWORD, 10000) ! = True:
display.show(Image.SAD) display.scroll(Obloq. ifconfig( ))
Obloq.httpSet(IP, PORT) #根据ip 和port 建⽴连接
while True:
temp,hum = dht11.read(16) #读取温度、湿度
ermo,resp = Obloq.get("input?x="+str(temp)+ "&y="+str(hum), 10000)
if errno== 200:
display.scroll(resp)
else:
display.scroll(str(errno))
sleep(1000*60) #设置采集间隔时间
WEB 服务器部分代码如下所示:
from flask import Flask
app = Flask( name )
@app.route('/') def index():
#读取终端最近一次的温度和湿度存⼊ temp 和hum,代码略return "当前温度"+str(temp)+ "当前湿度"+str(hum)
@app.route('/input',methods=['POST', 'GET']) def add_data(): #终端上传最新采集的数据
#代码略
if name == ' main ':
app.run(host="10.89.1.2", port=8080)
A. //10.89.1.2:8080/input?temp=28&hum=53
B. //10.89.1.2:8080/input&temp=28?hum=53
C. //10.89.1.2:8080/input?x=28&y=53
D. //10.89.1.2:8080/input &x=28?y=53
|
图a | 图b |
统计及可视化的部分程序如下,请补充完善:
df=pd.read_excel('温度数据.xlsx') df1 =
g1=df1.groupby('⽉份',as_index=False).count( )
plt.bar(g1.⽉份, g1.温度)
plt.title('1-6 ⽉份发出温度报警提醒次数情况')
plt.show( )
① 采用pandas 模块中的(单选:填字母:A .Series / B .DataFrame)
数据结构存储全部数据会比较高效。
② 全部数据保存于变量df 中,为筛选出订单日期为2021 年第一季度内的所有记录,
可以执行Python 语句df1 = ,则df1 中保存筛选结果。(单选,填字母。
提示:多条件筛选时,条件之间用“&”连接,表示需要同时满足这多个条件)
A.df[ (df['订单日期'] <= '2021-1-1' ) & (df ['订单日期'] <= '2021-3-31') ]
B.df [ (df ['订单日期'] >= '2021-1-1') & (df ['订单日期'] >= '2021-3-31') ]
C.df [(df ['订单日期'] >= '2021-1-1') & (df ['订单日期'] <= '2021-3-31')]
编写如下Python 程序段:
#数据整理结果保存于变量df1中,代码略
g = df1.groupby('所在地市', as_index = False).sum()
print )
则划线处的代码可为( )(多选,填字母)
实现上述功能的Python程序部分代码如下:
#按“所在地市”对第一季度数据分组并求和,再按“订购数量”升序排序
#选取最后10条数据,存入变量s,代码略
import matplotlib.pyplot as plt
x = s['所在地市']
y =
plt.barh(x, y, color = 'r')
plt.show( )
程序中划线处代码应为。
应用该分析结果可能提供的数据服务是(列举一条即可)。
|
图 a |
图 b |
Python 程序代码如下:
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
df=pd.read_excel('学考成绩.xlsx')
#正常显示汉字
df.折算分=
#对df以“班级”为主要关键字升序、“A总数”为次要关键词降序进行排序
df_sort=df.sort_values(['班级', 'A 总数'], ascending=[True, False])
result=df_sort.head(5)
for i in range(2, 7):
result=result.append(df_sort[ ].head(5), ignore_index=True) result.to_excel('各班前5名统计.xlsx')
df=df[df.折算分>=92]
df_count=df.groupby('班级').count( )
#修改“折算分”列名为“上线人数”
df_count = df_count.rename(columns={'折算分':'上线人数'})
x=df count.indexy=
plt.figure(figsize=(8, 4))
plt.bar(x, y, label='上线人数')
plt.ylim(15, 30)
plt.legend( )
plt.show( )