5.2.1 数据采集的方法和工具 知识点题库

数据在采集、存储、管理与使用的过程中面临诸多安全风险,为避免风险,通常需要进行数据备份。
网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的(      )开始获取。
A . HTML B . WWW C . URL D . XML
要完成数据的采集工作,首先需要明确数据需求选定项目主题。
数据采集的基本方法包括(      )、网络数据采集法和其他数据采集法。

    

A . 访问记录采集法 B . 系统日志采集法 C . 数据库采集法 D . 数据目录采集法
网络数采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的(     )开始获取。
A . XML B . HTML C . URL D . WWW
思考题

     某公司推出了嵌入多种传感器、能够测量生命体征数据的T恤,该公司称为“Fit衫”,从而使专业医护人员能够以低成本频繁检测患者体质,提供更加有效的预防性医疗保健。“Fit衫”利用内嵌的各种传感器测量或记录用户的数据,例如,利用体温传感器测量体温,利用生物电传感器收集心电、脑电数据,利用热通量传感器监测热量消耗能力……“Fit衫”传感器所测得的心率、活动量及心电图等数据可显示在平板电脑的显示器上。

  1. (1) 请你简单描述“Fit衫”主要通过什么方法和工具来收集数据。
  2. (2) 在收集数据的过程中,如何才能避免侵犯他人的隐私,请谈谈你的看法。
下列哪些不是数据采集工具?(    )
A . 声卡 B . 数码照相机 C . 思维导图 D . 扫描仪
下列数据来源中,属于直接来源的是(   )。
A . 公开出版的统计数据 B . 各企业的经营报表数据 C . 某研究机构发布的研究数据 D . 实验数据
项目学习:解密盛唐时期诗人关系

[项目情境]

唐代诗人史传有名有姓者不下千余人,他们组成了大大小小不同的朋友圈。有的因为诗风接近,如李白代表的浪漫主义、杜甫代表的现实主义、王维代表的田园山水、芩参代表的边塞诗风;有的因为年龄大体相近,如盛唐时期的李白、杜甫、贺知章等;有的因为政见相近,如韩愈作为古文运动的领袖级人物,当时很多文人墨客以进人他的朋友圈为荣。在盛唐时期有这样一个朋友圈,他们的友谊跨越数十年,诗人之间通过互动诗歌,表达、抒发情感,是他们朋友圈的一种表现方式,用计算机来分析这个时代的唐诗,就会发现诗人之间有着你意想不到的千丝万缕的关系。学校某研究性学习小组利用大数据分析技术,通过对诗词分析,绘制盛唐时期几位诗人(杜甫、李白、王维、孟浩然……)之间的社交关系网络图,试图推测哪位诗人是同时代诗人的核心,哪位诗人的影响最大,从而更好地学习、理解唐诗。

[项目准备]为完成项目,需要确定主题、目标、制订规划等各项工作。在此不一一展示。明确的主题——盛唐时期的诗人及诗词分析和诗人社交关系网络图

[项目实施]项目研究主要以诗人诗作为依据。具体实施过程如下:

  1. (1) 明确需要采集的数据,选择合适的采集途径、工具和方法。

    全唐诗一共四万多首,分析采集相关数据的条件:①盛唐时期;②诗人、诗人之间经常称呼对方的别名;③考虑到同名同姓的问题,因此还需要诗人的生卒年的信息。

    根据要求,完成答题。

    ①全唐诗数量较多,一共四万多首,来源分散,存储在互联网不同的服务器与各客户终端。从大数据存储与计算的角度来看,由此可知大数据具有的特征。(单选)

    A.精确让位于模糊

    B.价值密度低

    C.分布式存储

    D.变化速度快

    ②网络上如此海量的关于唐诗的数据,有文字图片、视频、音频等。这些数据种类和格式也不一致,表明各种数据共存于网络中。(多选)

    A.结构化

    B.半结构化

    C.非结构化

    D.网状结构

    ③面对繁杂的数据,学习小组决定研究解密盛唐时期诗人关系,并利用计算机程序从网络中采集诗人别名等相关的文本数据,并以一定的数据结构存储,形成盛唐诗库。存储数据主要有两种方式,一种是,一种是数据云存储。你建议学习小组采用数据存储方式,理由是

  2. (2) 利用Python程序采集、整理、分析数据。

    第一步,从互联网中筛选出符合条件的诗人及诗作等文本,整理并形成盛唐诗库;第二步,确定人物关系分析策略,即从唐诗库中搜索、统计诗人或别名的引用次数,确定二人之间的疏密关系,规则是诗的标题和正文中只要提到过对方,那么两者之间的引用关系加1,若一首诗中提到多次对方,只算一次引用;第三步,编写程序并调试验证。

    用爬虫程序段(如下图所示)采集数据。根据要求,完成答题。

     

    使用爬虫程序获取文本数据并形成唐诗库文件,所使用的数据采集方法为(选填:系统日志采集法、网络数据采集法、其他数据采集方法)。阅读程序可知,每首诗存放于列表poem[ ]中(以唐诗“春晓”为例,如下表),采集后的数据保存在poet.txt文件中,该文件是一个(选填:数据库文件、文档文件、图像文件、网页文件)。该数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的数据文件,并以化的方式存储(选填:结构化、半结构化)。

    Poem[0]

    Poem[1]

    Poem[2]

    Poem[3]

    “春晓”

    “唐"

    “孟浩然”

    “春眠不觉晓……花落知多少”

    以诗人甲,乙为例,解密二人关系。根据要求,完成答题。

    ①数据处理过程中要运用一定的分析方法对大量、无序的数据进行整理、分析,挖掘数据内在的结构和规律,从而提取有价值的、有意义的数据。数据分析一般包括特征探索、关联分析、聚类与分类等。让计算机搜索遍历唐诗库中有关甲,乙两位诗人的诗文,统计两位诗,人或别名相互的引用次数,找寻二人之间的关联。这是运用了(选填:特征探索、关联分析、聚类与分类)方法进行数据分析,也是(选填:枚举、二分查找、排序)算法思想去求解这一问题的体现。

    ②编制计算机程序解决问题的过程中,是编程的核心, 是解决问题的方法和步骤。选用Python程序设计语言编写程序,Python属于(选填:分析问题、设计算法、编写程序、调试运行、机器语言、汇编语言高级语言)。图a示意,使用 (选填:自然语言、流程图、伪代码)进行算法描述,且运用循环控制结构嵌套了控制结构,如果要跳出本次循环体的执行,应使用语句实现跳转。

    ③阅读程序(图b示意),程序中以“#”开头的语句,其作用是,程序调试完成,通过“另存为”保存文件,文件后缀名为

  3. (3) 分析数据,进行可视化表达,并推测盛唐时期诗人关系。

    解密盛唐时期诗人关系。根据要求,完成答题。

    ①数据的可视化以易于理解的方式展示和诠释数据之间的关系、趋势与规律等,使人们更好地理解数据。从常用和实用的维度,数据可视化的呈现类型主要分为探索型和解释型,其中型可以帮助人们发现数据背后的价值,型则把数据简单明了地解释给人们(选填:探索、解释)。数据分析类型不同可视化呈现方式也不同,如关于趋势的分析,可用类型的图表呈现,关于比例的分析,可用类型的图表呈现,关于关系的分析,可用类型的图表呈现。

    ②学习小组选择用网络关系图呈现盛唐时期诗人社会网络关系(如图所示)。图中,箭头表示诗人之间的引用关系,如李白引用了贺知章,那么就有李白指向贺知章箭头;箭头的粗细程度则表示了诗人之间引用关系的强弱,如李白引用孟浩然的数量达4次,箭头就要粗一些。

    ③观察图示,从绘制的盛唐的诗人社交关系网络图,尝试推测哪位诗人是盛唐诗人的核心,哪位诗人的影响最大,请简要阐述。(要求100字左右)

    ④通过对该项目案例的研究学习,请谈谈大数据对学习生活的影响。

想要统计“本班学生最喜欢的动画片”,下列收集数据的方法比较合适的是(   )
A . 上网查找 B . 问卷调查 C . 观察 D . 查阅资料
数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据采集方法。
下列选项中,均属于数据采集工具的是(     )
A . 网络爬虫、传感器 B . 问卷、报纸 C . 移动App、杂志 D . 摄像机、电视机
在大数据时代,网络信息的采集是一项重要的工作,如果单纯靠人力进行网络信息采集,不仅低效繁琐,搜集的成本也会提高。此时,我们可以合法使用对网络数据进行自动采集。
输入法是一种重要的数据收集方式,通过对某用户常用词组的分析可以大致得到该用户的 基本信息,下列说法不正确的是(    )
A . 采用语音输入或者手写输入就可以避免个人信息通过这种方式被收集 B . 只要计算机不联网,就无法通过这种方式泄露个人信息 C . 在法律允许范围内该种方式直观的体现了人人都是数据的生产者 D . 通过联网更新后,越来越多新的词组可以被记忆以达到快速录入的目的,从而提高录入速度
为了保障数据传输过程中数据的安全,人们往往采用多种方式来隐藏数据或者伪装数据。其中一种常用的办法就是把数据插入到一幅图像中,通过把真实数据以二进制的形式插入到图像中,这样即使被截获,表面看起来就是一幅图像。下列几组数据中最有可能存在隐藏数据的是(    )
A . B . C . D .
下列关于计算机信息编码的描述,不正确的是()
A . ASCII 字符编码表包含128个字符 B . 4位二进制能表示的最大十进制数是16 C . 一个正整数的二进制数末尾增加一个“0”,这个数是原来数的2倍 D . 网络爬虫、传感器、移动App都是常见的数据采集工具
大数据的来源途径有许多,下列哪些属于大数据来源(     )

① 网络爬虫得到的数据

② 计算机网络运行产生的日志

② 人在微博上发表的记录

④ 传感器设备采集的数据

A . B . ①② C . ①③④ D . ①②③④
小刚用问卷星平台创建问卷,调查高二学生饮食营养结构,并通过班级群公布问卷地址,完成了调查;小强通过发放纸质调查问卷并回收统计,也完成了同类问题的调查。以下说法不恰当的是(      )
A . 网络调查很容易扩大调查的范围 B . 网络调查结果的数据处理比较方便 C . 网络调查可以节省成本 D . 网络调查适宜所有调查
由于疫情防控需要,学校要求各位班主任老师今天下午5点前上报如下数据:健康码为红码的人数、黄码的人数、核酸检测次数小于3次的人数、目前不在本市的人数。请问,要完成上述任务,以下哪位班主任老师的做法效率最高(     )
A . 张老师,打电话给全班同学,逐一询问统计 B . 李老师,在班级群里发布上报任务,让各位同学直接在群里回复上报,自己最后统计 C . 王老师,根据学校要求,设计了一张统计表,发布在班级群里,要求学生下载后接龙填写,完成后由王老师来统计上报 D . 陈老师,根据学校要求,设计了一张问卷收集表,并把问卷链接通过班级群发给学生,当每个学生填好问卷并提交后,陈老师再到问卷后台统计数据并上报
下列关于数据、编码的说法,正确是 (    )
A . 通过麦克风采集声音数据,不需要用到传感器 B . 计算机最基本的存储单位是比特(bit) C . 256级灰度图像的颜色位深度为8位 D . 数据就是对客观事物的符号表示,数据就是信息
最近更新