大数据复习

简答题:

1.Hadoop安装步骤。

2.列举大数据在各个领域的应用。

金融：大数据可以用于风险评估、欺诈检测、客户推荐等。医疗：大数据可以用于疾病预测、药物开发、健康监测等。零售：大数据可以用于销售预测、客户购买行为分析、价格优化等。制造业：大数据可以用于生产过程监测、质量控制、资源优化等。教育：大数据可以用于学习分析、教学内容优化、学习成绩预测等。

3.Hadoop体系结构的Hbase与其他组件的关系。

Hadoop是一个大数据处理框架，它包含若干个组件，其中HBase是一个开源的分布式数据库，主要用于存储和管理海量的结构化和非结构化的数据。HBase是Hadoop体系结构的一个组件，主要用于存储和管理海量的结构化和非结构化的数据。它可以通过HDFS来存储数据，并使用Hadoop MapReduce来进行数据处理。

4.Hbase与传统数据库的区别。

架构不同：HBase采用分布式架构，可以横向扩展，而传统数据库通常采用单机或主从架构，难以横向扩展。存储类型不同：HBase采用列存储模型，可以存储海量的结构化和非结构化的数据，而传统数据库通常采用行存储模型，只能存储结构化的数据。数据模型不同：HBase采用键值对的数据模型，支持快速随机访问，而传统数据库通常采用关系型数据模型，支持关系型查询。查询能力不同：HBase支持快速随机访问和批量读写，但不支持关系型查询，而传统数据库支持关系型查询，但不支持快速随机访问和批量读写。可用性不同：HBase支持数据的高可用性，即使某个节点出现故障也不会影响整体的可用性，而传统数据库不支持

5.简述云计算，大数据，物联网三者关系。

云计算可以为大数据的处理和分析提供强大的计算能力和存储空间，同时也可以通过云端的服务来提供大数据分析工具；云计算可以为物联网提供远程访问和管理的能力，同时也可以为物联网设备提供云端的存储和计算资源。

6.NoSQL与关系型数据库的区别。

数据模型不同：NoSQL数据库采用非关系型的数据模型，如文档型、键值型、图型等，而关系型数据库采用关系型的数据模型。数据存储方式不同：NoSQL数据库通常采用列存储或文档型存储，而关系型数据库通常采用行存储。数据一致性不同：NoSQL数据库通常不支持事务和多版本并发控制，因此数据一致性较弱，而关系型数据库支持事务和多版本并发控制，因此数据一致性较强。查询能力不同：NoSQL数据库通常不支持关系型查询，而关系型数据库支持关系型查询。可扩展性不同：NoSQL通常采用分布式架构，可以横向扩展，而关系型数据库通常采用单机或主从架构，难以横向扩展。

7.Streaming与Storm的区别及Spark Streaming的优点。

区别：架构不同：Streaming是一种流式数据处理技术，Storm是一种分布式流式计算框架，Spark Streaming是Apache Spark的一个模块。功能不同：Streaming仅支持流式数据处理，Storm支持流式数据处理和分析，Spark Streaming既支持流式数据处理，也支持批处理。性能不同：Storm的处理速度较快，但有时会出现数据丢失的情况，Spark Streaming的处理速度略慢，但更稳定，不会出现数据丢失的情况。优点：高吞吐量：Spark Streaming可以处理每秒钟数千至数百万条的数据流，具有高吞吐量的优势。容错性强：Spark Streaming支持数据的容错和恢复，可以保证数据的可靠性。易于开发和部署：Spark Streaming提供了丰富的API和开发工具，易于开发和部署。可扩展性好：Spark Streaming支持分布式计算，可以通过增加节点来扩展系统的处理能力。可以与多种数据源集成：Spark Streaming可以与Kafka、Flume、Twitter、Socket等多种数据源集成，方便对数据流进行处理。

8.NameNode与DataNode的含义和作用。

NameNode是HDFS的主节点，负责管理文件系统的命名空间和实际的文件块的映射关系。它负责维护文件系统的元数据信息，包括文件名、文件所属目录、文件块分布情况等。NameNode还负责调度文件的读写操作，并记录文件的访问日志。DataNode是HDFS的工作节点，负责存储实际的文件块数据。每个DataNode都有自己的存储空间，负责存储和维护文件块。当用户的读写请求到达NameNode时，NameNode会调度相应的DataNode处理请求。

9.简述MapReduce四大体系结构以及每个结构的作用。

JobTracker：负责调度MapReduce作业的执行，监控作业的进度和状态，并在必要时重新调度作业。TaskTracker：负责执行由JobTracker调度的MapReduce任务，并向JobTracker汇报任务的执行进度和状态。InputFormat：负责将输入数据分片，并提供给Map函数处理。OutputFormat：负责将Map函数处理后的结果合并输出。

10.NOSQL数据库的种类和特点。

键值存储数据库：采用键值对的数据模型，适用于存储简单的数据。文档数据库：采用文档的数据模型，适用于存储结构化和非结构化的数据。列存储数据库：适用于海量数据的快速随机访问。图结构存储：用于社交网络。面向对象数据库：这类数据库以对象的形式存储数据，适用于面向对象编程的应用场景。NOSQL数据库具有高可扩展性、高可用性、高性能等特点

11. Spark运行架构的特点

分布式内存计算：Spark可以将数据加载到内存中进行处理，具有较高的计算效率。支持多种编程语言：Spark支持Java、Scala、Python等多种编程语言，方便开发人员使用。支持流式计算和批处理：Spark支持流式计算和批处理两种模式，能够满足不同的数据处理需求。支持多种存储系统：Spark可以与多种存储系统集成。可扩展性强：Spark支持分布式计算，可以通过增加节点来扩展计算能力。支持容错：Spark支持数据的容错和恢复，可以保证数据的可靠性。

应用题:

1.作业:词频统计实验

MapReduce对词频统计的过程

画出SQL查询并转换成作业的过程

2.YARN架构的设计思路，三个组件功能

【单选题】 (5分)
下列说法正确的是
A. HDFS HA可用性不好
B. 第二名称节点无法解决单点故障问题
C. 第二名称节点是热备份
D. HDFS HA提供高可用性，可以实现可扩展性、系统性能和隔离性
参考答案 D
【单选题】 (5分)
HDFS Federation设计不能解决“单名称节点”存在的哪个问题:
A. 单点故障问题
B. 良好的隔离性
C. 性能更高效
D. HDFS集群扩展性
参考答案 A
【单选题】 (5分)
下列关于MapReduce工作流程，哪个描述是正确的？
A. 所有的数据交换都是通过MapReduce框架自身去实现的
B. 不同的Map任务之间会进行通信
C. 不同的Reduce任务之间可以发生信息交换
D. 用户可以显式地从一台机器向另一台机器发送消息
参考答案 A
【单选题】 (5分)
下列说法错误的是
A. Hadoop MapReduce是MapReduce的开源实现，后者比前者使用门槛低很多
B. MapReduce采用非共享式架构，容错性好
C. MapReduce主要用于批处理、实时、计算密集型应用
D. MapReduce采用“ 分而治之”策略
参考答案 C
【单选题】 (5分)
第 1 页共 5 页
大数据原理与应用导出时间:2022/12/21
执行启动Hadoop指令后，使用哪个命令可以判断Hadoop是否启动成功
A. jps
B. put
C. abc
D. gpa
参考答案 A
【单选题】 (5分)
关于文档数据库的说法，下列哪一项是错误的
A. 数据时规则的
B. 性能好（高并发）
C. 缺乏统一的查询语法
D. 复杂性低
参考答案 A
【单选题】 (5分)
下列哪个不属于YARN体系结构中ResourceManager的功能
A. 处理客户端请求
B. 监控NodeManager
C. 资源分配与调度
D. 处理来自Application Master的命令
参考答案 D
【单选题】 (5分)
在Hadoop项目结构中，HDFS指的是（）
A. 分布式文件系统
B. 分布式并行编程模型
C. 资源管理和调度器
D. Hadoop上的数据仓库
参考答案 A
【单选题】 (5分)
在HBase中，关于数据操作的描述，下列哪一项是错误的？
A. HBase采用了更加简单的数据模型，它把数据存储为未经解释的字符串
B. HBase操作不存在复杂的表与表之间的关系
C. HBase不支持修改操作
D. HBase在设计上就避免了复杂的表和表之间的关系
参考答案 C
【单选题】 (5分)
在Linux中启动Hbase的指令为
A. start-hbase.site
B. start-hbase.df
C. start-hbase.sh
D. start-hbase.html
参考答案 C
【单选题】 (5分)
下列关于Map和Reduce函数的描述，哪个是错误的
A. Map将小数据集进一步解析成一批对，输入Map函数中进行处理
B. Map每一个输入的会输出一批。是计算的中间结果
C. Reduce输入的中间结果中的List(v 2 )表示是一批属于不同k 2 的value
D. Reduce输入的中间结果中的List(v 2 )表示是一批属于同一个k 2 的value
参考答案 C
【单选题】 (5分)
MapReduce1.0的体系结构中，JobTracker是主要任务是什么？
A. 负责资源监控和作业调度，监控所有TaskTracker与Job的健康状况
B. 使用“slot”等量划分本节点上的资源量（CPU、内存等）
C. 会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给TaskTracker
D. 会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务（Task）
参考答案 A
【单选题】 (5分)
列关于MapReduce的说法，哪个描述是错误的
A. MapReduce具有广泛的应用，比如关系代数运算、分组与聚合运算等
B. MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数
C. 编程人员在不会分布式并行编程的情况下，也可以很容易将自己的程序运行在分布式系统上，完成海量数据集
的计算
D. 不同的Map任务之间可以进行通信
参考答案 D
【单选题】 (5分)
下列传统并行计算框架，说法错误的是哪一项？
A. 刀片服务器、高速网、SAN，价格贵，扩展性差上
B. 共享式(共享内存/共享存储)，容错性好
C. 编程难度高
D. 实时、细粒度计算、计算密集型
参考答案 B
【单选题】 (5分)
下列关于BigTable的描述，错误的是（）
A. 爬虫持续不断地抓取新页面，这些页面每隔一段时间地存储到BigTable里
B. BigTable是一个分布式存储系统
C. BigTable起初用于解决典型的互联网搜索问题
D. 网络搜索应用查询建立好的索引，从BigTable得到网页
参考答案 A
【单选题】 (5分)
下列关于MapReduce模型的描述，错误的是哪一项？
A. MapReduce采用“ 分而治之”策略
B. MapReduce设计的一个理念就是“ 计算向数据靠拢”
C. MapReduce框架采用了Master/Slave架构
D. MapReduce应用程序只能用Java来写
参考答案 D
【单选题】 (5分)
下面哪一项不是MapReduce体系结构主要部分？
A. Client
B. JobTracker
C. TaskTracker以及Task
D. Job
参考答案 A
【单选题】 (5分)
在Hadoop项目结构中，MapReduce指的是什么
A. 分布式并行编程模型
B. 流计算框架
C. Hadoop上的工作流管理系统
D. 提供分布式协调一致性服务
参考答案 A
【单选题】 (5分)
Linux中，修改某文件权限的指令为
A. delete
B. chance
C. change
D. chmond
参考答案 D
【单选题】 (5分)
在Hadoop中新建一个目录的指令为
A. create
B. open
C. mkdir
D. newfile
参考答案 C

第2部分多选题
【多选题】 (10分)
下列哪些是Hadoop1.0存在的问题：
A. 执行迭代操作效率低
B. 抽象层次低
C. 开发者自己管理作业之间的依赖关系
D. 表达能力有限
参考答案 A,B,C,D
【多选题】 (10分)
对新一代资源管理调度框架YARN的理解正确的是:
A. YARN既是资源管理调度框架，也是一个计算框架
B. YARN可以实现“一个集群多个框架”，即在一个集群上部署一个统一的资源调度管理框架
C. YARN的体系结构包含三个组件：ResourceManager，NodeManager，ApplicationMaster
D. MapReduce2.0是运行在YARN之上的计算框架，由YARN来为MapReduce提供资源管理调度服务
参考答案 B,C,D
【多选题】 (10分)
:下列对Hadoop各组件的理解正确的是
A. Kafka：分布式发布订阅消息系统
B. Tez：支持DAG作业的计算框架
C. Pig：处理大规模数据的脚本语言
D. Oozie:工作流和协作服务引擎
参考答案 A,B,C,D
【多选题】 (10分)
对于MapReduce 而言，其处理单位是split。split 是一个逻辑概念，它包含哪些元数据信息
A. 数据起始位置
B. 数据长度
C. 数据所在节点
D. 数据大小
参考答案 A,B
【多选题】 (10分)
下列关于MapReduce的体系结构的描述，说法正确的有
A. 用户编写的MapReduce程序通过Client提交到JobTracker端
B. JobTracker负责资源监控和作业调度
C. TaskTracker监控所有TaskTracker与Job的健康状况
D. TaskTracker 使用“slot”等量划分本节点上的资源量（CPU、内存等)
参考答案 A,B

第2部分 多选题

第2部分多选题