YARN的生态系统
为了能够对集群中的资源进行统一管理和调度, 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理成本。首先,YARN允许多个应用程序运行在一个集群中,并将资源按需分配给它们,这大大提高了资源利用率,其次,YARN允许各类短作业和长服务混合部署在一个集群中,并提供了容错、资源隔离及负载均衡等方面的支持,这大大简化了作业和服务的部署和管理成本。
YARN总体上采用/slave架构,如图1所示,其中,被称为,slave被称为,负责对各个上的资源进行统一管理和调度。当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的,它负责向申请资源,并要求启动可以占用一定资源的。由于不同的被分布到不同的节点上,并通过一定的隔离机制进行了资源隔离,因此它们之间不会相互影响。
图1 YARN的基本架构
YARN中的资源管理和调度功能由资源调度器负责,它是 YARN中最核心的组件之一,是中的一个插拔式服务组件 。YARN通过层级化队列的方式组织和划分资源,并提供了多种多租户资源调度器,这种调度器允许管理员按照应用需求对用户或者应用程序分组,并为不同的分组分配不同的资源量,同时通过添加各种约束防止单个用户或者应用程序独占资源,进而能够满足各种QoS需求,典型代表是Yahoo!的 和的Fair 。
YARN作为一个通用数据操作系统,既可以运行像、Spark这样的短作业,也可以部署像Web 、MySQL 这种长服务,真正实现一个集群多用途,这样的集群,我们通常称为轻量级弹性计算平台,说它轻量级,是因为YARN采用了轻量级隔离方案,说它弹性,是因为YARN能根据各种计算框架或者应用的负载或者需求调整它们各自占用的资源,实现集群资源共享,资源弹性收缩。
图2 以YARN为核心的生态系统
YARN在异构集群中的应用
从2.6.0版本开始,YARN引入了一种新的调度策略:基于标签的调度机制。该机制的主要引入动机是更好地让YARN运行在异构集群中,进而更好地管理和调度混合类型的应用程序。
什么是基于标签的调度
故名思议,基于标签的调度是一种调度策略,就像基于优先级的调度一样,是调度器中众多调度策略中的一种,可以跟其他调度策略混合使用。该策略的基本思想是:用户可为每个打上标签,比如,等,以作为的基本属性;同时,用户可以为调度器中的队列设置若干标签,以限制该队列只能占用包含对应标签的节点资源,这样,提交到某个队列中的作业,只能运行在特定一些节点上。通过打标签,用户可将分成若干个子集群,进而使得用户可将应用程序运行到符合某种特征的节点上,比如可将内存密集型的应用程序(比如Spark)运行到大内存节点上。
Hulu应用案例
基于标签的调度策略在Hulu内部有广泛的应用。之所以启用该机制,主要出于以下三点考虑:
集群是异构的。在集群演化过程中,后来新增机器的配置通常比旧机器好,这使得集群最终变为一个异构的集群。设计之初众多设计机制假定集群是同构的,即使发展到现在yarn命令,对异构集群的支持仍然很不完善,比如推测执行机制尚未考虑异构集群情形。
应用是多样化的。Hulu在YARN集群之上同时部署了、Spark、Spark 、 等多种类型的应用程序 。当在异构集群混合运行多类应用程序时,经常发生由于机器配置不一导致并行化任务完成时间相差较大的情况,这非常不利于分布式程序的高效执行。此外,由于YARN无法进行完全的资源隔离,多个应用程序混合运行在一个节点上容易相互干扰,对于低延迟类型的应用通常是难以容忍的。
个性化机器需求。由于对特殊环境的依赖,有些应用程序只能运行在大集群中的特定节点上。典型的代表是spark和,spark MLLib可能用到一些库,为了防止污染系统,这些库通常只会安装在若干节点上; 的运行依赖于 ,为了简化运维成本,我们 只会让运行在若干指定的节点上。
为了解决以上问题,Hulu在 基础上启用了基于标签的调度策略。如图3所示,我们根据机器配置和应用程序需求,为集群中的节点打上了多种标签,包括:
图3 YARN部署示例
需要注意的是,YARN允许一个节点同时存在多个标签,进而实现一台机器混合运行多类应用程序(在hulu内部,我们允许一些节点是共享的,同时可以运行多种应用程序)。表面上看来,通过引入标签将集群分成了多个物理集群,但实际上,这些物理集群跟传统意义上完全隔离的集群是不同的,这些集群既相互独立又相互关联,用户可非常容易地通过修改标签动态调整某个节点的用途。
YARN应用案例及经验总结
YARN应用案例
YARN作为一个数据操作系统,提供了丰富的API供用户开发应用程序。Hulu在YARN应用程序设计方面进行了大量探索和实践,开发了多个可直接运行在YARN上的分布式计算框架和计算引擎,典型的代表是和nesto。
(1)基于的容器计算框架
是近两年非常流行的容器虚拟化技术,可以自动化打包部署绝大部分应用,它使得任何程序能够运行在资源隔离的容器环境,从而提供了一套更加优雅的项目构建、发布、运行的解决方案。
为了整合YARN和各自的独特优势,Hulu北京大数据团队开发了。是一个分布式的计算框架,利用YARN作为资源管理模块,用作为执行任务的引擎,从而让YARN既可以调度传统的和Spark等类型的应用程序,也可以调度封装在镜像中的应用程序。
支持基于 的DAG(有向无环图)任务和长服务(比如web ),提供命令行方式与IDE方式等多种应用程序提交方式,满足了生产环境和开发环境的需求。此外,可以配合,,私有的仓库完成一整套开发、测试、自动发布的流程。
图4 系统架构
在中,YARN负责集群的资源调度,作为一个执行引擎,从 中拉取镜像执行。负责为基于容器的DAG任务申请资源,运行任务。如图4所示,每个黑线框代表一台机器,上面运行着几个模块,具体如下:
组件:
组件:
类似于spark on yarn,也提供两种应用程序运行模式,分别是yarn-模式和yarn-模式。yarn-模式中应用程序的控制组件和资源管理组件都运行在集群中,应用程序提交成功后,客户端可以随时退出而不影响集群中应用程序的运行。yarn-模式适合生产环境提交应用程序;yarn-模式中应用程序的控制组件运行在客户端,其他组件运行在集群中,客户端可以看到关于应用程序运行状态的更多信息,客户端退出后,在集群中运行的应用程序也随即退出yarn命令,yarn-模式可以方便用户进行调试。
(2)并行计算引擎nesto
nesto是hulu内部一个类似于/的MPP计算引擎,它是专门为处理复杂的嵌套式数据而设计的,支持复杂的数据处理逻辑(SQL难以表达),其采用了列式存储、code 等优化技术以加速数据处理效率。Nesto架构类似于/,它是无中心化的,多个nesto 通过进行服务发现。
为了简化nesto部署和管理成本,hulu直接将nesto部署到YARN上。这样,nesto安装部署过程将变得非常简单:Nesto安装程序(包括配置文件和jar包)被打成一个独立的压缩包存放到HDFS,用户可通过运行一个提交命令,并指定启动的nesto 数目、每个需要的资源等信息,即可快速部署一套nesto集群。
Nesto on yarn程序由一个和多个构成,其中负责像YARN申请资源,并启动,而的作用是启动nesto ,关键设计点在,它的功能包括:
YARN开发经验总结
(1)巧用资源申请API
YARN提供了较为丰富的资源表达语义,用户可以申请特定节点/机架上的资源,也可以通过黑名单的方式不再接受某个节点上的资源。
(2)注意
一个的内存是由java heap,jvm 和non-java 三部分构成的,如果用户为应用程序设置的内存大小为X GB(-xmxXg),则为其申请的内存大小应为X+D,其中D为jvm ,否则可能会因总内存超出限制被YARN杀死。
(3) log
对于长服务而言,服务日志会越积攒越多,因而log 显得尤为重要。由于启动之前,应用程序是无法知道日志具体存放位置(比如哪个节点的哪个目录下)的,为了方便用户操作日志目录,YARN提供了宏,当该宏出现在启动命令中时,YARN会自动将其替换为具体的日志目录,比如:
echo$ > $PWD/log4j. &&java-.=log4j. …
com.. 1>>/.log 2>>/.log
其中变量内容如下:
(4)调试技巧
启动之前,会将该相关的环境变量、启动命令等信息写入一个shell脚本,并通过启动该脚本的方式启动。有些情况下,启动失败可能是由于启动命令写错的缘故(比如某些特殊字符被转义了),为此,可通过查看最后执行脚本内容判断启动命令是否存在问题,具体方法是,在执行命令之前添加打印脚本内容的命令。
(5)共享集群带来的性能问题
当在YARN集群中同时运行多种应用程序时,可能造成节点负载不一,进而导致某些节点上的任务运行速度慢于其他节点,这对于OLAP需求的应用是不能接受的。为了解决该问题,通常有两种解决方式:1)通过打标签的方式将这类应用运行到一些独享的节点上 2)在应用程序内部实现类似于和Spark的推测执行机制,为慢任务额外启动一个或多个同样的任务,以空间换时间的方式,避免慢任务拖慢整个应用程序的运行效率。
YARN发展趋势
对于 YARN,会朝着通用资源管理和调度方向发展,而不仅仅限于大数据处理领域,包括对 、Spark 短作业的支持,以及对 Web 等长服务的支持。