13554148382

联系我们

contact

联系电话:13554148382

湖北省武汉市武昌区中南路14号发展大厦2层

简介

阳光大数据中心平台,是建立在开源的hadoop体系之上的大数据处理平台,通过图形化的界面提供便捷的流程编排、任务调度、系统监控等功能。


工作流程


工作流程

分析与确定

流程设置

实施与监控

支撑效果评估

需求

实施

日常运维

取数

 

模型设计

流程设计

 

任务设置

 

ETL作业

告警

 


管理门户


阳光统一数据中心  统一管理平台  >>>>   管理集中化  >>>>   海量数据处理  >>>>   流程标准化


分布式数据处理

通过分发数据,可以在数据所在的节点上并行的快速处理


元数据管理

业务元数据的管理,保障口径的统一

数据质量

确保数据的品质服务

数据安全

对数据资产进行有效的保护


运维管理

对系统运行软、硬件环境、进行管控


无代码配置
全程可视化

统一调度平台统一作业平台元数据管理
统一监控平台
系统角度,通过集成手段将不同数据、不同系统的数据真正的管理起来。
将现在有ETL的半自动化作业平台,建立成全数据的作业化
标准化、流程化的应用开发流程,提供更广泛的应用共享,和复杂平台下的应用所需的系统基础构建支撑能力。
统一的对的元数据进行资源管控,
从数据源头出发,建立起从接口、
仓库、数据分发的标准、
统一的技术架构
从管理角度看,在多平台下,
建立从开发全生命周期到
运维监控的数据管控能力。


面对数据:提供全面、标准化管理能力

传统结构化数据源 >>>  实时数据源 >>>  统一数据管理中心    

统一接口统一ETL任务处理<<< 非结构/结构数据源<<< 非结构外部数据源(互联网等)

全面管理:能管的都管起来

支持结构化数据源。如DB2,Oracle等关系型数据库的抽取加载;

支持非结构化数据源。如xml数据、json,html,xls等;

支持实时数据源;

支持对多种数据库、数据源进行统一接入;

支持日、月、周、不定期、实时数据采集;

支持元数据管理。


面对开发:提供无编码智能开发的能力


告别代码方式实现智能开发

原始数据 >> 数据抽取 >> 数据转换 >> 数据加载 >> 结果数据


无需编写代码、在MapReduce运行抽取处理技术;

支持多种格式转换、合并&再次使用;

采用界面配置方式,实现MapReduce配置,无需生成任何代码;

在Windows上本地进行测试,再部署到Hadoop上。


面对管理:提供全流程作业配置能力


可以将异构平台的服务器任务按照先后顺序和逻辑关系组成一可以实时监控的作业网,并且可以根据日程表或各种策略来自动执行当中的作业,完成服务器任务的高效化自动管理。


作业前台配置
手动拖拽全业务配置
多项作业处理
作业1
第一项作业
作业2
第一项作业
作业预演
作业合规性检查
作业测试
作业试运行
作业3
第一项作业
作业发布
作业注册
作业上线管理
作业下线管理
所有应用的hadoop作业必须通过统一作业平台在统一调度平台上注册
…………
作业N
第N项作业
作业结束
作业结束



面对使用者:提供统一可视化展现能力


大数据管理中心 >>  统一监控平台管理 > ETL作业流程管理 > 统一调度平台管理 > 元数据管理


云ETL功能全景图



展现层系统告警重点流程监控我的任务时间轴进度指标监控
调度层
调度配置调度管理日志管理复杂事件处理中心
触发配置模板管理调度引擎调度日志高可用实时监控
JOB树管理采集配置工作流管理登陆日志负载均衡节点监控
转换配置加载配置

节点扩展
组件层采集转换加载处理脚本数据交互
Ftp
SFtp拆分合并文件加载存储过程GreenPlumDB2
Api
JDBC字段转换合法检查流加载Per脚本TeradataHadoop
实时抽取数据校验空置处理数据校验压缩加载Shell脚本HBase
多网卡适配库外处理库内处理不落地加载




云ETL关键能力:作业流程实现半自动化


产品支持各种复杂作业关系配置,系统通过人工手动图形化界面配置从前端快速简明的配置作业任务,提供作业执行流程监控,可视化管理。

支持定时、常驻任务,灵活的定义时间格式

支持数据触发,作业关系管理

多种作业节点类型配置,支持tcl、shell、python、java

1、拖放图标(一个图标代表一个作业)

2、按照执行顺序用箭头连接,绘制作业流程!


云ETL关键能力:任务实现跨平台调度

任务流程调度模块,提供跨系统跨平台的任务调度功能,与各子系统紧密接合,支持跨越平台、跨系统间隔实现完整无空隙运行的统一调度。

创建任务  JDBC  shell  Perl  Webservice   Hadoop API  不落地传输 ....


内部任务管理  平台配置调度任务

任务管理   任务调度线程池:任务1 、任务2、任务3 、任务4、任务n    


任务调度  >> 选取满足条件的任务,例如定时,条件等  >> 分配任务执行代理客户端  >> 向执行代理客户端发送任务,并等待执行结果  >> 接受执行结果和日志,更新任务执行数据日期  

发送任务执行命令   TCP/IP    

任务执行  agent1  >> agent2  >> agent3  >> agent4  >> Agent…    

返回任务执行结果和日志

云ETL关键能力:实现对集群的监控管理

返回任务执行结果和日志

可用性监控视图:统一监控Server和代理节点设备,可以直观监控Server和代理节点及应用是否运行正常。

性能分析视图:实时监控Server及代理节点机硬件状态以及JOB的运行状态。包括硬件资源消耗情况,JOB运行状态、JOB占用资源等。


支持平台节点自动安装部署及运维管理能力

节点管理:

支持集群中节点在线添加、移除,在节点上自动部署Agent代理,自动实现后续节点的监控、服务管理能力。

JOB管理:

前端执行任务更新操作,对当前未运行job更新,删除未运行job,或者添加job,并不中断系统运行过程,更新、修改后的job要及时反映到数据库。


云ETL关键能力:实现对流式数据的处理


针对高性能海量数据的实时处理,为满足高效低延迟需求,平台既可以在实时抽取基础之上进行扩展使之支持流式数据采集能力,也可以提供通过借助流式计算引擎来完成数据采集作业的工作模式。


数据源  > 事件1  > 事件2  > 事件3  > 事件4 ...  > 事件n    事件侦听器   消息队列  消息1 > 消息2 > 消息3 > 消息4  

方案一

采集Job  >  拆分  >   Sub-job  >   Sub-job  >   Sub-job   >    Reader插件  

JMS Reader   >   数据处理插件  >  双缓冲区队列  >   写Buffer  >   读Buffer

FrameWork(解决缓冲,流控,并发,上下文加载等问题)


方案二

JMS Reader(消息读取) 流式计算引擎  消息接收器(Spout)  XML    消息计算处理1  >   消息计算处理N    >    Writer(输出)