Loading...
墨滴

IT明哥

2021/11/25  阅读:28  主题:默认主题

线上会议精彩回顾 - Cloudera Sessions China 2021

线上会议精彩回顾 - Cloudera Sessions China 2021 - 附 PDF 资料下载

1 会议介绍 - Cloudera Sessions China 2021

Cloudera 官方于 2021/11/18 进行了一场全天的技术分享会 “Cloudera Sessions China 2021”,并同步进行了线上直播。

在本次全天的 Cloudera Sessions China 2021 活动中,Cloudera 以用户落地案例为主,为新老用户带来最新技术趋势的讨论和 CDP 典型场景和案例分享。其中包括混合云和私有云上数据平台的技术路线,实时数仓的架构建设,并有多位金融、制造业、零售业用户大咖以及合作伙伴介绍其最佳技术实践。

笔者有幸参加了全程线上直播,也从官方获取了大部分会议资料,在此回顾下会议亮点,并提供资料下载链接给大家。

2 会议议程回程

整个会议议程如下:

  • Cloudera 亚太区总裁致开幕辞
  • 主题演讲:Hybrid Cloud – The Power of “AND”
  • 数字化转型中的大数据趋势和技术方向
  • Dell EMC PowerScale 助力 CDP 开启大数据元宇宙
  • 浦发银行最佳实践分享
  • CDP私有云版本的最新进展与演示
  • 实时场景、实时数仓建设和演进
  • 用户分享 - 上海银行数据湖建设实践
  • 基于GPU的Spark应用加速
  • 用户分享 - 申万宏源基于混搭架构的大数据平台最佳实践
  • 用户分享 - 信也科技大数据与AI赋能新金融
  • 用户分享 – 永辉超市基于CDP的数据中台建设
  • CDP 迁移实例详解
  • Cloudera 金牌合作伙伴威士顿落地案例分享

IT大咖说官网提供了会议的直播回放,链接如下:

  • https://www.itdks.com/Home/Act/apply?id=5810&mUid=10267

3 会议精彩亮点回顾:主题演讲重点推介 CDP 混合云

Cloudera 在会议上重点推介了他们的 CDP 混合云。

4 会议精彩亮点回顾:数字化转型中的大数据趋势和技术方向

Cloudera 在会议上回顾了 HADOOP 的历史和现状,分析了当下数据类型和工作负载的变迁,由此引出了数字化转型中的大数据趋势和技术方向的预测。

这些分析和预测,刚好对应了笔者原来一篇博文里讲到的以下几点大数据发展趋势:

  • 大数据和云计算进一步深度融合,大数据拥抱云计算走向云原生化
  • 大数据更加青睐存储计算分离的架构
  • 大数据更加青睐对象存储
  • 大数据和机器学习/人工智能日益融合
  • 大数据日益重视数据安全
  • 大数据日益重视数据治理

5 会议精彩亮点回顾:CDP 混合云解决的用户痛点

CDP 混合云,解决了用户以下痛点: 注:PPT 的标题中陈述的是 CDP 私有云,这其实并不冲突,因为在 CDP 私有云的 CDP private cloud base 的基础上,按需灵活扩展增加了若干个计算集群 ECS 或 OCP 后,就是 CDP 混合云了。在下一章节 “CDP 混合云的架构”中,有进一步的阐述。

6 会议精彩亮点回顾:CDP 混合云的架构介绍与展示

CDP Hybrid Cloud 顺应了企业数字化转型并最终使用混合云的大趋势,以统一的体验整合了公有云和私有云的资源,具有以下技术特点:

  • 存储计算分离
  • 计算集群快速搭建和销毁
  • 计算集群弹性扩展和收缩
  • 使用Ozone替代HDFS
  • 集中式用户权限管理
  • 集中式元数据管理
  • 通过CML整合支持机器学习和人工智能

CDP 混合云的架构如下,这里有几个要点解释下:

  • 用户通过熟悉的 Cloudera Manager,使用熟悉的 parcel包,来安装和管理 CDP BASE CLUSETER, 也就是 CDP private cloud base, 就像原来安装和管理 CDH 一样;
  • 用户通过熟悉的 Cloudera Manager,在需要的时候,使用 docker 镜像,在公有云上或私有云上,安装和管理一个或多个 ECS 或 OCP; ( ECS: Amazon Elastic Container Service; OCP: Red Hat OpenShift Container Platform, 两者都是基于 K8S/DOCKER的封装);
  • CDP BASE CLUSETER,主要当做存储集群来使用,当不使用其计算能力时,甚至可以不安装 impala/hs2/spark等计算引擎;
  • ECS 或 OCP,主要当做计算集群来使用,可以不安装也可以安装多个,当不使用其存储能力时,可以不安装 hdfs/ozone 等存储引擎;
  • ECS 或 OCP,对应不同的使用场景,可以安装多个集群,比如对应数仓场景的 CDW(cloudera datawarehouse, 其底层主要是hs2,impala,hue),对应机器学习的CML (cloudera machile learning,其底层主要是 python/r/scala 的jupiter notebook),对应数据工程的 CDE(cloudera data engineering,其底层主要是 spark,airflow)
  • 当然在复杂的场景下,CDP BASE CLUSETER 和 ECS/OCP,也可以是多对多的关系:

7 会议精彩亮点回顾:实时场景、实时数仓建设和演进

在实时场景或实时数仓场景,Cloudera 采用的是主流的 LAMBDA 架构,主要整合了以下组件:

  • 导入层:NIFI/KAFKA CONNECT + sqoop
  • 计算层:SPARK STREAMING/FLINK/KAFKA STREAM + spark/hive/impala
  • 存储层:KAFKA/KUDU/HBASE/HIVE/S3

8 会议精彩亮点回顾:基于GPU的Spark应用加速

9 会议精彩亮点回顾:CDP 迁移实例详解

  • 关于 CDP 迁移,笔者原来有关相关博文进行详细介绍,大家可以查阅;
  • 在会上留意到的一点是,已经有不少国内客户已经迁移完毕或正在迁移中了;
  • 迁移完毕后,数据一致性校验的方法需要注意;

为了方便读者获取,笔者已经将上述资料上传到了百度云盘,小伙伴们可以通过如下方式获取:

关注下方公众号"明哥的IT随笔"; 在下方后台回复关键词「CDP」快速下载:

▲点击卡片进行关注▲

▲回复「CDP」,获取PDF▲ !关注不迷路~ 各种福利、资源定期分享!欢迎小伙伴们关注公众号!

!欢迎小伙伴们添加明哥微信,备注“加群交流”,拉你加入ABC技术交流群!

IT明哥
IT明哥

IT明哥

2021/11/25  阅读:28  主题:默认主题

作者介绍

IT明哥