职业技能:1. 掌握利用Spark及其组件(Spark Core、Spark SQL、Spark Structured Streaming)进行大数据处理和分析,能够使用SparkSQL完成数仓项目中的数据抽取、转换和加载(ETL)的工作。2. 熟悉Hadoop的分布式文件系统(HDFS),了解HDFS的存取流程,熟悉YARN的资源调度流程以及MapReduce的执行流程,具备对Hadoop集群的高可用性方面的知识。3. 熟练掌握Hive的工作原理,能够将数据导入到Hive中,并使用SQL和HQL完成数据查询和分析,具备数据仓库建立和管理的经验。4. 熟练使用Linux操作系统,能够编写Shell脚本,实现自动化的数据导入导出任务,例如使用Shell脚本生成Datax的自动化Json配置文件。5. 理解Elasticsearch的工作原理,熟悉其主从架构,能够将Hive作为外部表与Elasticsearch集成,构建ES表存储,并与Spark进行数据查询和分析的对接。6. 熟悉Sqoop和Datax工具,能够完成数据迁移工作,包括从关系型数据库到Hadoop的数据导入导出,以及数据仓库的建立和管理,实现对数据的多维分析。7. 熟悉使用Datax工具进行数据转换和抽取的工作,能够处理不同数据源之间的数据交互和转换。8. 熟悉Kafka的架构原理,了解其在大数据领域中的应用,包括实时数据流处理和消息队列的使用。9. 熟练掌握Python和Java的编程语言,具备良好的编码能力,了解数据结构和面向对象编程的基本概念和原理。项目经历:项目名称1:NRG新零售用户画像软件架构:Spark+Flume+Hadoop+Hive+Datax+Mysql+Linux+Hue+Kakfa+Elasticsearch+DS+Python项目描述:NRG新零售用户画像项目旨在通过使用ES从数仓获取离线业务数据,并通过Flume -> Kafka -> Structured Streaming -> Mysql获取实时业务数据。在Spark标签计算平台上,使用Mysql中的标签规则为数据打上相应的标签。通过Spark ML API进行数据挖掘,为用户打上挖掘类标签。使用Spark-yarn模式通过DataStage进行调度,将打好标签的数据提交到ES,以供BI绘制报表和满足其他业务需求。责任描述:1. 负责Hive外部表的方式将HDFS中的数据导入到ES,确保数据的准确性和一致性。2. 负责使用Datax的方式将Mysql中的数据导入到ES,编写Json的自动生成python脚本3. 使用Spark DSL和SQL的格式,根据4级标签规则查询ES中的数据,并根据5级标签规则为数据打上标签ID,实现标签的关联和匹配。4. 使用Spark DSL风格的代码开发性别、年龄段等规则类标签和消费周期、支付方式等统计类标签的计算逻辑,确保标签的准确性和完整性。5. 使用Spark DSL风格的代码和Spark ML的Kmeans算法及决策树等算法实现用户类型如高净值等挖掘类标签的开发,通过数据挖掘算法识别和分类用户类型。6. 协助团队使用BI进行报表的绘制和数据可视化展示,满足业务部门和管理层的需求。
-
大数据工程师艾德盟科信息技术有限公司 Nov 2022 - Feb 2023中国 广东省 广州市项目描述:NRG新零售用户画像项目旨在通过使用ES从数仓获取离线业务数据,并通过Flume -> Kafka -> Structured Streaming -> Mysql获取实时业务数据。在Spark标签计算平台上,使用Mysql中的标签规则为数据打上相应的标签。通过Spark ML API进行数据挖掘,为用户打上挖掘类标签。使用Spark-yarn模式通过DataStage进行调度,将打好标签的数据提交到ES,以供BI绘制报表和满足其他业务需求。责任描述:1. 负责Hive外部表的方式将HDFS中的数据导入到ES,确保数据的准确性和一致性。2. 负责使用Datax的方式将Mysql中的数据导入到ES,编写Json的自动生成python脚本3. 使用Spark DSL和SQL的格式,根据4级标签规则查询ES中的数据,并根据5级标签规则为数据打上标签ID,实现标签的关联和匹配。4. 使用Spark DSL风格的代码开发性别、年龄段等规则类标签和消费周期、支付方式等统计类标签的计算逻辑,确保标签的准确性和完整性。5. 使用Spark DSL风格的代码和Spark ML的Kmeans算法及决策树等算法实现用户类型如高净值等挖掘类标签的开发,通过数据挖掘算法识别和分类用户类型。6. 协助团队使用BI进行报表的绘制和数据可视化展示,满足业务部门和管理层的需求。
-
大数据工程师艾德盟科信息技术有限公司 Feb 2022 - Aug 2022中国 广东省广州市项目名称: 正讯保险精算项目软件架构: Datax+Hadoop+Hive+Mysql+Linux+DS+Spark+Python+FineBI项目描述: 正讯保险指标项目是为正讯保险公司开发的一个基于业务需求的指标计算系统。该项目主要通过使用Datax将数据从Mysql导入到Hive中,利用Spark集成Hive编写Spark SQL脚本,根据业务需求计算各项指标,如保单价值准备金、准备金年末、保险费等。通过Python脚本运行计算任务,并使用FineBI进行数据可视化展示和分析。`责任描述:1. 负责数据的导入工作,编写Datax的JSON文件自动生成脚本,实现数据导入的自动化操作,提高数据导入效率和准确性。2. 负责指标统计表的创建,使用Hive SQL编写指标表的创建,确保数据表结构的准确性和一致性。3. 使用Spark SQL根据业务需求编写计算保单价值保证金、净保费等指标的计算脚本,确保指标的准确。4. 通过Python编写SQL需求的UDAF自定义函数,并通过Python脚本运行SQL计算脚本。5. 协助团队完成FineBI的数据可视化看板的开发工作,将指标计算结果进行可视化展示和分析。
Frequently Asked Questions about 张程鹏
Not the 张程鹏 you were looking for?
Free Chrome Extension
Find emails, phones & company data instantly
Aero Online
Your AI prospecting assistant
Select data to include:
0 records × $0.02 per record
Download 750 million emails and 100 million phone numbers
Access emails and phone numbers of over 750 million business users. Instantly download verified profiles using 20+ filters, including location, job title, company, function, and industry.
Start your free trial