데이터 파이프라인 설계 및 개발Hadoop ecosystem, Spark, Kafka, Airflow, Iceberg, AWS Glue, S3, Databricks
-
Data EngineerHunet Mar 2024 - Present대한민국 서울 -
Data EngineerRiiid Aug 2023 - Dec 2023대한민국 서울 -
Data EngineerQoo10 Jun 2023 - Aug 2023대한민국 서울위메프 데이터 플랫폼 운영 -
데이터 엔지니어Wemakeprice Dec 2021 - Jun 2023대한민국 서울● 데이터 플랫폼 운영[공통]Hadoop eco system, Kafka 클러스터(위메프 전사 로그 수집 Kafka, CDC Kafka), MongoDB 운영[Datanode I/O 장애 감지 및 해결]- 일부 서버의 Disk I/O가 많이 올라가는 경우가 있었는데, Yarn에서 할당된 작업으로 인한 문제로 파악했으나 디스크 파티셔닝 불량을 발견하였고 이 문제가 Disk의 성능 저하를 일으킬 수 있다는 내용을 보고 인프라에 디스크 리파티션 작업 요청 후 리파티셔닝 작업 진행. 동시에 리파티션 작업 서버에 대해 HDFS에서 제공하는 Decommission & Commission작업을 진행하였으며 이 과정을 Ansible로 자동화할 수 있도록 구현[Cloudera Hadoop Cluster -> Apache Hadoop Cluster Node로 전환]- CDH Cluster의 데이터를 Apache Hadoop Cluster로 데이터 복사, Shutdown 후 CDH 서버를 Apache Hadoop Cluster의 Datanode로 전환 (전환 작업 시 Ansible로 자동화할 수 있도록 구현)[Yarn 리소스 과다 사용 작업 감지, 성능 튜닝, 작업 기능 개선, 리소스 최적화]- Spark job이나 Yarn을 이용한 다른 작업들이 리소스를 과도하게 사용할 경우 각 Application의 코드, 작업내용 등을 확인하여 소스 튜닝이나 쿼리 튜닝을 통해 작업의 크기를 줄이고 더해지는 Memory, CPU등의 리소스를 줄일 수 있는 방안 마련[Ansible 적용 및 모니터링 개발]- 클러스터 운영시 설정 값이나 상태 확인 등을 위해 각 서버에 접속하여 직접 명령어로 작업하는 일이 많았습니다. 이 방식은 서버 수가 적을 때는 어느정도 할만할 수 있지만 서버 수가 많아질수록 사람의 실수를 동반할 수 있고 번거로움이 있는 방법이라 위험하다고 판단했습니다. 그래서 클러스터에 일괄적으로 명령을 날리고, 작업을 수행시킬 수 있는 ansible을 도입했습니다. 서버에 자주 작업을 하는 일이나 프로세스 확인 등의 작업을 ansible-playbook 으로 만들어 관리하였고 Git을 통해 형상관리를 했습니다.- 기존 모니터링 방식은 shell script를 이용하거나 각 서버들에 접속하여 명령어를 통해 관 리하고 있었습니다. 이 부분을 Ansible을 통해 모니터링할 수 있게 개발했습니다. 서버의 자원이나 프로세스 상태 등을 확인하고, Yarn을 통해 수행되는 애플리케이션들의 자원 사 용량, 수행 상태 등을 모니터링하여 관리했습니다.● EP 상품데이터 아키텍처 설계, 실시간 데이터 수집 및 적재[프로젝트 내용]외부 제휴업체에서 위메프로 전달 받는 EP 데이터를 매일 6억건씩 실시간으로 MongoDB에 적재하는 프로세스로 VerticaDB -> Kafka -> SparkStreaming -> MongoDB로 적재하는 과정에서 처리량을 줄이기 위해 중복데이터를 제거하고 증분 데이터만 적재하기 위해 어떻게 처리할 것인지가 주요 문제였고 이때 EP데이터를 받는 VerticaDB에서 각 Raw에 대한 Hash Table을 생성 후 Hash값 비교를 통해 증분 데이터를 처리하도록 하여 네트워크 비용과 리소스 비용을 줄이고 MongoDB에 주는 부하를 줄일 수 있었습니다.사용 기술 : Spark Streaming, MongoDB, Kafka, HDFS● EP 리뷰데이터 실시간 수집 및 적재[프로젝트 내용]외부 제휴업체에서 위메프로 전달 받는 EP리뷰 데이터를 매일 천만건을 실시간으로 받아 MongoDB에 적재하기 위해VerticaDB -> Kafka -> SparkStreaming -> MongoDB의 구조로 증분처리하여 MongoDB에 적재하는데 이때 증분 데이터를 Apache Hudi에서 Hash처리하여 관리하도록 하여 Hudi에서 변경된 값만 MongoDB로 넣어줄 수 있도록 설계하여 진행하였습니다.사용 기술 : Spark Streaming, MongoDB, Kafka, HDFS -
데이터 엔지니어오브젠 Aug 2017 - Dec 2021[프로젝트]- 롯데카드 분석플랫폼 구축 (2021.1 - 2021.9)- 신한카드 마이데이터 (2021.2 - 2021.8)- 실시간 빅데이터 플랫폼 솔루션 UI 변환 (2021.4 - 2021.5)- SSG 통합 마케팅 시스템 구축 (2020.5 - 2020.8)- 하나투어 차세대 정보계 CRM구축 (2020.3 - 2020.6)- 현대캐피탈 타겟마케팅 고도화 및 온라인 로그 기반 실시간 캠페인 (2019.5 - 2020.3)- CJ오쇼핑 캠페인 자동화 시스템 (OJT) (2017.9 - 2018.3)[R&D]#빅데이터 분석플랫폼 솔루션 개발 (2020.11 - 2021.4)- Nifi를 활용한 대용량 데이터 수집 프로세스 설계- Nifi 구축 및 안정화 (Dockerizing, SSL적용, Ranger Plugin추가, Ldap인증 등)- Nifi의 Rest Api를 이용한 Custom Web UI 및 인터페이스 개발- Cloudera Hue 구축 및 안정화 (도커라이징, Ldap인증, Hive, Mysql, HDFS 기능 사용)#빅데이터 플랫폼 솔루션 유지보수 및 개발 (2020.7 - 2020.10)- Ansible script를 통한 솔루션 자동화 설치 스크립트 유지보수- Kafka Producer, Zookeeper Client, Spark 등을 이용한 솔루션 기능 개발 및 유지보수- 솔루션 기능 개선 (UI 및 서버 기능개선 및 디버깅)#웹 로그 태깅 개발 (2019.2 - 2019.5)- 웹로그 감지를 위한 태깅 웹API 및 서버 개발 (Javascript, Java, Vert.x, SSL)- 데모 웹 개발 및 웹로그 태깅 테스트 (Magento)#삼성카드 POC (2018.12 - 2019.1)- Hadoop eco system 구축 (Zookeeper, Hadoop, Hive) - 자사 BI툴을 이용한 데이터 시각화 모니터링 설계 및 개발#빅데이터 플랫폼 솔루션 개발 (2018.7 - 2018.11) - 빅데이터 플랫폼 솔루션 UI 설계 및 개발 (VB Script) - Spring Framework기반 Rest Api 서비스 개발 (Java, Spring Framework) - Vert.x기반 솔루션 관리 서버 개발 (Java, Vert.x) #실시간 캠페인 프로젝트 제안을 위한 솔루션 데모 개발 (2018.4 - 2018.6)- 이베스트증권 데모 UI개발 및 솔루션 구축 (VB Script, Java)- 현대백화점 데모 UI개발 및 솔루션 구축 (VB Script, Java)
Frequently Asked Questions about 김재호
What company does 김재호 work for?
김재호 works for Hunet
What is 김재호's role at the current company?
김재호's current role is Data engineer.
What schools did 김재호 attend?
김재호 attended 서경대학교.
Who are 김재호's colleagues?
김재호's colleagues are 유수정, Soye Kim, 이윤지, Jiyeon Chang, 유대영, 김지호, Minji Sung.
Not the 김재호 you were looking for?
Free Chrome Extension
Find emails, phones & company data instantly
Aero Online
Your AI prospecting assistant
Select data to include:
0 records × $0.02 per record
Download 750 million emails and 100 million phone numbers
Access emails and phone numbers of over 750 million business users. Instantly download verified profiles using 20+ filters, including location, job title, company, function, and industry.
Start your free trial