일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 자동
- SpringBoot
- hive
- login
- java
- spring
- config
- Docker
- Zeppelin
- aws
- Cluster
- Kafka
- fastcampus
- gradle
- ec2
- redash
- 설정
- vue
- 레디스
- EMR
- 젠킨스
- 자바
- Jenkins
- 클러스터
- 로그인
- Redis
- 예제
- 머신러닝
- Mac
- 간단
- Today
- Total
목록Kafka (5)
코알못
kafka 토픽의 경우 partition 을 주어 병렬 처리를 할수 있다. connector 의 경우에도 mode 중 distributed 로 실행하면 고가용성, 처리 성능을 높힐 수 있다. 고가용성은 서비스가 계속적으로 중단없이 유지 되는 성질을 의미하는데 conector 한대가 죽어도 과반수 이상 살아 있을시 서비스 정상 운영 가능하다. 해당 글에서 다룰것은 '처리 성능' 부분인데 처리 성능의 경우 분산 처리 기능을 이용하여 높힐 수 있다. connection 에는 'tasks.max' 라는 옵션이 있다. 이는 source connector, sink connector 모두에게 줄 수 있는데 정확한 의미는 '일을 진행할 업무자 최대수' 이다. 분산 처리시 connector 별로 '업무자 최대 수'를 ..
'filebeat > logstash > es' 로 현재 구성되어 있어 서비스 로그를 계속적으로 es 에 적재하고 있다. 그러나 logstash 설정 변경이 필요한 상황이라 logstash 를 재기동 해야 하는 상황으로 이때 이슈가 없을까? 에 대한 테스트를 진행해본다. 테스트는 아래와 같이 진행해본다. 1) 수동 restart 1. logstash 다운 $ kill -9 [logstash PID] 2. filebeat 에서 읽는 로그 파일에 데이터 추가 $ cat service.log {'name':'ParkHyunJun'} {'name':'LeeHoSeong'} {'name':'thewayhj'} {'name':'LeeNow'} {'name':'hongYooLee'} {'name':'test'} $ ..
로그를 저장소인 S3에 저장하여 EMR 에서 활용할 것이다. 이를 위해서 로그를 아래 아키텍쳐와 같이 구성하는 실습을 진행해본다! 모두 버전은 7.6.0로 맞추었으며, mac 관련 설치 파일을 이용하였으니 맞는 os로 설치 해야 한다. =================== java =================== logstash 의 경우 실행시 java 설치 필요하다는 오류 발생 could not find java; set JAVA_HOME or ensure java is in PATH // 설치 가능한 버전 확인 $ yum list *java*jdk* Loaded plugins: extras_suggestions, langpacks, priorities, update-motd Available Pac..
저번 시간에는 kafka cluster 를 구축 하고 어떻게 동작하는지 알아보았다! 이제 connect 를 구축하여 데이터 허브를 구성한다! connect 는 원하는(예 : RDB, S3 등) 데이터를 알아서 가져오고(producer) 원하는 형태(예: RDB, S3 등)로 넣어주는(consumer) 솔루션 이다. 직접 producer, comsumer 을 만들어서 사용해도 되지만 관리/성능 측면에서 내가 만드는 것 보다 잘 만들어둔 솔루션(connect)을 사용하는것이 낫기에 사용하도록 한다! 테스트를 위해 자주 사용하는 명령어는 아래 정리하였으니 참고하도록 한다. // topic list ./kafka-topics.sh --list --bootstrap-server kafka-01:9092,kafka..
이번 시간에는 AWS EC2를 이용하여 Kafka 클러스터를 구축해볼것 이다. 그전에 kafka 에 대해 알아보자! - 분산 메세징 큐 시스템 - 대용량 처리에 특화되어 기존 메세징 시스템 보다 우수한 TPS를 보여줌 - 단순한 메시지 헤더를 지닌 TCP 기반의 프로토콜 사용 (rabitmq는 APMQ 프로토콜 사용) 개인 적인 의견으로 빠르게 구축하고 싶으면 rabbitmq 사용 (또한, 모니터링 툴도 함께 제공하고 있어 따로 구축하지 않아도 된다.), 빅데이터 처리 또는 빠른 처리를 위한것이면 kafka 를 사용하는 것이 좋다고 본다. 아래 용어에 대해 먼저 간단하게 알아보자! 개념 설명 topic 분류된 메세지의 집합 producer 메세지 등록하는 어플리케이션 consumer 메세지를 가져오는 어..