일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Cluster
- gradle
- EMR
- Jenkins
- Redis
- Docker
- 젠킨스
- 설정
- 간단
- 머신러닝
- aws
- SpringBoot
- 예제
- Kafka
- 자동
- config
- Mac
- ec2
- fastcampus
- redash
- login
- 로그인
- 자바
- spring
- Zeppelin
- java
- 레디스
- 클러스터
- vue
- hive
- Today
- Total
목록BIG DATA (56)
코알못
하둡의 distcp 라는 명령어를 통해 쉽게 원하는 저장소로 이동 할 수 있으며 아래와 같이 정리할 수 있다. 구분 명령어 HDFS -> S3 hadoop distcp \ -Dfs.s3.awsAccessKeyId=[target_액세스키2] \ -Dfs.s3.awsSecretAccessKey=[target_시크릿키2] \ /data/file s3://[target_url] S3 -> S3 hadoop distcp \ -Dfs.s3n.awsAccessKeyId=[source_액세스키1] \ -Dfs.s3n.awsSecretAccessKey=[source_시크릿키1] \ -Dfs.s3.awsAccessKeyId=[target_액세스키2] \ -Dfs.s3.awsSecretAccessKey=[target_시크릿..
hue 라는 도구를 이용하면 하둡 데이터에 쉽게 접근 할 수 있고 여러 하둡 에코 시스템과 연동 되어 쉽게 서비스를 이용할 수 있다. 만약 hue 없이 서비스를 이용한다고 하면 화면이 없는 콘솔창에서 명령어를 직접 날려서 관리 해야 하여 UI에 익숙한 관리자의 경우에는 불편 할 수 있다. 그리고 hue 라는 하나의 도구에서 관리한다는거는 시스템 관리 측면에서 좋은 부분이다. 추가로 oozie 라는 서비스를 이용하면 스케쥴링를 쉽게 등록 할 수 있으며 실습을 하면서 알아가보자! 실습할 내용은 총 세가지이다! 1. csv 파일 데이터를 읽어 데이터를 hive(하둡용 DB)에 누적하는 잡 생성 및 실행 2. 다른 서버(하둡 클러스터 이외 서버)의 스크립트를 실행시키는 잡 생성 및 실행 3. 두개의 잡이 특정 ..
우선 클러스터를 구성 했다면 기본 서버 관리를 위해 필요한 부분을 알아본다! 1. 서버 접속 방법 2. 서버에서 하둡 접속하는 방법 3. 서버에 떠있는 서비스 확인 및 재기동 4. 로그 보는 방법 5. 설정을 수정하고 적용 하는 방법 6. 관리 UI 접속 방법 1. 서버 접속 방법 서버 접속을 하기 위해서는 보안 그룹을 먼저 확인 해야 한다. 보안 그룹은 방화벽 같은것으로 접속에 사용하는 ssh 는 22번 포트를 사용하므로 22번 포트에 대한 방화벽이 뚫려 있어야 한다. 우선 aws 관리 콘솔 (https://aws.amazon.com/ > 콘솔에 로그인) 에 들어가서 emr을 검색 한다. 검색해서 생성한 클러스터를 클릭하면 아래와 같이 요약탭에 요약정보가 나온다. 하단에 '보안 및 엑세스' 부분을 보면..
우선 EMR 에 대해서 알아보면 아래와 같다. AWS 에서 제공하는 하둡 서비스 운영 부담을 줄여 준다. 서버를 원하는대로 변경 할 수 있어 클러스터에 대한 유연성과 확장성이 좋다. 빠르게 하둡을 설치하여 이용할 수 있다. 기존 하둡과 비교하면 아마존 하둡인 EMRFS는 저장소를 S3에 저장할 수 있다는 점이 다르며 아마존의 서비스를 적극적으로 활용할 수 있다. S3 의 경우에도 하둡과 동일한 분산 저장소이기에 무한대로 저장도 가능하니 디스크 증설이 필요 없으며, 디스크 파일은 URL 로 공유도 가능하니 파일 접근 및 공유가 쉽다. 그러나 하둡의 경우 replica 를 통해 데이터 유실을 방지하고 데이터 처리 성능을 빠르게 하나 S3 의 경우에는 일반 파일 시스템처럼 백업 하면 복제 기능은 동일하게 할 ..
aws 에서 다루는 보안 관련 설정과 쓰이는 부분을 알아보자! 간단하게 윗단에 ACL 정책이 있고 내부적으로는 secutiry group 설정을 한다. 그 이유는 아래와 같이 각각 가지고 있는 성격을 보면 알 수 있다. 서브넷이 같을 경우 security group 만 적용되며 서브넷이 다를 경우 security group 과 ACL 이 같이 적용 된다. 끝!
S3 는 저장소로 저장소 단위를 버킷이라고 부른다. 그럼 생성하는 실습을 진행해보자! - https://aws.amazon.com/ko/ > 콘솔에 로그인 클릭 로그인을 진행하고 회원이 아니라면 가입을 진행하고 로그인을 한다. 그리고 MFA 인증을 등록하였다면 입력한다. (은행 OTP 같은 2차 보안 수단) 로그인이 성공적으로 됐다면 AWS 관리 콘솔이 뜬다. 그럼 검색창에 S3 를 검색하여 클릭한다. 버킷 만들기 버튼을 클릭한다. 일반 구성은 아래와 같이 설정 한다. 버킷이름 : 소문자, 숫자, 마침표(.) 및 하이픈(-)으로 구성 해야하며 버킷 이름은 모든 AWS 계정에서 고유해야 한다. AWS 리전 : 사용할 AWS S3 위치 지정 저자는 리전을 가까운 서울로 사용한다. 객체 소유권은 아래와 같다...
저번 시간에는 kafka cluster 를 구축 하고 어떻게 동작하는지 알아보았다! 이제 connect 를 구축하여 데이터 허브를 구성한다! connect 는 원하는(예 : RDB, S3 등) 데이터를 알아서 가져오고(producer) 원하는 형태(예: RDB, S3 등)로 넣어주는(consumer) 솔루션 이다. 직접 producer, comsumer 을 만들어서 사용해도 되지만 관리/성능 측면에서 내가 만드는 것 보다 잘 만들어둔 솔루션(connect)을 사용하는것이 낫기에 사용하도록 한다! 테스트를 위해 자주 사용하는 명령어는 아래 정리하였으니 참고하도록 한다. // topic list ./kafka-topics.sh --list --bootstrap-server kafka-01:9092,kafka..
이번 시간에는 AWS EC2를 이용하여 Kafka 클러스터를 구축해볼것 이다. 그전에 kafka 에 대해 알아보자! - 분산 메세징 큐 시스템 - 대용량 처리에 특화되어 기존 메세징 시스템 보다 우수한 TPS를 보여줌 - 단순한 메시지 헤더를 지닌 TCP 기반의 프로토콜 사용 (rabitmq는 APMQ 프로토콜 사용) 개인 적인 의견으로 빠르게 구축하고 싶으면 rabbitmq 사용 (또한, 모니터링 툴도 함께 제공하고 있어 따로 구축하지 않아도 된다.), 빅데이터 처리 또는 빠른 처리를 위한것이면 kafka 를 사용하는 것이 좋다고 본다. 아래 용어에 대해 먼저 간단하게 알아보자! 개념 설명 topic 분류된 메세지의 집합 producer 메세지 등록하는 어플리케이션 consumer 메세지를 가져오는 어..