일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- redash
- Cluster
- 자바
- vue
- 자동
- 로그인
- 예제
- spring
- 레디스
- java
- 젠킨스
- 설정
- aws
- Zeppelin
- fastcampus
- Mac
- Docker
- ec2
- config
- Jenkins
- 간단
- 클러스터
- Redis
- EMR
- SpringBoot
- Kafka
- login
- 머신러닝
- hive
- gradle
- Today
- Total
목록BIG DATA (56)
코알못
kafka 토픽의 경우 partition 을 주어 병렬 처리를 할수 있다. connector 의 경우에도 mode 중 distributed 로 실행하면 고가용성, 처리 성능을 높힐 수 있다. 고가용성은 서비스가 계속적으로 중단없이 유지 되는 성질을 의미하는데 conector 한대가 죽어도 과반수 이상 살아 있을시 서비스 정상 운영 가능하다. 해당 글에서 다룰것은 '처리 성능' 부분인데 처리 성능의 경우 분산 처리 기능을 이용하여 높힐 수 있다. connection 에는 'tasks.max' 라는 옵션이 있다. 이는 source connector, sink connector 모두에게 줄 수 있는데 정확한 의미는 '일을 진행할 업무자 최대수' 이다. 분산 처리시 connector 별로 '업무자 최대 수'를 ..
Zeppelin 의 경우 Apache Shiro를 사용하여 인증, 권한 관리 등 보안 관련 부분을 관리한다. 아래 세가지 실습을 진행하도록 한다. 1. 노트별 실행, 읽기, 쓰기 권한 설정 2. URL 별 권한 설정 3. interpreter별 권한 설정 (interpreter가 DB 일시 데이터베이스별 권한 설정 가능하다) 우선 실습을 진행하기 앞서 처음 설치시 로그인 기능이 없으며 비로그인상태로 이용하도록 되어있어서 이 부분을 수정하도록 한다. 'zeppelin.anonymous.allowed' 를 'false' 로 설정하여 비로그인자가 접속 못하도록 한다. $ ssh -i key.pem hadoop@ip $ cd /etc/zeppelin/conf $ sudo vi zeppelin-site.xml z..
zepplelin 에서는 cron 기능을 활성화시 노트별로 스케쥴링 기능을 제공한다. 우선 cron 기능은 default 로 false 되어 있기에 true로 변경하고 재기동하는 작업이 필요하다. zepplien ui 에 접속한뒤 아래와 같이 configuration 클릭시 설정 정보가 나오며 관련 설정인 'zeppelin.notebook.cron.enable' 검색해보면 false 로 되어 있다. 설정 변경은 zeppelin 서버에 접속(EMR 의 경우 마스터 노드에 설치되어 있으므로 마스터 인스턴스에 접속)하여 설정파일 경로로 간다. $ ssh -i key.pem hadoop@ip $ cd /etc/zeppelin/conf 설정파일 'zeppelin-site.xml' 에 가서 수정 한다. - zepp..
zeppelin 은 Apache 에서 만든 web 기반 notebook 으로 CLI 환경에서 분석시 불편함을 해소해준다. Zeppelin 을 이용하기 위해 아래 실습을 진행할 예정이며 이번 시간에는 일부만 진행하고 그외 실습은 따로 글 생성하여 링크를 걸어둘 예정이니 참고 하면 된다. 대시 보드 기능 (노트 하나가 대시보드 개념으로 아래 설명) 스케쥴링 기능 노트, URL, interpreter(DB 등) 별 권한 설정 기능 공유 기능(URL, CSV, TSV 형태로 공유 가능하며 아래 설명) 협업 기능 (라이브 코딩 가능 아래 설명, 노트 버전 관리 기능) ldap 연동 Interpreter 추가 자체적으로 지원하는 기능은 아니지만 경고/결과 알람 발송 이번 시간은 '대시보드, 공유, 라이브 코딩 테스..
DB 종류가 다르다면 두 데이터간의 조인이 불가능하다. 물론 redash 에서도 불가능하다. 그러나 각각의 DB에서 조회한 결과 끼리 join 하여 새 데이터를 만들어 낼 수 있다! 그럼 실습을 진행해보자! 아래 '장르별 카운트', '탑 장르명' 두 데이터의 결과를 조합하여 'TOP 장르의 카운트'를 출력해본다. // 장르별 카운트 // 탑 장르 우선 아래와 같이 Query Results 를 만들어 본다. 최종적으로 탑 장르의 카운트를 출력할것이니 'TopGenreCount' 라고 적는다. 저장을 완료 했다면 '장르별 카운트', '탑 장르명' 각각의 쿼리 번호를 알아야 한다. 각각 쿼리를 클릭해보면 주소창 상단에 쿼리 번호가 나오며 1번 이며 탑 장르의 경우 쿼리번호가 3이다. 쿼리 조회시 query_[..
Redash 에 직접 회원 가입할 수 없으며 admin 에 의해 초대된 회원만 이용가능하다. 초대는 email 로 초대 메세지를 보내고 전송되는 링크를 타고 들어오는 방식이라 SMTP 서버가 연동되어 있지 않으면 초대 링크를 직접 복사해서 전달 해야 한다. 그렇기에 SMTP 서버를 연동해보자 (이전 포스팅 참고) admin 계정으로 로그인 하고 아래와 같이 Settings > Users > New User 을 눌러 초대 메세지를 보내보자! 보내고 난뒤 초대 대기중인 사용자 항목을 확인 할 수 있다. 아직 수락을 안한 상태로 볼 수 있으며 메일함으로 가서 메일이 왔는지 확인 한다. 아래와 같이 초대 메일이 왔으며 Setup account 을 눌러 본다. 초기 비밀번호를 입력하라는 창이 생기며 설정해본다. ..
매일 특정 시간에 TOP 장르에 대해 Slack 으로 공유 해주는 봇을 만들어본다! 필요한 도구는 Redash + goole sheet + zapier + slack 이 필요하다. zapier 는 여러 앱을 통합해주는 도구로 자동으로 어떠한 처리를 할 수 있도록 한다. 즉, Redash 의 결과를 google sheet 에 넣고(zapier 는 redash를 지원하지 않는다.) zapier 를 이용해 goole sheet 와 Salck 을 연결하여 특정 시간에 알람을 보내도록 한다. 우선 무료 zapier 으로는 아래 제한이 있다. 15분마다 감지 가능 1달에 100개의 작업가능 5개의 zap 만 생성 가능 single step zaps 가격표는 아래 참고 하자 우선 우리는 무료로 실습하고 필요하면 유료..
현재 회사 내에서 기획팀과 같이 개발자가 아닌 부서에서 분석 시스템의 데이터를 보고 싶을시 서버에 직접 들어가 쿼리를 날릴 수 없어 쉽게 UI로 조작 가능한 Tableau를 사용하고 있다. Redash 라는 오픈 소스를 알게 되어 두 도구를 현업 기준 비교하여 대체하면 좋을지 본다. 구분 Redash Tableau 비용 무료 유료 데이터 시각화 가능 가능 추출 방법 쿼리 UI 내에서 조작 자동/수동 수동/자동 (자동 기능 이용시 매번 추출을 자동화 할 수 있어 편리) 수동 데이터 공유 CSV, EXCEL, 이미지, 웹 형식 (정기 보고 데이터의 경우 대시보드 URL에서 갱신된 데이터를 볼 수 있어 매번 보고 할 필요가 없어짐 > 업무 공수를 줄일 수 있다.) CSV, EXCEL, 이미지 설치 필요 여부 ..