Go to 코딩천재/Big Data(4)
-
[Kafka] 용어 알아가기
Kafka 주요 용어 1. Topic : 메세지의 구분 단위 + partition : topic을 나누는 단위 + offset : 메세지의 상대적 위치 2. Producer : 메세지 생산자 Consumer : 메세지 소비자 - Producer는 Topic을 발행한다. - Consumer는 Topic을 구독한다. 3. Consumer group : Consumer들의 묶음 - 한 partition은 한 consumer와 반드시 매칭이 되어야 한다. - 따라서, partition을 늘릴 때 consumer 개수도 고려해야 한다. >> 보통, 1:1 매칭으로 설정 (partition = consumer) >> consumer의 메세지 읽기 속도보다 처리 속도가 빠르다면, partition을 더 늘림 (par..
2019.12.29 -
[Kafka] Kafka 개념 및 기본사용법
1. What? (이미지 출처 : https://www.popit.kr/kafka-%EC%9A%B4%EC%98%81%EC%9E%90%EA%B0%80-%EB%A7%90%ED%95%98%EB%8A%94-%EC%B2%98%EC%9D%8C-%EC%A0%91%ED%95%98%EB%8A%94-kafka/) - Kafka는 비동기 처리를 위한 메시징 큐이다. Source Application과 Target Application 사이의 데이터 전달자 역할을 한다. - 비동기 메시징 시스템의 대표적 예시인 mail과 비슷하다. 보내는 사람이 원하는 사람에게 메일을 보내면 메일 서버에 저장되어 있게 된다. 덕분에 받는 사람은 자신이 원할 때 메일을 볼 수 있다. -> 보내는 사람 = producer -> 받는 사람 = c..
2019.12.22 -
[Spark] 스파크 개념잡기
참고 : https://tomining.tistory.com/76?category=114917 Learning Spark Chapter. 1 스파크를 이용한 데이터 분석 What is Apache Spark? 빠르다 General Purpose 아래 내용들을 하나의 단일 machine 에서 수행가능 배치작업 복잡한 알고리즘(ex. Machine Learning) interactive queries streaming Python/Java/Scala/SQL API 지.. tomining.tistory.com
2019.12.15 -
[Hadoop] Hadoop 개념 잡기
Hadoop 1. Hadoop은 Apache의 오픈소스 프로젝트이며, Java로 개발된 프레임워크이다. 여러 개의 commodity hardware(상용 컴퓨터)를 사용하여 대용량 비정형 데이터를 분산 저장 및 처리할 수 있다. > 필요성? >> 인터넷 보급률 증대에 따라, 빅데이터 시대를 맞이함 >> 빅데이터를 처리하기 위해 저장소가 마땅치 않음 (scale up에도 한계가 있기 때문에 scale out이 필요함) >> 여러 저장소에 분산하여 관리할 필요가 있음 2. Hadoop Eco-System : Hodoop은 분산 프로그래밍 프레임워크이며, Hadoop Eco-System은 Hadoop을 이루고 있는 다양한 서브 프로젝트의 모임이다. - 스트리밍 데이터 : 대량 데이터의 흐름 속에서 즉각적인 데..
2019.12.02