전체 글 73

[UMC] Server 5주차 워크북 (Java/JavaScript)

UMC Server 5주차 워크북 기록입니다. 📌 실습 및 미션 자바 개발환경 구성 자바스크립트 개발환경 구성 백준 단계별 문제 풀이 진행하기 조건문 반복문 1차원 배열 문자열 2차원 배열 1. 자바 개발환경 구성 2. 자바스크립트 개발환경 구성 3. 백준 단계별 문제 풀이 진행하기 이번주는 알아볼 핵심 키워드가 많았으므로 인증할 내용이 많이 없다. .

[UMC] Server 4주차 워크북 (SQL)

UMC Server 4주차 워크북 기록입니다. 📌 실습 및 미션 ERD export해서 구축된 RDS에 반영하기 MySQL Workbench을 통해서 RDS에 접근하기 접근된 RDS에 쿼리 작성하기 RDS에 더미데이터 반영하기 화면 최소 6개 이상 쿼리 작성하기 1. ERD export해서 구축된 RDS에 반영하기 우선 ERDCloud 내보내기 기능으로 테이블 생성 쿼리문을 준비한다. 2. MySQL Workbench을 통해서 RDS에 접근하기 전에 구축한 RDS를 MySQL Workbench에 연결시켰기 때문에 MySQL Workbench를 그대로 사용했다. https://kshman94.tistory.com/17 AWS - RDS MySQL 생성 및 설정 전에는 AWS EC2 생성과 터미널 접속을 완..

[Data Engineering] PageRank - MapReduce Java

📌 목차 PageRank MapReduce 기반 PageRank MapReduce 기반 PageRank Psuedo Code MapReduce 기반 PageRank Real Code 🍀 PageRank 구글에서 시작된 알고리즘이다. 구글 창업자 2명이 평소 인터넷에 수많은 정보가 무질서하게 나열되어 있는 것에 불만을 가져 직접 검색 엔진을 개발했다. 당시 대중적인 검색 엔진보다 늦게 시작했는데, 검색 품질에서 뛰어 넘을 수 있었던 중요 요인 중 하나는 PageRank 때문이었다. PageRank는 구글이 검색 결과의 순위를 매기는 데 이용한 혁신적인 알고리즘이다. 🔅 하이퍼링크 트릭 웹의 중요한 성질은 웹페이지 A가 웹페이지 B를 가리킨다는 것이다. a 태그의 href 속성으로 가능하다. 이게 하이퍼링크..

CS/Data Engineering 2023.04.18

[Data Engineering] Inverted Index Java

📌 목차 Inverted Index 🍀 Inverted Index 문제 : "IMF"는 어디에 나오는지? 예 : results : (Doc1, 11), (Doc2, 11) 문서의 시작부터 얼만큼 떨어져있는지 offset까지 출력한다. Financial은 Doc1, 2, 4에 등장하고 각각 시작부터 첫 바이트에 나온다는 것이다. 오른쪽 이 Inverted Index의 결과이다. Mapper는 시작에서부터 몇 바이트 떨어져있는지 value로 만들어 output으로 보낸다. 각 단어를 key로 하고 문서 ID와 offset 정보를 만들어서 하둡에 전달한다. Shuffle은 같은 key를 가지는 value들을 모아서 array로 만든다. Reducer는 하나의 entry를 받아서 처리하는데, Inverted I..

CS/Data Engineering 2023.04.17

[Data Engineering] YARN (하둡2) - MapReduce 시스템 단점 (하둡1)

📌 목차 MapRuduce 시스템의 몇 가지 단점 (하둡1) YARN (하둡2) 🍀 MapReduce 시스템의 몇 가지 단점 (하둡1) MapReduce Job을 수행하기 위해서 JobTracker, TaskTracker가 있었고 JobTracker가 전체의 Job을 관리하고 TaskTracker는 각 노드에 뜨는 map, reduce Task를 관리한다. 하둡1에서 이런 시스템 구조는 JobTracker의 경우 클러스터의 자원 배분과 Job 관리를 함께 수행하게 된다. 클러스터에서 주요 병목 지점이 되곤 한다. TaskTracker는 한 노드에서 실행할 수 있는 map, reduce Task 개수가 제한된다. 즉, 노드에 여유 자원이 있어도 그 자원을 활용하지 못하는 상황이 발생한다. MapReduce..

CS/Data Engineering 2023.04.17

[Data Engineering] MapReduce Programming - WordCount, Combiner Java

📌 목차 MapReduce WordCount WordCount JAVA CODE Combiner WordCount 프로그램으로 MapReduce에서 사용하고 있는 data type, map/reduce class 상속, MapReduce를 구동시키기 위한 driver 프로그램에 대해 다룬다. 간단한 프로그램인데 MapReduce 이해하기 좋다. Combiner 라는 optimize하는 기법도 있다. 🍀 MapReduce 함수형 프로그래밍에서 시작했다. MapReduce의 핵심은 프로그래머는 map/reduce 함수를 구현해야 한다는 것이다. MapReduce를 실행할 수 있는 driver 코드를 작성하게 되면 데이터 처리를 할 수 있다. key-value들의 변화를 갖고 row data에서 가치 있는 i..

CS/Data Engineering 2023.04.17

[Data Engineering] Hadoop - 하둡, HDFS, MapReduce

📌 목차 하둡이란? 하둡의 특징 하둡의 발전 하둡 배포판 하둡 라이센스 하둡 작업 모델 하둡의 문제점 HDFS HDFS 구조 HDFS Data 읽기 HDFS Data 쓰기 HDFS 액세스 MapReduce MapReduce JobTracker MapReduce Job/Task MapReduce Scheduler MapReduce 사용 적합 분야 MapReduce 사용 부적합 분야 🍀 하둡이란? 대용량 데이터를 분산 처리해줄 수 있도록 해주는 아파치 톱 레벨 오픈소스 프로젝트이다. 소프트웨어 프레임워크이며, 자바로 구현되어 있다. Nutch/Lucene 프로젝트의 하위 프로젝트로 시작하여 2006년 독립 프로젝트로 분리되었다. 크게 분산파일시스템(HDFS)과 분산처리시스템(MapReduce)으로 구성된다...

CS/Data Engineering 2023.04.17

[Data Engineering] Cloud Computing - Virtualizaion, Grid Computing, Cloud Services

📌 목차 Virtualizaion & Cloud Computing Virtualizaion Grid Computing Cloud Computing Cloud Services How does cloud computing change the world? 🍀 Virtualization & Cloud Computing 클라우드 컴퓨팅은 가상화와 관계가 매우 깊다. 🍀 Virtualization Computer Engineering에서 환상을 보여주는 예술(?) 이라고 함. 🔗 Three pieces in operationg systems (운영체제의 3가지 virtualization) CPU virtualization CPU, core가 한 개인 때가 있었는데 CPU가 하나이지만, 실제로 여러 개의 작업이 동시..

CS/Data Engineering 2023.04.17