하노정의 개발 공부

  • 홈
  • 태그
  • 방명록

색인 1

[Data Engineering] Inverted Index Java

📌 목차 Inverted Index 🍀 Inverted Index 문제 : "IMF"는 어디에 나오는지? 예 : results : (Doc1, 11), (Doc2, 11) 문서의 시작부터 얼만큼 떨어져있는지 offset까지 출력한다. Financial은 Doc1, 2, 4에 등장하고 각각 시작부터 첫 바이트에 나온다는 것이다. 오른쪽 이 Inverted Index의 결과이다. Mapper는 시작에서부터 몇 바이트 떨어져있는지 value로 만들어 output으로 보낸다. 각 단어를 key로 하고 문서 ID와 offset 정보를 만들어서 하둡에 전달한다. Shuffle은 같은 key를 가지는 value들을 모아서 array로 만든다. Reducer는 하나의 entry를 받아서 처리하는데, Inverted I..

CS/Data Engineering 2023.04.17
이전
1
다음
더보기
프로필사진

  • 전체보기 (73)
    • Algorithm (26)
      • C (17)
      • Java (1)
      • BaekJoon (8)
    • BackEnd (15)
      • Database Programming (11)
      • Server Study (4)
    • FrontEnd (11)
      • Android (4)
      • Web (7)
    • CS (14)
      • Data Engineering (14)
      • Web Code Security (0)
    • 글 (6)
      • 대외활동 (1)
      • 독서기 (4)

Tag

C언어, Data engineering, 데이터공학, 포인터, Hadoop, 개발자, C, 하둡, 웹기초, BOJ, 웹, 백준 자바, java, 하둡 자바, 코딩테스트, 알고리즘 문풀, MapReduce, hadoop programming, 백준, It,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

Copyright © Kakao Corp. All rights reserved.

티스토리툴바