상용 하드웨어를 사용하기 때문에 가치가 효과적입니다. 여기에는 블록, 데이터 노드 및 노드 이름의 개념이 포함됩니다.
HDFS를 사용하는 곳
• 대용량 파일: 파일은 메가바이트, 기가바이트 또는 그 이상이어야 합니다. 방갈로르에서의 Hadoop 교육
• 스트리밍 데이터 액세스: 기본 정보를 읽는 데 걸리는 지연 시간보다 전체 정보 세트를 스캔하는 시간이 많이 필요합니다. HDFS는 한 번 쓰기 및 여러 번 읽기 패턴으로 구성됩니다.
• 상용 하드웨어: 이는 저가형 하드웨어에서 작동합니다.
HDFS를 사용하지 말아야 할 곳
• 낮은 지연 시간의 데이터 액세스: 기본 데이터에 액세스하는 데 매우 짧은 시간이 필요한 애플리케이션에서는 HDFS를 사용하면 안 됩니다. HDFS는 기본 레코드를 가져오는 데 걸리는 시간보다 전체 데이터에 중요성을 부여하기 때문입니다.
• 작은 파일이 많음: 네임 노드에는 메모리에 있는 파일의 메타데이터가 포함되어 있으며, 파일 크기가 작은 경우에는 불가능할 만큼 많은 메모리를 차지합니다.
• 다중 쓰기: 여러 번 작성해야 할 때는 사용하면 안 됩니다.
HDFS 개념
1. 블록: 블록은 읽거나 쓸 데이터의 최소량입니다. HDFS 블록은 기본적으로 128MB이며 구성 가능합니다. 파일 n HDFS는 블록 크기의 청크로 분할되어 독립적인 단위로 유지됩니다. 파일 시스템과 달리 HDFS에 있는 파일이 블록 크기보다 작은 경우 전체 블록 크기를 차지하지 않습니다. 즉, 블록 크기 128MB의 HDFS에 5MB의 파일이 보관되면 5MB의 공간만 차지합니다. HDFS 블록 크기는 단순히 검색 값을 줄이기 위해 거대합니다.
2. 이름 노드: HDFS는 네임 노드가 마스터 역할을 할 때마다 마스터-워커 패턴으로 작동합니다. 네임노드는 HDFS에 있는 모든 파일의 상태와 데이터를 인식하기 때문에 HDFS의 컨트롤러이자 관리자입니다. 메타데이터 정보는 파일 권한, 모든 블록의 이름 및 위치입니다. 데이터의 크기가 작아서 네임노드의 메모리에 저장되므로 데이터에 더 빠르게 접근할 수 있습니다. 게다가 HDFS 클러스터는 여러 클라이언트에서 동시에 액세스되므로 이 모든 정보는 단일 시스템에서 처리됩니다.
3. 데이터 노드: 그들은 지시를 받으면 블록을 저장하고 검색합니다. 클라이언트 또는 네임 노드별. 그들은 저장하고 있는 블록 목록과 함께 산발적으로 이름 노드에 다시 보고합니다. 상용 하드웨어인 정보 노드는 네임 노드에 의해 명시적으로 블록 생성, 삭제 및 복제 작업도 수행합니다.
4. 보조 네임 노드: 이는 네임 노드의 도우미 역할을 하는 별도의 물리적 시스템입니다. 정기적인 점검을 수행합니다. 네임노드와 통신하고 메타데이터의 스냅샷을 찍어 기간과 데이터 손실을 최소화하는 데 도움을 줍니다.
HDFS 옵션 및 목표
HDFS(Hadoop 분산 파일 시스템)는 분산 파일 시스템일 수 있습니다. 데이터 저장에 사용되는 Hadoop의 핵심 부분입니다. 상용 하드웨어에서 실행되도록 설계되었습니다. Marathahalli의 Hadoop 교육
다른 분산 파일 시스템과 달리 HDFS는 내결함성이 매우 뛰어나며 저가형 하드웨어에 배포할 수 있습니다. 이는 대규모 데이터 세트가 포함된 애플리케이션을 간단히 처리합니다.
HDFS에 필요한 여러 기능과 목표를 살펴보겠습니다.
HDFS의 특징
• 확장성이 뛰어남 – HDFS는 단일 클러스터에서 많은 노드를 확장하므로 확장성이 뛰어납니다.
• 복제 – 일부 불리한 조건으로 인해 데이터가 포함된 노드도 손실됩니다. 따라서 이러한 문제를 해결하기 위해 HDFS는 항상 다른 시스템에 데이터 복사본을 유지합니다.
• 내결함성 – HDFS에서 내결함성은 장애 발생 시 시스템의 견고성을 나타냅니다. HDFS는 내결함성이 매우 뛰어나므로 시스템 하나에 오류가 발생하면 해당 정보의 복사본이 포함된 다른 시스템이 기계적으로 활성화됩니다.
• 분산 데이터 스토리지 – 이는 Hadoop을 매우 강력하게 만드는 HDFS의 가장 필요한 기능 중 하나일 수 있습니다. 여기서 정보는 여러 블록으로 분할되어 노드에 보관됩니다.
• 휴대 가능 – HDFS는 플랫폼에서 다른 플랫폼으로 간단히 이식할 수 있는 방식으로 설계되었습니다.
HDFS의 목표
• 하드웨어 장애 처리 – HDFS에는 여러 서버 시스템이 포함되어 있습니다.
• 스트리밍 데이터 액세스 – HDFS 애플리케이션은 때때로 범용 파일 시스템에서 실행됩니다. 이 애플리케이션은 해당 정보 세트에 대한 스트리밍 액세스가 필요합니다.
• 일관성 모델 – HDFS에서 실행되는 애플리케이션은 한 번만 쓸 수 있고 여러 번 쓸 수 있는 접근 방식을 따라야 합니다. 따라서 일단 생성된 파일은 수정할 필요가 없습니다. 그러나 추가되거나 잘릴 수 있습니다.