hadoop简介(二):hadoop的文件系统

我们可以利用hadoop来存储大规模的数据,并且能够在很多时候保证数据的可靠性,而对于map/reduce运算,这些数据也能很好的被利用,这里说的就是HDFS(Hadoop Distibuted Filesystem)——hadoop自己的分布式文件系统。

先来看看什么叫做文件系统:

file system (or filesystem) is a type of data store which can be used to store, retrieve and update a set of files.

继续阅读“hadoop简介(二):hadoop的文件系统”

hadoop简介(一):组成hadoop运行环境的几个角色

一直想深入的学习一下Hadoop,最近恰好用到这些知识,便重新拿起来研究一下,并做一些记录。

简单的来说,Hadoop是一套工具,包含了解决一些特定问题(如大规模数据处理、排序)的工具,提供了一个分布式运行环境来解决问题,而这个分布式环境具有良好的伸缩性。而构成整个分布式运行环境的有如下几个角色(节点):

继续阅读“hadoop简介(一):组成hadoop运行环境的几个角色”