【常见问题】Hadoop是用于分布式盘算的,它是什么东西
2019-11-19常见问题搜奇网49°c
A+ A-
hadoop是什么?
(1)Hadoop是一个开源的框架,可编写和运转分布式运用处置惩罚大规模数据,是专为离线和大规模数据剖析而设想的,并不合适那种对几个纪录随机读写的在线事务处置惩罚情势。 ( 引荐进修:web前端视频教程)
Hadoop=HDFS(文件体系,数据存储手艺相干)+ Mapreduce(数据处置惩罚),Hadoop的数据泉源可所以任何情势,在处置惩罚半结构化和非结构化数据上与关联型数据库比拟有更好的机能,具有更天真的处置惩罚才能,不论任何数据情势最终会转化为key/value,key/value是基础数据单位。
用函数式变成Mapreduce替代SQL,SQL是查询语句,而Mapreduce则是运用剧本和代码,而关于适用于关联型数据库,习气SQL的Hadoop有开源东西hive替代。
(2)Hadoop就是一个分布式盘算的解决方案.
hadoop能做什么?
hadoop善于日记剖析,facebook就用Hive来举行日记剖析,2009年时facebook就有非编程职员的30%的人运用HiveQL举行数据剖析;
淘宝搜刮中 的 自定义挑选也运用的Hive;应用Pig还能够做高等的数据处置惩罚,包含Twitter、LinkedIn 上用于发明您能够熟悉的人,能够完成相似Amazon.com的协同过滤的引荐结果。
淘宝的商品引荐也是!在Yahoo!的40%的Hadoop功课是用pig运转的,包含垃圾邮件的辨认和过滤,另有用户特性建模。
Hadoop 由很多元素构成。
其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中一切存储节点上的文件。
HDFS的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 构成。经由历程对Hadoop分布式盘算平台最中心的分布式文件体系HDFS、MapReduce处置惩罚历程,以及数据仓库东西Hive和分布式数据库Hbase的引见,基础涵盖了Hadoop分布式平台的一切手艺中心。
以上就是Hadoop是用于分布式盘算的,它是什么东西的细致内容,更多请关注ki4网别的相干文章!