大数据:指无法在一定时间内使用常规软件工具爬网,管理和处理的数据收集。
大数据是一种方法:“所有内容都已记录,所有内容都是数字化的,寻找需求,找到知识并从数据中发现价值。”
大数据技术:是指快速从各种数据中获取有价值信息的能力。
大数据的特征:庞大的数据大小,众多数据类型,低价值密度,快速生成和处理速度
新的大数据处理平台:
开源:(),(),,
商业:SAP HANA,EMC,HP
优点:
低成本源软件,使用通用硬件平台运行。
高扩展性分配数据并完成可用的计算机簇之间的计算任务,这些计算机簇可以很容易地缩放到数千个节点。
有效地在节点之间动态分配计算任务并确保每个节点的动态平衡,并且处理速度非常快。
高容忍度会自动保存多个数据副本,并且可以自动重新分配失败的任务。
生态圈:
存储数据HDFS(文件),一个在常规硬件上运行的分布式文件系统。它具有高容错性和高通量的特征。
处理数据,它是一个编程模型,地图(MAP)和(还原),它极大地促进了分布式的并行编程,并且与HDF高度集成。它基于Java。
数据仓库工具Hive处理结构化的SQL查询功能,将SQL语句解释为用于数据处理的编程,并且只能执行结构化查询。
猪上方的高级程序语言,查询大型半结构数据集并处理非结构化数据。
()这是一个适合非结构化数据存储的数据库。基于列存储,不同的行可以具有不同的数据列,并且保留了多个时间版本。
分布式应用程序协调服务提供一致的服务。
传统的数据存储,分析和处理
·关系数据库系统
EDW数据仓库
·用于结构化数据
集中存储
OLTP的集中处理
大数据平台:
·HDFS
·文件(分布式系统)
·网络上构建的软件系统
在一般硬件上运行
分布式文件系统
·高容错
·高吞吐量
大数据处理数据
编程模型
“地图”和“(减少)”
对于分布式并行编程非常方便
高度与HDF集成
操作系统:(通常用于服务器系统); Mac OS; ETC。
虚拟软件(虚拟机:),通常使用的虚拟软件:
,基于UNIX的系统;主要是;;等等都是基于内核的系统
安装(不同版本的官方网站地址):
()
()
()
()
外围支持软件
远程连接工具/
远程FTP工具
远程文本编辑工具/++
配置
主机名设置:/etc //
主机名与IP地址之间的相应关系的设置: /etc /
系统管理
网络设置
关闭并重新启动
-r现在立即重新启动(root用户使用)
-r 10自动重新启动(root用户使用)
-R 20:35在20:35重新启动(root用户使用)
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态