学习大数据,你必须知道的(学习基础,需要学习,的存储机制,行存储和列存储的对比)

xiaoxiao2021-02-28  36

一、学习大数据需要的基础

java SE,EE(SSM) 90%的大数据框架都是java写的 MySQL SQL on Hadoop Linux 大数据的框架安装在Linux操作系统上

二、需要学什么

2.1:大数据离线分析

一般处理T+1数据 (T+1:T表示处理时间(一天,一周,或者一月,一般不会一年处理一次数据) +1:表示处理一次数据) Hadoop :(common、HDFS、MapReduce、YARN) 环境搭建! 重点:处理数据的思想 Hive: hive是基于Hadoop的一个数据仓库工具! 可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能可以将sql语句转换为MapReduce任务进行运行! 优点: 是学习成本低, 可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 存储特点: 面向行存储,就像传统的数据库,先定义好你的字段,你某一个字段是空的就是以null的形式存储在内存中,

你的null存储多了就造成了极大的资源浪费!所以就需要学习HBase

HBase 基于HDFS的NOSQL(not only SQL:不仅仅是数据库)数据库 存储特点:

面向列的存储,脱离传统数据库的存储方式,没有规定的字段,你要存储什么数据你通过键值对的形式存储自己(键就是你的字段,value的就是你的值)

                行存储和列存储的对比:

             

协作框架: sqoop(HDFS 和 RDBMS 的桥梁) 在关系数据库和noSQL数据库架中间起一座桥梁,让他们可以互导数据! flume: 收集日志文件中信息,存入数据库中! 调度框架 anzkaban,了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera) 利用调度框架在固定时间,自动调用flume等协作框架向noSQL数据库导入数据! 扩展前沿框架: kylin:分析框架; impala:分析框架(游戏公司常用;偏向实时分析!) ElasticSearch(ES:检索框架!)

2.2:大数据实时分析

以spark框架为主 Scala:    OOP +    FP      面向对象编程     面向函数编程 sparkCore:类比MapReduce sparkSQL:类比hive sparkStreaming:实时数据处理 kafka:消息队列 前沿框架扩展:flink   阿里巴巴 blink (阿里重写flink出现的blink)

2.3:大数据机器学习(扩展)

spark MLlib:机器学习库 pyspark编程:Python和spark的结合 推荐系统 python数据分析

Python机器学习

                                                

作者:唐平                                                                                                                                部分信息来源于网络

时间:2018-06-09

转载请注明原文地址: https://www.6miu.com/read-2622696.html

最新回复(0)