mysql查询数据较大该如何学习大数据知识 – 数据库

mysql查询数据较大该如何学习大数据知识 – 数据库 – 前端 mysql 如何给表加锁

时间：2022-08-17 21:54:14

mysql查询数据较大该如何学习大数据知识 – 数据库 – 前端 mysql 如何给表加锁

慢慢地偶就开始接触大数据，从JavaSE学起，接着学习Linux系统，其中Linux中有CentOS和ubuntu，这两者个人觉得都好用。接着学习地就是Hadoop，它包括两大块HDFS（分布式文件系统）和MapReduce（并行计算框架），虽说MapReduce现在用的少了，但是学习它之后，对你以后学习更好的并行计算框架来说有很多的好处。接着就可以学习数据仓库Hive，Hive的底层实现其实就是MapReduce，它使用的SQL语言叫做HQL，之前学过MySQL数据库的话，很容易上手，但是想更深的了解Hive的话，还需学习MapReduce，Hive它用于OLAP，不支持事务性。接着再学习HBase面向列族的分布式数据库，它支持事务操作，但是在实践中个人感觉不太好使。它是架在Hadoop之上的数据库，适用于随机访问，实时读写。然而有了大量的数据之后，如何更好的把来源不同的数据导入到自己想要用的数据库中呢，可以使用Sqoop，个人认为它简单好用，方便。

接下来就可以学习Flume，它是一个分布式的收集日志的框架，可以处理很多种类型的文件。接着就学习Kafka，它是一个消息发布订阅实时处理系统。具有高吞吐量的能力。接着可以学习Strom ，实时的流计算框架。可以高速的攫取数据，可以执行各种数据的并行计算。接下来就可以学习Spark，Spark由SparkSQL、Spark Streaming、MLlib、Graph等组成，可以解决Batch Processing、Stream Processing、Ad-hocQuery（即席查询）等三大核心问题。Spark确实相比于MapReduce来说要快很多，毕竟它是基于内存计算的框架。

接下来还可以学习数据分析，数据挖掘，机器学习等相关的知识。

现在偶就开始解读一下什么是大数据？

大数据顾名思义就是数据量很大,大到什么级别吗？它不是几兆，不是几个GB,而是几百GB,几个TB,几个PB，达到传统的数据库根本承受不了，现在一般都是用Hadoop技术，Hive技术，Spark技术等处理。

那么大数据的特征有哪些呢？有4点

1.数据在体量方面很大，比如说文字，有各种各样的来源，有电子书|实体书|杂志|报刊等，它们的数据大吧。

2.数据的类型多种多样，有些是结构化的数据，像存在Oracle,MySQL这些传统的数据库里的数据，一般都是结构化，可以是还有非结构化，比如HTML,WORD，execl等格式。

3.它们的价值密度低，这样说吧，你比如说观看一条数据好像价值也不大，但是分析所有的数据之后呢？总会挖掘出一些重要的东西。

大数据的特征

4.处理这些数据的速度要快。比如像Hadoop技术的MapReduce计算框架，相比传统的数据库处理速度要快，它的吞吐量特别的大，再比如Spark，Spark在内存方面计算比Hadoop快100倍，在磁盘方面计算快10倍。

大数据的处理与传统的数据处理的区别是什么呢？

就是使用全部的数据来分析，得出结论，想想就知道它的好处啦。

大数据的应用？？？