Psyche's Blog

置顶 Spark算子

This is about Spark

Spark算子 Transformation mapValues K-V 对map的V进行操作 eg :对每个V加1 123val rdd = sc.parallelize(List(("x",1),("ys",3),("ab",5),("ab",6)))//源码实现rdd.map({case(k,v......

置顶 HDFS_API

This is about HDFS

HFDF_API 基础环境 JDK 1.8 windows本地 windows上面创建任意一个Hadoop目录:然后在里面创建bin目录,把下载的hadoop.dll这个文件丢进去即可 配置HADOOP的环境变量 依赖 12345678910111213<dependencies> <dependency> <groupI......

置顶 MapReduce

This is about mr

MapReduce MR作业部署 将MySQL的数据读取存到HDFS 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647public class MySQLDBInputFormatDriver { public static void main(Strin......

置顶 scala总结

This is about scala

Scala总结 var val var定义变量,值可变 val定义常量,只能被赋值⼀次 建议使⽤val,val不满⾜时候再使⽤var 类中使用var声明的字段默认有getter setter方法, val只有getter 数据类型 常用 Int、Long、Float、Double、Boolean、String 特殊 - Unit 表示⽆值,和其他语⾔中void等同。⽤作不返回任何结果的⽅......

置顶 hadoop(一)入门

This is about jdk

hadoop(一)入门 创建用户和文件夹 123456[root@hadoop001 ~]# useradd bigdata[root@hadoop001 ~]# id bigdatauid=1000(bigdata) gid=1000(bigdata) groups=1000(bigdata)[root@hadoop001 ~]# su - bigdata[bigdata@hadoop00......

置顶 hadoop(二)yarn部署

This is about jdk

hadoop(二)yarn部署 配置修改 mapred-site.xml 12345678910[bigdata@hadoop001 hadoop]$ pwd/home/bigdata/app/hadoop/etc/hadoop[bigdata@hadoop001 hadoop]$ cp mapred-site.xml.template mapred-site.xml[bigdata@had......

置顶 hadoop(三)

This is about jdk

hadoop(三) HDFS主从架构 namenode :nn 名称节点 文件的名称 文件的目录结构 文件的属性 权限 副本数 创建时间 12345678910111213[bigdata@hadoop001 ~]$ hdfs dfs -ls /20/11/25 21:16:55 WARN util.NativeCodeLoader: Unable to load native......

置顶 hadoop(四)hdfs命令

This is about jdk

hadoop(四)hdfs命令 SNN 1.snn执行checkpoint动作时候,nn会停止使用当前的edit文件515-516, 会暂时将读写操作记录到一个新的edit文件中 517 2.snn将nn的fsimage 514 和 edits文件 515-516 远程下载到本地 3.snn将fsimage 514加载到内存中,将 edits文件 515-516 内容之内存中从头到尾的执行......

置顶 jdk的linux安装

This is about jdk

jdk的linux安装 1.上传安装包 123[root@hadoop001 ~]# lltotal 717636-rw-r--r-- 1 root root 185646832 Nov 28 08:56 jdk-8u181-linux-x64.tar.gz 2.创建文件夹 1[root@hadoop001 ~]# mkdir -p /usr/java 3.解压 1[root@hadoop0......

置顶 hive入门

This is about hive

hive入门 hive 是什么 ​ hive是基于Hadoop的⼀个数据仓库⼯具,⽤来进⾏数据提取、转化、加载,这是⼀种可以存储、查询和分析存储在Hadoop中的⼤规模数据的机制。 hive vs rdbms 1、分布式:⼆者皆可 2、节点数:rdbms节点数⼩于hive 3、成本:rdbms成本⾼ 4、数据量 5、update和delete:都⽀持,hive要求0.14版本以......