lixuelian | Blog

置顶 Spark算子

This is about Spark

Spark算子 Transformation mapValues K-V 对map的V进行操作 eg :对每个V加1 123val rdd = sc.parallelize(List(("x",1),("ys",3),("ab",5),("ab",6)))//源码实现rdd.map({case(k,v......

Posted by PsycheLee on 2015-09-08

shell

置顶 HDFS_API

This is about HDFS

HFDF_API 基础环境 JDK 1.8 windows本地 windows上面创建任意一个Hadoop目录:然后在里面创建bin目录,把下载的hadoop.dll这个文件丢进去即可配置HADOOP的环境变量依赖 12345678910111213<dependencies> <dependency> <groupI......

Posted by PsycheLee on 2015-09-08

shell

置顶 MapReduce

This is about mr

MapReduce MR作业部署将MySQL的数据读取存到HDFS 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647public class MySQLDBInputFormatDriver { public static void main(Strin......

Posted by PsycheLee on 2015-09-08

shell

置顶 scala总结

This is about scala

Scala总结 var val var定义变量，值可变 val定义常量，只能被赋值⼀次建议使⽤val，val不满⾜时候再使⽤var 类中使用var声明的字段默认有getter setter方法, val只有getter 数据类型常用 Int、Long、Float、Double、Boolean、String 特殊 - Unit 表示⽆值，和其他语⾔中void等同。⽤作不返回任何结果的⽅......

Posted by PsycheLee on 2015-11-08

shell

置顶 hadoop(一)入门

This is about jdk

hadoop(一)入门创建用户和文件夹 123456[root@hadoop001 ~]# useradd bigdata[root@hadoop001 ~]# id bigdatauid=1000(bigdata) gid=1000(bigdata) groups=1000(bigdata)[root@hadoop001 ~]# su - bigdata[bigdata@hadoop00......

Posted by PsycheLee on 2015-10-08

shell

置顶 hadoop(二)yarn部署

This is about jdk

hadoop(二)yarn部署配置修改 mapred-site.xml 12345678910[bigdata@hadoop001 hadoop]$ pwd/home/bigdata/app/hadoop/etc/hadoop[bigdata@hadoop001 hadoop]$ cp mapred-site.xml.template mapred-site.xml[bigdata@had......

Posted by PsycheLee on 2015-11-08

shell

置顶 hadoop(三)

This is about jdk

hadoop(三) HDFS主从架构 namenode ：nn 名称节点文件的名称文件的目录结构文件的属性权限副本数创建时间 12345678910111213[bigdata@hadoop001 ~]$ hdfs dfs -ls /20/11/25 21:16:55 WARN util.NativeCodeLoader: Unable to load native......

Posted by PsycheLee on 2015-09-08

shell

置顶 hadoop(四)hdfs命令

This is about jdk

hadoop(四)hdfs命令 SNN 1.snn执行checkpoint动作时候，nn会停止使用当前的edit文件515-516，会暂时将读写操作记录到一个新的edit文件中 517 2.snn将nn的fsimage 514 和 edits文件 515-516 远程下载到本地 3.snn将fsimage 514加载到内存中，将 edits文件 515-516 内容之内存中从头到尾的执行......

Posted by PsycheLee on 2015-09-08

shell

置顶 jdk的linux安装

This is about jdk

jdk的linux安装 1.上传安装包 123[root@hadoop001 ~]# lltotal 717636-rw-r--r-- 1 root root 185646832 Nov 28 08:56 jdk-8u181-linux-x64.tar.gz 2.创建文件夹 1[root@hadoop001 ~]# mkdir -p /usr/java 3.解压 1[root@hadoop0......

Posted by PsycheLee on 2015-09-08

shell

置顶 hive入门

This is about hive

hive入门 hive 是什么 hive是基于Hadoop的⼀个数据仓库⼯具，⽤来进⾏数据提取、转化、加载，这是⼀种可以存储、查询和分析存储在Hadoop中的⼤规模数据的机制。 hive vs rdbms 1、分布式：⼆者皆可 2、节点数：rdbms节点数⼩于hive 3、成本：rdbms成本⾼ 4、数据量 5、update和delete：都⽀持，hive要求0.14版本以......

Posted by PsycheLee on 2015-12-06

shell

Psyche's Blog

置顶 Spark算子

This is about Spark

置顶 HDFS_API

This is about HDFS

置顶 MapReduce

This is about mr

置顶 scala总结

This is about scala

置顶 hadoop(一)入门

This is about jdk

置顶 hadoop(二)yarn部署

This is about jdk

置顶 hadoop(三)

This is about jdk

置顶 hadoop(四)hdfs命令

This is about jdk

置顶 jdk的linux安装

This is about jdk

置顶 hive入门

This is about hive

FEATURED TAGS

ABOUT ME

RECENT POSTS

FRIENDS

ARCHIVES