Hadoop集群搭建

常用指令

查看共享文件在linux下的哪个地方
cd /mnt/hgfs/

在linux下解压压缩包
tar xvzf

启动hadoop集群
./start-all.sh 先进入cd /usr/local/src/目录再启动hadoop

从hdfs上把文件拿下来命令:
./hadoop fs -get /1.data /usr/local/src/ 后面加上要把文件拿下来放到那个目录下

从hdfs上查看已经在的文件命令:
./hadoop fs -ls /

查看集群运行好的文件输出out
hadoop fs -text
例子:
hadoop fs -text /output_cachearchive_broadcast

本地模拟测试文件命令:

cat 文件名 | | python map.py | sort -k1

例子:
cat The_Man_of_Property.txt | python map.py | sort -k1 | python red.py > 1.data

通过map中输出出来的数据要经过排序 那么-k1就是对第一列进行排序

cat The_Man_of_Property.txt | python map.py mapper_func white_list | sort -k1 | python red.py reduer_func > 1.data

跑代码
bash run.sh

hdfs上传文件
./hadoop fs -put
例子:
./hadoop fs -put /mnt/hgfs/lal/mr_file_broadcast/The_Man_of_Property.txt / 一定要在hadoop安装目录下上传hdfs文件

删除hdfs目录
./hadoop fs -rmr
例子:
/output_file_broadcast

杀掉hadoop集群运行中的环境
hadoop job -kill job_201710171458_0005

加入压缩包命令:
tar cvzf w.tar.gz

例子:
tar cvzf w.tar.gz white_list_1 white_list_2

命令行全局排序
| sort -k1 -n | head 按照数字正序排序

| sort -k1 -rn | head 按照逆序排序

例子:
cat a.txt b.txt | sort -k1 -n | head