奇葩菌博客


Every day to be a little better

最新发布

go

跨平台编译Go程序

admin阅读(291)

跨平台编译Go程序 首先进入go/src 源码所在目录,执行如下命令创建目标平台所需的包和工具文件。 $ cd /usr/local/go/src $ CGO_ENABLED=0 GOOS=linux GOARCH=amd64 ./make...

big data

HDFS2.0

admin阅读(255)评论(0)

HDFS2.0 HDFS 2.0的新特性 NameNodeHA NameNodeFederation HDFS 快照 HDFS 缓存 HDFS ACL NameNodeHA 什么问题:Hadoop 1.0中NameNode在整个HDFS中只...

big data

Yarn

admin阅读(281)评论(0)

Yarn Yarn 外围有很多插件,yarn为各种插件提供一个最基本的服务,来利用底层最基本的设置资源,以尽可能最大利用率的方式调动整体资源。 动态: 动态分配资源分配 Yarn : 集群操作系统 JobTracker :资源管理、作业调度...

big data

Hive实战操作

admin阅读(346)评论(0)

Hive实战操作 mysql配置安装: 安装: mysql / mysql-server yum install -y mysql yum install -y mysql-server /etc/init.d/mysqld start 安...

big data

Flume

admin阅读(273)评论(0)

Flume 简介 Apache软件基金顶级项目 Apache Flume是一个分布式、可信任的弹性系统,用于高效收集、汇聚和移动大规模日志信息从多种不同的数据源到一个集中的数据存储中心(HDFS、HBase) 功能: 支持在日志系统中定制各...

big data

Hive

admin阅读(213)评论(0)

Hive 背景 – 引入原因: – 对存在HDFS上的文件或HBase中的表进行查询时,是要手工写一堆MapReduce代码 – 对于统计任务,只能由动MapReduce的程序员才能搞定 – ...

big data

NLP文本相似度

admin阅读(249)评论(0)

NLP文本相似度 处理角度 语义角度 文字角度 相似度 余弦相似度 – 一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小 – 余弦值接近1,夹角趋于0,表明两个向量越相似 – cos(𝜃)...

big data

MapReduce

admin阅读(247)评论(0)

MapReduce MapReduce它是属于并发计算,MapReduce是一个海量数据分流处理技术,自身是基于hadoop平台 ###传统Hash应用 流量分发 选择key对象(cookie、随机值等) > Hash() % max > ...

big data

Hbase

admin阅读(234)评论(0)

Hbase Hbase定义 HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为Java。 是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,因此可以容...

big data

streaming

admin阅读(254)评论(0)

streaming简介 MapReduce和HDFS采用java实现,默认提供java编程接口 Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用 Streaming方便已有程序向Hadoop平台移植 ...