博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop实战(9)_Hive进阶及UDF开发
阅读量:6151 次
发布时间:2019-06-21

本文共 2249 字,大约阅读时间需要 7 分钟。

CDH Hadoop系列目录:

Hive目录及配置文件

# 配置文件/etc/hive/conf# 根目录/opt/cloudera/parcels/CDH/lib/hive复制代码

当cm界面里执行部署客户端配置时,如上两个conf目录都会覆盖。

JDBC方式访问Hive

基于HiveServer2服务。

SecureRT,sz设置下载目录,Options-Xmodem/Zmodem-Download。

HiveServer2端口,10000。

# user为提交作业的账户Connection con = DriverManager.getConnection("jdbc:hive2://cdhslave1:10000/default", "root", "123456");复制代码

idea设置,Settings-Build, Execution, Deployment-Compiler-Java Compiler,Project bytecode version: 1.7

Default Settings-Editor-File Encodings, Project Encoding: UTF-8。

Project Structure, Project, 设置jdk版本和编译版本,编译版本和Settings一致。Libraries, 把lib目录加进工程。Modules, 设置输出目录,Use module compile output path。

调整配置后,等待索引创建完。

UDF开发

UDF,一进一出。

UDAF,聚集函数,多进一出。

UDTF,一进多出。

UDF中的evaluate函数名不可变,可以任意重载。

使用方式:在Hive会话中add自定义函数的jar文件,然后创建function,继而使用函数。

需求:统计每个活动页的流量,获取活动ID。

  • Java开发
  • 导出jar
  • 使用
add jar /root/project/lib/hive_udf.jar;create temporary function GetActID as 'com.cloudy.hive.udf.GetActID';复制代码

sql中通过GetActID直接使用,用起来和内置函数无区别。

IDEA中打包

Project Structure-Artifacts, 有两类,分别是空的和有依赖包的,Build on make选上。然后Build-Make Project。

hive_udf.jar上传至/root/project/lib/

# /root/project/rpt_act_visit_dailytouch rpt_act_visit_daily.hqltouch rpt_act_visit_daily.sh复制代码

hiveF命令封装

Q: hive -f不能传参,hql只能写在shell脚本里,导致shell脚本内容庞大和凌乱。

A: 开发一个hiveF的功能,用法同hive -f,但支持传参,使用格式:

  • hiveF aa.sql
  • hiveF aa.sql -date 2015-01-02
  • hiveF aa.sql -date 2015-01-02 -date1 2015-01-03

其中,aa.sql里通过**${date}**的方式对接。

hiveF开发思路

使用方式,hiveF aa.sql -date 2015-01-02

  • 开发一个Java应用程序读出aa.sql内容存入一个String变量里。
  • 把里面的${date}替换为2015-01-02,并System.out.println出来。
  • 在shell脚本里,用str接收2的输出,执行hive -e $str
# /root/projectmkdir bincd bintouch hiveF复制代码

难点,把Java程序的输出结果直接放到shell脚本里运行。 Java运行,参数传进来,shell脚本里$*接收参数。参数是哪里传的呢?哪里传给hiveF的呢?是shell脚本rpt_act_visit_daily.sh传过来的,交给java来处理,打印的str由cmd来接收,再用hive -e执行。

#!/bin/sh. /etc/profilecmd=`java -jar /root/project/lib/HiveF.jar $*`echo $cmdhive -e "$cmd" -i /root/project/bin/init.hql复制代码
chmod +x hiveF复制代码
vi /etc/profileexport PATH=$PATH:/root/project/binsource /etc/profile复制代码

打包hiveF.jar, Main Class: com.cloudy.hive.hiveF.Main

执行,

sh ./rpt_act_visit_daily.sh 2015-08-28复制代码

您可能还想看

数据分析/数据挖掘/机器学习

爬虫


微信公众号「数据分析」,分享数据科学家的自我修养,既然遇见,不如一起成长。

转载请注明:转载自微信公众号「数据分析」


读者交流电报群:

https://t.me/sspadluo

转载于:https://juejin.im/post/5a640a846fb9a01cac1844aa

你可能感兴趣的文章
Scroll Depth – 衡量页面滚动的 Google 分析插件
查看>>
Windows 8.1 应用再出发 - 视图状态的更新
查看>>
自己制作交叉编译工具链
查看>>
Qt Style Sheet实践(四):行文本编辑框QLineEdit及自动补全
查看>>
[物理学与PDEs]第3章习题1 只有一个非零分量的磁场
查看>>
深入浅出NodeJS——数据通信,NET模块运行机制
查看>>
onInterceptTouchEvent和onTouchEvent调用时序
查看>>
android防止内存溢出浅析
查看>>
4.3.3版本之引擎bug
查看>>
SQL Server表分区详解
查看>>
使用FMDB最新v2.3版本教程
查看>>
SSIS从理论到实战,再到应用(3)----SSIS包的变量,约束,常用容器
查看>>
STM32启动过程--启动文件--分析
查看>>
垂死挣扎还是涅槃重生 -- Delphi XE5 公布会归来感想
查看>>
淘宝的几个架构图
查看>>
Android扩展 - 拍照篇(Camera)
查看>>
数据加密插件
查看>>
linux后台运行程序
查看>>
win7 vs2012/2013 编译boost 1.55
查看>>
IIS7如何显示详细错误信息
查看>>