大数据培训：Hive自定义UDF、UDAF、UDTF 函数

作者：张老师浏览次数： 2021-05-08 17:27

Hive内置的函数，在实际的大数据分析处理场景下，虽然能够解决大部分的需求，但是遇到比较复杂的场景，既定的函数已经不能很好地解决问题的时候，就需要用到自定义函数了。今天的大数据培训分享，我们就来讲讲Hive自定义UDF、UDAF、UDTF 函数。

一、自定义函数

Hive 自带了一些函数，比如：regexp_extract/get_json_object等，但是数量有限，当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。

根据用户自定义函数类别分为以下三种：

2.1UDF(User-Defined-Function) 用户定义函数一进一出
2.2UDAF(User-Defined-Aggregation-Function) 用户定义聚集函数，多进一出类似于：count/max/min
2.3UDTF(User-Defined-Table-Generating-Functions用户定义表生成函数一进多出。如lateral view explore()

二、创建UDF函数

引入maven依赖

    <dependency>
      <groupId>org.apache.hive</groupId>
      <artifactId>hive-exec</artifactId>
      <version>1.2.0</version>
    </dependency>

编写一个UDF 类

1）继承org.apache.hadoop.hive.ql.UDF
2）重写evaluate

示例如下：

public class PrefixUDF extends UDF{
    public String evaluate(String input) {
        Random random = new Random();
        int num = random.nextInt(10);
        return num + "_" + input;
    }

    public String evaluate(String input, int length) {
        Random random = new Random();
        int num = random.nextInt(length);
        return num + "_" + input;
    }

    public static void main(String[] args) {
        PrefixUDF udf = new PrefixUDF();
        System.out.println(udf.evaluate("android"));
    }
}

3）打成jar包

上传到服务器test目录下 test/udf.jar

三、创建UDAF函数

User-Defined-Aggregation-Funcation 用户定义聚合函数，可对多行数据产生作用；等同于SQL中常用的SUM()，AVG()，也是聚合函数。

UDAF实现有简单与通用两种方式：

简单UDAF因为使用Java反射导致性能损失，而且有些特性不能使用，已经被弃用了；

另一种涉及两个类:

AbstractGenericUDAFResolver,GenericUDAFEvaluator

继承UDAFResolver类，重写 getEvaluator() 方法；
继承GenericUDAFEvaluator类，生成实例给getEvaluator()；
在GenericUDAFEvaluator类中，重写init()、iterate()、terminatePartial()、merge()、terminate()方法。

实现示例：

import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

/**
* @aim：将用户名连成一行多进一出依靠内部类进行加工
*
*/

public class LinkStr extends UDAF {
    private static String result = "";

    public static class MyLink implements UDAFEvaluator{

        @Override
        public void init() {
        }

        // 聚合工作，写业务逻辑一部分map的功能
        public boolean iterate(String name){
            result = result.concat(name);
            return true;
        }

        // 一部分mapper作用，大部分是combiner作用分组分割
        public String terminatePartial(){
            return result;
        }

        // partition
        public boolean merge(String name){
            return iterate(name);
        }
        // reduce 的一部分功能
        public String terminate(){
            return result;
        }
    }
}

四、创建UDTF函数

User-Defined Table-Generating Functions，用户定义表生成函数，用来解决输入一行输出多行。
继承GenericUDTF类，重写initialize(返回输出行信息：列个数，类型), process, close三方法。

实现示例：

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

import java.util.ArrayList;

/**
* @aim：一对多
*/

public class SplitMap extends GenericUDTF {

    // 产生语句翻译后的表结构
    @Override
    public StructObjectInspector initialize(ObjectInspector[] argOIs) throws UDFArgumentException {
        ArrayList<String> columns = new ArrayList<String>();
        ArrayList<ObjectInspector> colTypes = new ArrayList<ObjectInspector>();
        // 第一列字段名
        columns.add("col1");
        // 第一列结构类型
        colTypes.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

        columns.add("col2");
        colTypes.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
        return ObjectInspectorFactory.getStandardStructObjectInspector(columns,colTypes);
    }

    @Override
    public void process(Object[] objects) throws HiveException {
        String[] datas = objects[0].toString().split(";"); // [“name:zs”,"age:40"]
        String[] res = new String[2];
        res[0] = datas[0].split(":")[1];
        res[1] = datas[1].split(":")[1];
        // 一行一个forward()
        forward(res); //把写好的数据上传到上一个表结构
    }

    @Override
    public void close() throws HiveException {

    }
}

五、注册成函数

1.临时函数

1) Hive Cli执行 add jar test/udf.jar;
2)CREATE TEMPORARY FUNCTION PrefixUDF AS 'cn.djdemon.PrefixUDF';

上述临时函数只对当前session有效，有一个比较大的局限性。

2 . 永久函数

上传jar包到HDFS目录下

Hive执行: CREATE FUNCTION dw.PrefixUDF as 'cn.djdemon.PrefixUDF' using jar '/test/udf.jar';

上述方式可以进行一个UDF函数的永久注册。

关于大数据培训，Hive自定义UDF、UDAF、UDTF 函数，以上就为大家做了基本的讲解了。Hive自定义函数的部分，是需要结合到实际应用场景去设计的，这也需要对业务和数据足够的了解才行。成都加米谷大数据，专业大数据培训，大数据开发、数据分析挖掘，零基础班本月正在招生中，课程大纲及试学视频可联系客服获取！

标签：大数据培训 Hive Hive培训

相关推荐

大家都在看

热点排行

推荐文章