오라클 등에서는 to_number 와 같은 함수를 지원하는데 

그에 대해서 하이브는 cast 라는 함수를 지원한다.

사용법은 다음과 같다.



syntax> cast(컬럼 as 타입)

타입은 int, double, string 과 같은 형태를 말한다.


* 예시

 select stddev_pop(cast(population as double)) stddev ,

          variance(cast(population as double)) variance

 from lar_ca where population is not null;


기타로 stddev_pop 는 표준편차를

variance 은 분산을 구하는 함수이다.

'IT > 빅데이터(bigData)' 카테고리의 다른 글

하이브(hive) udf  (0) 2014.11.25
Hive 의 Serde 2  (0) 2014.11.25
Hive 의 Serde 1  (0) 2014.11.25
MapReduce 데이터 흐름 분석  (0) 2014.11.25
Mapper 클래스 구성 및 사용  (0) 2014.11.22

udf 란?

hive에서 사용하는 function 을 사용자가 직접구현하는 사용자 정의 펑션(user-defined-function의 약자)이다.

즉 user 하이브에서 사용할 function 을 구현하는 것이다. 일반 데이터베이스의 function 을(오라클 to_date, sum 등)을 직접 구현한다고 생각하면 된다.

 

syntax>

select <user-defined-function>(<colum_number>) from <table> ;


구현소스 

@Description(

  name="SimpleUDFExample",

  value="returns 'even x' or return 'odd x', where x is whatever you give it (Int)",

  extended="SELECT simpleudfexample('world') from foo limit 1;"

  )

class SimpleUDFExample extends UDF {

  

    public Text evaluate(IntWritable input) {

        if(input == null) return null;

        return new Text( (input.get()%2 == 0 ?"even ":"odd " )+ input.toString());

    }

}

  

보여주고자 하는 타입에 따라 return type을 설정하고, 매개변수는 function 의 입력 파라미터의 수 및 타입이 맞아야 한다.

매개변수는 Writable 을 상속한 클래스여야 한다.


 public Text evaluate(Text param1, IntWritable param2.... ) {

위와 같이 증가 시킬 수 있다.


evaluate 는 리턴은 void 는 안된다.( 리턴값이 function 의 실행 결과 같이 된다.)

 


hive 에서의 사용 예제


예시 데이타>

hive> select noticeseq from t_test;

1

2

3

4

 

 등록후 실행>

hive> ADD JAR ./hivetemplate.jar; 

* 해당 udf가 구현된 jar를 hive 에 등록한다.

hive> CREATE TEMPORARY FUNCTION examudf as 'SimpleUDFExample';

* 해당 udf 구현클래스를 function 으로 생성한다.

hive> select examudf(noticeseq ) from t_test;

odd 1

even 2

odd 3

even 4


'IT > 빅데이터(bigData)' 카테고리의 다른 글

hive 에서 형변환 함수  (0) 2014.12.02
Hive 의 Serde 2  (0) 2014.11.25
Hive 의 Serde 1  (0) 2014.11.25
MapReduce 데이터 흐름 분석  (0) 2014.11.25
Mapper 클래스 구성 및 사용  (0) 2014.11.22



예제파일 : TemplateSerde.java


Serde 구현

 

기존방법

권고방법

비고

차이점

인터페이스를 상속하여 구현(implements)

곧 Deprecated 예정 

추상화 클래스를 상속하여 구현(extends)

인터페이스에서 추상화 클래스로 변경됨(클래스 위치: org.apache.hadoop.

hive.serde2)

직렬화/역직렬화

모두 구현시 상속

SerDe 인터페이스 상속

곧 Deprecated 예정 

 

AbstractSerDe 추상화클래스 상속하여 구현(extends)

동일 구현 메소드

Initialize

getSerializedClass

serialize

deserialize

getObjectInspector

getSerDeStats

직렬화만 구현

Serializer 인터페이스 상속

AbstractSerializer 추상화클래스 상속하여 구현(extends)

구현 메소드

Initialize

getSerializedClass

serialize

getSerDeStats

역직렬화만 구현

Deserializer 인터페이스 상속

 

AbstractDeserializer 추상화클래스 상속하여 구현(extends)

 

구현 메소드

Initialize

deserialize

getObjectInspector

getSerDeStats

 

1). 공통구현 메소드

 

- Initialize

 

해당 테이블의 컬럼 개수컬럼의 Type 정보를 얻을 수 있으며기본 구분자는 “,” 를 사용한다. 

 

 

- getSerDeStats

 

row 수 사이즈 등을 저장한 정보를 제공(불필요시에 Null 을 리턴)

 

 

 

2) 직렬화 구현 메소드

 

- getSerializedClass

 

HDFS 에 저장시 사용될 Writable을 상속한 클래스를 정의하여 리턴한다.

 

- serialize

 

테이블이 조회되어 한 row 에 대한 정보가 들어오며 해당 정보를 조합하여 HDFS 에 저장될 Line 을 생성한다.

 

 

 

3) 역직렬화 구현 메소드

 

- getObjectInspector

 

Table 에 저장될 각 컬럼의 타입을 저장하여 리턴한다.

 

- deserialize

 

HDFS 에서 조회된 한 Line 별 정보가 입력되며 해당 값을 필요에 따라 Parsing 하여 테이블에 저장될 구조의 array 를 만들어서 리턴한다.

 

 

 

2실행

 

1) 직렬화

 

※ 직렬화 jar 의 경우 HDFS 에서 사용하기 때문에 경로에 대한 path 또는 HDFS 에서 사용하는 jar 에 포함 시켜야함

 

1-1) 실행

 

INSERT OVERWRITE LOCAL DIRECTORY '저장될 LOCAL 경로’ ROW FORMAT SERDE ‘등록한 직렬화클래스’ SELECT * FROM 테이블명;

 

※ INSERT OVERWRITE DIRECTORY 처럼 LOCAL 을 생략시 HDFS 에 저장됨단 구현한 직렬화 클래스가사용안됨

 

1-2) 확인

 

LOCAL syntax 사용 여부에 따라 로컬 경로 또는 hdfs 의 경로로 해당 파일 조회(000000_0 으로 해당 폴더에 파일이 생성됨)


 

2) 역직렬화

 

2-1) 해당 Serde 을 하이브에 등록한다.

 

Add jar ./파일명.jar

 

2-2) Table 을 생성한다.

 

Create table IF NOT EXISTS 테이블명 {

 

Id STRING,

 

name STRING

 

..(이와 같은 형태로 테이블의 구조를 생성)

 

}

 

ROW FORMAT SERDE ‘등록할 역직렬화가 구현된 클래스


3) HDFS 의 데이터 로드

 

Syntax> LOAD data <LOCAL> inpath <file path> into table [tablename]

 

LOAD DATA INPATH 'HDFS 상의 데이터 경로' OVERWRITE INTO TABLE 생성한 테이블명;


4) 확인

SELECT * from 생성한 테이블명;




'IT > 빅데이터(bigData)' 카테고리의 다른 글

hive 에서 형변환 함수  (0) 2014.12.02
하이브(hive) udf  (0) 2014.11.25
Hive 의 Serde 1  (0) 2014.11.25
MapReduce 데이터 흐름 분석  (0) 2014.11.25
Mapper 클래스 구성 및 사용  (0) 2014.11.22

Hive  Serde


Serde 란 ?

직렬화와 역직렬화를 뜻하며, HDFS  HIVE 간의 데이터 교환을 뜻한다.

역직렬화(Deserializer)

HDFS files  ▶ InputFileFormat  <key, value>  Deserializer  Row object

HDFS 의 파일을 Hive 테이블에 저장

 

직렬화(Serializer)

Row object  Serializer  <key, value>  OutputFileFormat  HDFS files

Hive 테이블의 정보를 HDFS 의 파일로 저장


'IT > 빅데이터(bigData)' 카테고리의 다른 글

하이브(hive) udf  (0) 2014.11.25
Hive 의 Serde 2  (0) 2014.11.25
MapReduce 데이터 흐름 분석  (0) 2014.11.25
Mapper 클래스 구성 및 사용  (0) 2014.11.22
여러 기능의 맵리듀스를 하나의 jar 로 묶을때  (0) 2014.11.22

mapper 는 기본적으로 자신의 데이터노드에서 동작하기 때문에 여러 데이터노드의 경우 서로의 값의 공유할 수가 없다.

그에 때문에 hadoop 에서는 counter 를 통해 서로의 정보를 업데이트하여 reducer 에게 전달할 수 있다.

(단 long에 대한 증가/감소만 가능)

 

카운터의 등록은 enum 으로 등록하여야 하며, 필요한 enum 을 개발자는 생성해야 한다.

 

 아래와 같은 enum 을 생성했다며

 

 public static enum MATCH_COUNTER {

  TOTAL_COUNT

 };

 

  mapper 에서는 아래와 같은 로직을 통해 특정 값을 증가 시킬 수 있다.

  @Override

  public void map(Object key, Text value, Context context) throws IOException, InterruptedException {

    StringTokenizer itr = new StringTokenizer(value.toString());

        while (itr.hasMoreTokens()) {

   word.set(itr.nextToken());

             context.write(word, one);

             context.getCounter(MATCH_COUNTER.TOTAL_COUNT).increment(1); 

             // counter 증가

       }

  }

 

 

이렇게 증가된 값은 아래와 같이 사용할 수 있다.

 public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();

    Job job = Job.getInstance(conf, "word count");

    .... 중략

    job.waitForCompletion(true)

    long totalCnt = job.getCounters().findCounter(MATCH_COUNTER.TOTAL_COUNT)).getValue();  

     ... 중략

  }

 

 

 

 namenode 1  :  outdata { "a","b","c"} 3개

 namenode 2  :  outdata { "d,"f"} 2개

 

counter 의 값은 5가 된다.

하이브(Hive) 사용시 

jdbc 접속을 위해서는 hive 의 service 를 구동해야 한다.

 

HIVE_PORT=10001 ./hive --service hiveserver 

or

hive --service hiveserver -p 10001

'IT > 빅데이터(bigData)' 카테고리의 다른 글

여러 기능의 맵리듀스를 하나의 jar 로 묶을때  (0) 2014.11.22
Hadoop 의 Counter 이야기  (0) 2014.11.22
Reduce 에서 counter 조회  (0) 2014.11.22
hadoop counter 사용  (0) 2014.11.21
MapReduce 프로그래밍  (0) 2014.11.21

+ Recent posts