SW Engineering/Hadoop

Python으로 Hive 연결하기

SungWookKang 2019. 12. 4. 00:40
반응형

requirements.txt
0.00MB

Python으로 Hive 연결하기

 

·       Version : Python 2.7.5, pip, Hive, CDH 6.3.0, Centos7

 

Hive 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱할때 가장 많이 사용되는 데이터 웨어하징 솔루션이다. RDB 데이터베이스, 테이블과 같은 형태로 HDFS 저장된 데이터의 구조를 정의하는 방법을 제공하여 SQL 유사한 HiveQL쿼리를 사용하여 데이터를 조작할수 있다.

·       Hive Architecture : https://en.wikipedia.org/wiki/Apache_Hive

 

필자의 경우, 배치잡 성격의 데이터 처리나 하이브 쿼리 조회등의 자동화 작업을 대부분 파이썬 스크립트로 개발하고, 해당 파이썬을 Cron 으로 실행하는 방식으로 운영하고 있다. (물론 에코시스템중에 좋은 ETL 툴이 많지만, 관리 유지보수 차원에서 파이썬을 선택하였다.) 오픈소스 프로젝트로 작업을 진행하면서 자주 느끼는 부분인데, 오픈소스는 궁합이 매우 중요하다. 특히 파이썬의 경우 버전에 따라 지원되는 기능 패키지 모듈이 다르기 때문에 버전 문제로 인한 스트레스가 있는 편이다. 이번 포스팅은 pyhive 패키지를 이용해서 파이썬에서 Hive 커넥트할 있는 방법에 대해서 알아본다.

 

필자의 하둡 환경은 Cloudera Hadoop 6.3.0, Centos7, Python 2.7.5 환경이다. 첨부된 requirement.txt 사용하여, 필요한 pip 패키지를 설치한다. 해당 파일에는 hive 커텍트에 필요한 패키지 외에, 필자가 필요한 pip 패키지가 일부 포함되어 있다.

pip install -r /path/to/requirements.txt

 

아래 내용은 설치되어 있는 pip 패키지 리스트이다.

backports.ssl-match-hostname==3.5.0.1

certifi==2019.9.11

chardet==3.0.4

configobj==4.7.2

decorator==3.4.0

docopt==0.6.2

future==0.18.2

futures==3.1.1

hdfs==2.5.8

hdfs3==0.3.1

idna==2.8

iniparse==0.4

ipaddress==1.0.16

IPy==0.75

javapackages==1.0.0

kitchen==1.1.1

langtable==0.0.31

LinkChecker==9.3

lxml==3.2.1

MySQL-python==1.2.5

numpy==1.16.5

pandas==0.24.2

perf==0.1

pexpect==4.7.0

policycoreutils-default-encoding==0.1

psycopg2==2.5.1

ptyprocess==0.6.0

pycurl==7.19.0

pygobject==3.22.0

pygpgme==0.3

PyHive==0.6.1

pyliblzma==0.5.3

pysasl==0.4.1

python-augeas==0.5.0

python-dateutil==2.8.1

python-linux-procfs==0.4.9

pytz==2019.3

pyudev==0.15

pyxattr==0.5.1

PyYAML==3.10

requests==2.22.0

sasl==0.2.1

schedutils==0.4

seobject==0.1

sepolicy==1.1

six==1.9.0

slip==0.4.0

slip.dbus==0.4.0

SSSDConfig==1.16.4

thrift==0.13.0

thrift-sasl==0.3.0

urlgrabber==3.10

urllib3==1.25.7

virtualenv==15.1.0

yum-langpacks==0.4.2

yum-metadata-parser==1.1.4

 

패키지 설치가 완료되었으면, 파이썬에서 필요한 패키지를 import 하여 Hive 커넥트 한다. 아래 스크립트는 파이썬에서 hive 연결하거 tbl이라는 테이블의 내용을 조회하는 예제이다.

from pyhive import hive

 

conn = hive.Connection(host='hd-master', port=10000, username='ID', password='PASSWORD', database='default', auth='CUSTOM')

cur = conn.cursor()

cur.execute('select 1 from tbl')

result = cur.fetchall()

 

 

 

2019-12-03 / Sungwook Kang / http://sungwookkang.com

 

Hadoop, hive, 파이썬으로 hive 연결하기, python connect to hive, hive connection, pyhive

반응형