HiveQLが参照しているDBとテーブルをクエリから見つけるRubyスクリプト

2013年03月05 23時30分

HiveQLが参照しているDBとテーブルをクエリから見つけるRubyスクリプト

HiveQLが参照しているDBとテーブルをクエリから見つけるRubyスクリプトを書いてみました。

HiveQLからfrom句を見つけるRubyスクリプト

簡単に言うと、正規表現を使ってfromの後をパースしてるだけです。

# -*- coding: utf-8 -*-

class Hiveql

  def initialize(hiveql)
    @hiveql = hiveql
  end

  attr_reader :hiveql

  # 文字列からインスタンスを作る
  def self.load(str)
    return Hiveql.new(str)
  end

  # ファイルの絶対パスからインスタンスを作る
  def self.load_file(file)
    return load(`cat #{file}`)
  end

  # hiveql内のfrom句をパースし、db.tableをユニークな配列にして返す
  def source_tables
    tables = Array.new
    split(hiveql).each{|hiveql|
      from_expressions = search_from_expressions(hiveql)
      next if from_expressions.empty?

      from_expressions.each{|table|
        tables.concat(table)
      }
    }

    tables.uniq
  end

  # クエリをセミコロンで分割する
  def split(hiveql)
    hiveql.split(';')
  end

  # from句を見つける
  # db.table を正規表現で見つける。db名の省略にも対応している
  def search_from_expressions(hiveql)
    return [] if (hiveql =~ /use\\s+\\w+\\s*;/mi) # use db; を見つける正規表現

    # from db_name.table_name を見つける正規表現
    regexp = /from\\s+((?:\\w+\\.)?\\w+)\\s+/mi

    if (hiveql =~ regexp)
      return hiveql.scan(regexp).uniq
    end

    return []
  end

end

# ここから実行開始
hiveql = Hiveql.load_file(ARGV[0])
puts hiveql.source_tables

ざっくり正規表現解説

/from\\s+((?:\\w+\\.)?\\w+)\\s+/mi

from句を見つける正規表現です。ちょっとだけややこしいので細部を解説します。

\\s

空白、タブ、改行に一致する正規表現です。[ \\t\\n\\r\\f] と同じです。

\\w

英数字とアンダーバーに一致する正規表現です。[0-9A-Za-z_] と同じです。

(?:regexp)

丸カッコは通常、後方参照するときに使うのですが、後方参照する必要がない場合はこのように書きます。

m

複数行モードの指定です。正規表現は通常一行のみの文字列に使いますが、m を指定すると複数行の文字列にも使えるようになります。といっても、. が改行文字にも一致するようになるだけです。

まとめ

Ruby便利！

著者プロフィール

Webサイトをいくつか作っています。

ツイッターはこちら

新着記事

・2015/12/23

re:Work - Guide: 素晴らしいマネージャーを賞賛し、素晴らしいマネージャーから学ぶ new

・2015/12/19

re:Work - Guide: マネージャーの能力を伸ばし、マネージャーをサポートする new

・2015/12/16

re:Work - Guide: 素晴らしいマネージャーの要素を見付け出す new

・2015/12/13

re:Work - Subject: マネージャー

・2015/12/13

re:Work - Guide: 候補者の応募体験を形作る

・2015/12/13

re:Work - Guide: 面接者をトレーニングする

・2015/12/08

re:Work - Guide: 委員会方式による採用意思決定

・2015/12/05

re:Work - Guide: 構造化面接を実施する

・2015/12/05

re:Work - Guide: 履歴書をレビューする

・2015/12/04

re:Work - Subject: 採用

・2015/12/04

re:Work - Guide: 募集要項の書き方

・2015/04/29

RubyMineでMarkDownのみ行末の空白を残す設定

新しい記事一覧

ソーシャルランキング

・2013/05/30

Lean Analytics: KPIにしてはいけない8つの指標 349 users

・2011/12/20

楽天が大成功した理由とクラウドファンディングが成功しない理由 174 users

・2013/05/26

ニコニコ動画のタグの傾向を見てみた 77 users

・2013/05/28

ニコニコ動画のタグネットワークを描画してみた 75 users

・2012/11/25

fluentdの簡単な使い方、設定方法一覧 65 users

・2012/03/24

Android SDK r17で高速化されたAndroidエミュレータを動かす全手順 59 users

・2011/12/19

とんQに提案メールを送ったらすっごい丁寧な返事が返ってきた！ 42 users

・2013/03/17

各種レコメンドアルゴリズムの特徴・計算方法まとめ 35 users

・2013/05/29

ABテストを検定する 34 users

・2013/03/14

Job Queueシステムを自分で設計するときに必要な設定項目メモ 29 users

・2013/03/14

Job Queueシステムを自分で設計するときに必要な設定項目メモ 29 users

アクセス数ランキング

・2012/01/07

Android端末のGoogleアカウント同期機能まとめ【電話帳、Gmail、カレンダー、Picasa】

・2012/03/24

Android SDK r17で高速化されたAndroidエミュレータを動かす全手順

・2012/10/14

HTMLだけでツイッターを埋め込む方法

・2011/12/20

楽天が大成功した理由とクラウドファンディングが成功しない理由

・2012/10/10

絵師さんが参考にしているサイトだいたい200個まとめ