ISMSを取得しています。認証番号 IS 505446

弊社は情報セキュリティ対策を
重視して、 ISMSを取得しています。

ApatarによるETL その1 (企業システムの悩み 第2回)

| | コメント(0) | トラックバック(0)
第1回で予告したとおり、今回はETLのOSSを確認してみましょう。

今回紹介するのは、「Apatar」というOSSです。Apatar自体は単純なソフトウェアで、ETLのエディタとその実行環境という内容です。残念ながら、JP1やクロンのインタフェースは持っていませんが、専用のスケジューラで実行することができます。
企業システムでの悩みの一つである、統合・統一化という観点では若干、見劣りしてしまいますが、その当たりは別のOSSで確認することとして、今回はETLが簡単にできるところを中心に説明していきます。

ダウンロードしたApatarを起動すると以下のような画面が起動します。
WS000001.JPG
この画面に左側のペインにある、コネクタを選択して、どの入力からデータを受け取るかを選択して右側のスクリーンにドラッグ&ドロップをします。同様に出力についてもドラッグ&ドロップします。
これらの入力には、各DB、テキストファイル、RSS、XML、Salesforce.comなどがあり、適切な設定をすることで情報を読み込ませることができます。

これらの間(入力から出力)には若干の乖離があるのが普通で、これらの間の乖離を「変換」などをおこない、バッチプログラムとします。Apatarでは、この「変換」のような内容をオペレーションとして定義しています。他にも
  • アグリゲーション(複数の入力を利用してマッピングする)
  • 重複排除(同じカラム情報を一つとみなす)
  • フィルター(条件指定に当てはまらない入力を入力としない)
  • ジョイン(条件にしたがって、複数の入力をジョインする)
  • 更新
  • バリデーション
などがあります。

今回は、サンプルとしてXMLファイルからある要素だけを取り出してCSVに変換してファイルに出力するバッチプログラムをApatarで作ってみます。

入出力を表すコネクタからXMLとテキストファイルを選び、ドラッグ&ドロップします。
そのまま出力しても意味がないので要素から値を取り出してテキストファイル(CSV)形式とするため、変換のオペレーションを利用します。XML→変換→テキストファイルを実現するためにこれらの要素間を線でつなぎます。
WS000004.JPGこのように流れを作った後で、各要素で設定をおこない、ファイルの選択、変換内容などを設定します。設定内容については次回、説明します。

一つの簡単なサンプルを通じてですが、バッチプログラムがいわゆるノンプログラムで実現できています。このようなツールを利用して、バッチプログラムを統合していくことでバッチプログラムの保守性が向上していくでしょう。






トラックバック(0)

このブログ記事を参照しているブログ一覧: ApatarによるETL その1 (企業システムの悩み 第2回)

このブログ記事に対するトラックバックURL: http://www.bt-capital.com/mttest/mt-tb.cgi/9

コメントする

このブログ記事について

このページは、高安 厚思が2009年9月15日 17:58に書いたブログ記事です。

ひとつ前のブログ記事は「企業システムの悩み 第1回」です。

次のブログ記事は「ApatarによるETL その2 (企業システムの悩み 第3回)」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。