第1回で予告したとおり、今回はETLのOSSを確認してみましょう。
今回紹介するのは、「Apatar」というOSSです。Apatar自体は単純なソフトウェアで、ETLのエディタとその実行環境という内容です。残念ながら、JP1やクロンのインタフェースは持っていませんが、専用のスケジューラで実行することができます。
企業システムでの悩みの一つである、統合・統一化という観点では若干、見劣りしてしまいますが、その当たりは別のOSSで確認することとして、今回はETLが簡単にできるところを中心に説明していきます。
ダウンロードしたApatarを起動すると以下のような画面が起動します。

この画面に左側のペインにある、コネクタを選択して、どの入力からデータを受け取るかを選択して右側のスクリーンにドラッグ&ドロップをします。同様に出力についてもドラッグ&ドロップします。
これらの入力には、各DB、テキストファイル、RSS、XML、Salesforce.comなどがあり、適切な設定をすることで情報を読み込ませることができます。
これらの間(入力から出力)には若干の乖離があるのが普通で、これらの間の乖離を「変換」などをおこない、バッチプログラムとします。Apatarでは、この「変換」のような内容をオペレーションとして定義しています。他にも
今回は、サンプルとしてXMLファイルからある要素だけを取り出してCSVに変換してファイルに出力するバッチプログラムをApatarで作ってみます。
入出力を表すコネクタからXMLとテキストファイルを選び、ドラッグ&ドロップします。
そのまま出力しても意味がないので要素から値を取り出してテキストファイル(CSV)形式とするため、変換のオペレーションを利用します。XML→変換→テキストファイルを実現するためにこれらの要素間を線でつなぎます。
このように流れを作った後で、各要素で設定をおこない、ファイルの選択、変換内容などを設定します。設定内容については次回、説明します。
一つの簡単なサンプルを通じてですが、バッチプログラムがいわゆるノンプログラムで実現できています。このようなツールを利用して、バッチプログラムを統合していくことでバッチプログラムの保守性が向上していくでしょう。
今回紹介するのは、「Apatar」というOSSです。Apatar自体は単純なソフトウェアで、ETLのエディタとその実行環境という内容です。残念ながら、JP1やクロンのインタフェースは持っていませんが、専用のスケジューラで実行することができます。
企業システムでの悩みの一つである、統合・統一化という観点では若干、見劣りしてしまいますが、その当たりは別のOSSで確認することとして、今回はETLが簡単にできるところを中心に説明していきます。
ダウンロードしたApatarを起動すると以下のような画面が起動します。
この画面に左側のペインにある、コネクタを選択して、どの入力からデータを受け取るかを選択して右側のスクリーンにドラッグ&ドロップをします。同様に出力についてもドラッグ&ドロップします。
これらの入力には、各DB、テキストファイル、RSS、XML、Salesforce.comなどがあり、適切な設定をすることで情報を読み込ませることができます。
これらの間(入力から出力)には若干の乖離があるのが普通で、これらの間の乖離を「変換」などをおこない、バッチプログラムとします。Apatarでは、この「変換」のような内容をオペレーションとして定義しています。他にも
- アグリゲーション(複数の入力を利用してマッピングする)
- 重複排除(同じカラム情報を一つとみなす)
- フィルター(条件指定に当てはまらない入力を入力としない)
- ジョイン(条件にしたがって、複数の入力をジョインする)
- 更新
- バリデーション
今回は、サンプルとしてXMLファイルからある要素だけを取り出してCSVに変換してファイルに出力するバッチプログラムをApatarで作ってみます。
入出力を表すコネクタからXMLとテキストファイルを選び、ドラッグ&ドロップします。
そのまま出力しても意味がないので要素から値を取り出してテキストファイル(CSV)形式とするため、変換のオペレーションを利用します。XML→変換→テキストファイルを実現するためにこれらの要素間を線でつなぎます。
一つの簡単なサンプルを通じてですが、バッチプログラムがいわゆるノンプログラムで実現できています。このようなツールを利用して、バッチプログラムを統合していくことでバッチプログラムの保守性が向上していくでしょう。

コメントする