パネルディスカッション「ゲノム時代のデータベース」

ITBL にパネルディスカッション「ゲノム時代のデータベース」のパネラーとして参加しました。

話題提供スライドのフルスクリプト

BioRuby Project
1. http://bioruby.org
2. オブジェクト指向スクリプト言語 Ruby による Bioinformatics のためのオープンソースライブラリ
  1. 塩基、アミノ酸配列クラス
  2. IO クラス
  3. データベースエントリパーサ
  4. ツールのリーポートパーサ
データベースパーサをつくっていて思うところ
1. ドキュメント
  1. 仕様を公開してほしい
    1. リバースエンジニアリングは本末転倒
2. QC
  1. 仕様とおりのデータであってほしい
3. ライセンス
  1. 非商用利用 != アカデミック利用
4. データ取得、交換のインターフェイス
  1. 機械可読性
  2. スケーラビリティ
データ取得、交換のインターフェイス
1. Not only ひとにやさしいユーザインターフェイス
  1. HTMLでデータを見やすく公開
2. But also 機械にやさしいインターフェイス
  1. 丸ごと全部ダウンロード（ラージスケール）
    1. Flatfile、XML、RDB-dump-files
  2. オンデマンドにデータ交換（スモールスケール）
    1. 機械可読性／構造化テキスト、XML、SOAP
機会に優しいインターフェイスの共有の試み
1. DAS http://BioDAS.org
2. OBDA http://obda.open-bio.org
3. BSML http://www.bsml.org
さまざまなデータベースを横断的に解析するきたるべきこれからは、分散データベースが普及すれば良いなと思います。
1. データを公開する側のメリット
  1. 典型的なユーザインターフェイスを再利用できる
  2. データの再利用性、価値が向上する
2. データを使う側のメリット
  1. さまざまなデータベースをオンデマンドに参照できる
  2. スモールスケールの利用は、まるっと全部ダウンロードする必要が無い
  3. 常に最新のデータ（諸刃の剣）