DAS workshop 2008 参加レポート

2/25-26 に Hinxton のウェウカムトラスト・ゲノムキャンパスで開催された DAS workshop 2008 に参加しました。一日目 25 日は一般公募したセミナーで、二日目 26 日はハンズオンセミナーでした。
DAS workshop は例年おこなわれていて、昨年 も Hinxton で開催されています。

Day 1 セミナー

screenshot
事前に募集した演題が発表されました。DAS の概要(Opening)、サーバ(DAS registry, Interaction DAS, ProServer, BioMart)、主要なデータ公開サイト(UniProt, Pfam, CNIO)、クライアント(Jalview, Dasty2, Ensembl, SPICE, PeppeR)と開発寄りの利用事例(VAMSAS, Dastard, DAS writeback, Protein Feature Ontology)などです。最後にオープンディスカッションがありました。
なお、このレポートは、なかおが聞き取りできた範囲のメモなので、それぞれのスピーカーの発表内容を保証するわけではありません。
会場は、E203 という食堂のとなりにある150人くらい配列スペースでした。ピアノとドラムセットが部屋の隅においてあって、昼休みにはピアノを弾きにひとがくるようなスペースでした。照明と暖房は比較的暗く設定されていました。

DAS をめぐる状況

Tim Hubbard による Opening では、サンガー研究所でのデータの流通に DAS が利用して、データベースの粗結合化がなさされていることや最近のDAS 業界での進展(サーバ実装、クライアント実装の増加)を紹介し、まだ達成されていないこと(US での利用が少ない、検索の仕組みがない、サーバ間の連携の仕組みがない)を示していました。今後は DAS サーバを階層化して、組み合わせて利用するところの仕組み(コンセンサスサーバ?)やクライアント間の通信プロトコル、非同期通信/チャッシング、エントリーポイントの切り替えなどを整備するようです。2007 年のはやったもの(Facebook, youtube)と比べて、2008 年は OpensocialOpenID などがはやると予想していて、そちらの方向(?)を考えているようでした。たとえば、文献の DAS システムなどを考えているようです。

DAS 1.53E

Phil Jones による UniProt / MyDAS では、位置に付随したアノテーションだけでなく、位置に関連していないアノテーションも重要だよ、ということで UniProt に含まれる位置に関連していないアノテーション(タクソノミーや機能説明文、関連文献など)を紹介してました。次に、DAS 1.53 の拡張 DAS 1.53EIntegrating sequence and structural biology with DAS. - PubMed - NCBI)を紹介しました。対応メソッドの違いを表にすると次のようになります。違いの詳細は仕様を確認してください。

DAS 1.53 DAS 1.53E
entry_point entry_point
sequence sequence
features features
types types
stylesheet stylesheet
structure
sources
alignment
interaction
volmap

つぎに、DAS registry に登録されている UniProt DAS Reference Server (DS_409) を紹介していました。これには、uniprot, uniparc, ipi のソースがあり、AC/ID の座標系でデータが提供されいるとのことです。UniProt のような遺伝子産物の DAS では、位置に関連していないアノテーション(Non-positional annotations)の取り扱いが課題のようです。解決しているのかもしれません。位置に関連していないアノテーションでは、start と end の値を 0 にするとのことです。

Jalview / VAMSAS

Java 製のアラインメントエディタ Jalview はデータソースに DAS がつかえるとのこと。最近は VAMSAS Project の一環として開発がすすめられている。VAMSAS は Visualisation and Analysis of Molecular Sequences, Alignments and Structures とのことで、系統解析では DNA には TOPALi を、タンパク質には JalView を三次元構造には AstexViewer@MSD-EBI を開発している。

Pfam

Pfam はデータを DAS でも公開している。ProServer をつかっていることがわかる。

Dasty2 をつかった表示例を次にしめす。このなかの POSITIONAL FEATURES の多くは Pfam DAS から取得している。http://www.ebi.ac.uk/dasty/client/ebi.php?q=P08487&label=BioSapiens&t=3
Pfam は DAS クライアントでもある。
iPfam では RESTful ウェブサービスとしてリソースを公開している。

CNIO

スペインのがん関連の研究所 CNIOでの DAS サービスと関連した開発の紹介でした。http://madas.bioinfo.cnio.es/MaDas/cgi-bin/MaDasアノテーションの追加や編集のできるDASサービスとのこと。可視化についていくつか言及したあと、おおくのウェブベースのゲノムブラウザはページ遷移が多すぎるという批判を展開していました。
CARGO は、デスクトップやウェブで利用できるいわゆるウィジットを作成するツールです。たとえば、CiteULike や Connotea といったソーシャルブックマークのウィジットや DAS ビューアウィジットが数クリックで作成可能とのことです。
screenshot

Dasty2

Dasty2AJAX をつかったウェブベースの Protein DAS クライアント。PHP でつくられています。新機能として、3D 構造、DAS オントロジーによるフィルター選択、PHP のなかでのプロキシ、テンプレート、位置に関連しないアノテーションの表示を紹介し、今後の課題としては、ライブラリのリファクタリングアノテーションをコラボレーションでつけるツールなどをあげていました。
screenshot

Dastard

DASのユーザとして、(1) データセットをオンラインでより早く得るには? (2) フツーのバイオ研究者がデータを DAS でアクセス可能にするにはどうする? という課題への回答として、ユーザーが自前で自分のデータを DAS として簡単にあげれれるといいという方針でやってみた、という実証実験でした。自前で DAS サーバをあげる構成としては、Apache Tomcat + Dazzle + Apache Derby + BioJava とのことでした。その結果、対象としていうエンドユーザのマシンには固定IPがないので、外部のDASビューア(Ensemblなど)に自前のデータを表示するときに Firewall で超えられないことがおこりがちだったとのことです。このような障壁には、DAS サービスのホスティングサービスがあるとよいという解決策を紹介していました。これは WikiFarm と似ている発想だとおもいます。

Ensembl

ゲノムブラウザ Ensembl は、最初の完全に仕様をみたした DAS クライアントです。stylesheet に対応しているクライアントが少ないようです。同時に主要な DAS サーバです。164 DAS ソースがレジストリに登録されています。
Ensembl では分割した DAS ソースの集合から検索した結果を一つにまとめることが課題になっているようでした。そのための解決法を三つあげていましたが、それぞれの長短(DASの仕様に合致する/しない、UIが簡単/複雑など)があるようです。

DAS registry, SPICE

http://www.dasregistry.org で運営されている DAS サービスのレジストリです。レジストリ情報は SOAP で取得できます。381 個のソースが登録されています。OpenID をつかった登録者認証をしています。今回のワークショップの登録受付もこのサイトを利用していて、OpenID による個人認証が利用されていました。
ゲノム配列と遺伝子産物の立体構造をつなぐ方法として、SPICE DAS クライアントを紹介しました。これはよくできています。立体構造と配列アノテーションをならべてみたいことのほとんどは、配列アノテーションの構造上での位置を知ることだとおもいます。言い方をかえると、構造のビューから配列アノテーションを絞り込む/配列アノテーションのビューから構造を知ることの繰り返しです。SPICE では、立体構造ビューと配列ビューのカーソル選択が連動しているので、そのような操作が簡単におこなえます。解析が遺伝子産物までおちてきたらこれを使おうと思いました。

DAS writeback

アノテーション作業をしていると、更新したアノテーションを DAS で配布したいというサイクルが極端に短くなってきて、その結果、DAS は read-only なんだけど、DAS のレコードを POST でかきかえる拡張をしてみました、という実証実験です。
http://code.google.com/p/daswriteback/ でコードを公開しています。POST でやるのはどうかとおもいましたが、DAS は特定の FEATURE にアクセスするリソース的な作りがないので、RESTful にはなれないので、現在の仕様にのせるには最善だと思います。
エンドユーザでも更新するには?とか公開するには?というところに課題があるようです。

Interaction DAS

DAS 1.53E で拡張されている interaction コマンドをさらに拡張したという DASMI - DAS for Molecular Interactions についての発表。interation コマンドの拡張は次のような感じです。

  • /interaction?interactor={ID}
  • /interaction?detail={ID};property_id={ID}
  • /interaction?detail={ID};property_id={ID},value={value}

DASMIweb で DAS で公開されている相互作用データをみることができます。
DASMI化したデータソースは http://dasmi.bioinf.mpi-inf.mpg.de/das/dsn で公開しています。
iPfam graph には DASMI で相互作用ノードを追加することができます。
DASMI は Dazzle もしくは ProServer で利用できるとのこと。

PeppeR

Single particl EM の画像と立体構造と配列アノテーションのためのビューアを開発していました。ほかには、組織切片や発現データのDASが必要とのことでした。

Annotation Pipeline

エンドユーザの利用事例。ウェブサービスはまだ敷居が高い、簡単なUIで複雑な結果がかえってきてほしい、ソフトウェアのインストールはできるかぎり無くしたい、というような結論でした。

The Protein Feature Ontology

BioSapiens Protein Feature Ontology。BioSapiens の活動で分散アノテーションを 69 のソースに対して 19 グループが参加しているけど、アノテーションの不整合がいろいろある。それをオントロジーをつくって解決しましょうというもの。
Positional な features は Sequence Ontology (SO) から、修飾関係は PSI-MOD ontology からきている。これらを Evidence codeをつけてアノテーションに使用している。オントロジーをつかっているので、重複したアノテーションを検出することが可能になっているとのこと。

ProServer

ProServer はよく利用されている DAS サーバの実装。DAS 1.53E を完全に実装してあり、簡単にセットアップでき、簡単に拡張できるようになっている。具体的なセットアップ手順は 26 日のハンズオンセミナーを参照されたい。
サーバ構造は次のような4層構造から構成されている。

  1. Core
  2. SourceAdaptor
  3. Transport(DBIなど)
  4. Strage (ファイル、RDBなど)

認証には、IP をつかうが、basic 認証や OpenID が今後利用可能になるかもしれない。XSL を利用して、クライアントに依存して XML の表示を人向けやマシン向けに同一の XML で対応している。このへんは gbrowse には無い。今後の課題は、レジストレーション、巨大データのストリーム、サーバ管理機能、あたらしいコマンドの必要性(writebbackや検索)などであるとのこと。

screenshot screenshot

BioMart

BioMart は DAS ソースになることの紹介。

BioMart のコンセプトは、データを Mart のスキーマに変換して格納して、Mart の検索(Source、Filter、Attributes)が出来るようにします。
DAS としては http://{DOMAIN}/biomart/das/{DATASET}/features?segment={FILTER} という形式で問い合わせます。

オープンディスカッション

最後に、ホワイトボードに自由にトピックを書いてそれらについて議論していました。

  1. 座標系 API 

- 座標系とは、ゲノム配列の位置座標やUniProtのID空間など

  1. データセットの作り方
  2. 密度データの問い合わせ
  3. メーリングリスト
  4. DAS2 は生きているのか?
  5. サービスの集約
  6. 任意のレファレンス配列の利用
  7. XSL とアノテーションの融合
  8. attributes や types の取得方法

その後、ケンブリッジのバーでワークショップディナーでした。

Day 2 ハンズオンセミナー

screenshot
DAS クライアントアプリケーションの解説と DAS サーバの構築とクライアントプログラミング(Java もしくは Perl)でした。サーバの構築はなじみのある Perl を選択。ProServer のセットアップをやりました。

EBI の実習室でのハンズオンセミナーでした。セミナー室の設備はすばらしいものでした。
ハンズオンセミナーの資料は DASworkshop200802 - BioDAS にあります。ハンズオンセミナーは PerlJava のどちらかの言語が選択できました。Perl にしました。

DAS クライアントアプリケーション:SPICE

DASworkshop200802:spice - BioDAS
SPICE はタンパク質配列、構造とアノテーションのブラウザです。

http://www.efamily.org.uk/gfx/spice_inaction.jpg

Ensembl の ProtView から SPICE を起動することができます。立体構造と配列のアノテーションを相互に参照することが簡単にできます。

  1. ProtView を開く。例:http://www.ensembl.org/Homo_sapiens/protview?peptide=ENSP00000365116
  2. Protein DAS Report の DAS Sources で PDB_Spice を追加するために、チャックして、Update ボタンをクリックします。
  3. すると、Protein Fatures の画像が更新されて、PDB_Spice トラックが追加されます。
  4. ENSP -PDBma.. のトラックをクリックすると、フローティングメニューがあらわれ、
  5. run SPICE をクリックすると、
  6. SPICE の起動(launch SPICE)画面へ移動します。
  7. runspice.jnlp が起動しますが、ブラウザによっては runspice.jnlp ファイルが単にダウンロードされる場合もあります。その場合は、jnlp ファイルをダブルクリックして起動します。
  8. SPICE が起動して、
  9. DAS ソースからアノテーションを取得します。


Pfam の Structure から SPICE を起動することができます。


SPICE は残基の物理化学性質などのヒストグラムデータの表示ができます。
http://www.efamily.org.uk/software/dasclients/spice/spice_histogram.jpg


立体構造予測の結果の評価するときなどの、複数の構造のアラインメントを表示することができます。
http://www.predictioncenter.org/casp/casp7/public/cgi-bin/results.cgi

DAS クライアントアプリケーション:Ensembl

Ensembl は最初に仕様を完全に満たした DAS 1.53 クライアントです。
登録されているDASソースの追加や、あたらしくDASソースの追加やその表示のカスタマイズが可能です。

  1. http://www.ensembl.org/Homo_sapiens/protview?peptide=ENSP00000365116 の、
  2. Protein DAS Report の DAS Sources で登録されているソースの追加ができる。
  3. Manage Sources をクリックすると、DasconfView が開き、あたらしく DAS ソースが追加できる。
  4. DAS ソースを追加したときは、http://www.ensembl.org/Homo_sapiens/protview?peptide=ENSP00000365116 の Protein Features の画像が更新されます。
DAS サーバのセットアップ:ProServer

http://www.ebi.ac.uk/~aj/das_workshop_2008/proserver_tutorial.html にそって ProServer のチュートリアルをうけました。
このチュートリアルでは、タブ区切りのGFFファイルの内容をDASサーバで公開することを目標として、タブ区切りのGFFファイル用の SourceAdaptor を作成し、それを利用できるように設定しています。そして、サーバの起動とウェブブラウザによる動作確認をおこないます。

ProServer の特徴を次にあげます。

  1. Perl で書かれている
  2. 9000 番ポートでデーモンとしてうごく
  3. 設定ファイルとアダプターに規約がある
  4. モジュール化されている
    1. SourceAdaptor モジュール
    2. transport モジュール
  5. XSL をつかったクライアントにあわせたビュー

ProServer の起動方法。開発時には -x オプションをつけると、プロセスの出力を標準出力にとどめることができる。

eg/proserver -x -c eg/proserver.ini
  1. ウェブブラウザでつぎの URL を開くことが動作が確認できる。
    1. http://localhost:9000/das/sourcs
    2. http://localhost:9000/das/dsn

SourceAdaptor の開発。
SourceAdaptor は Bio::Das::ProServer::SourceAdaptor::{アダプタ名}というパッケージで作成します。

DAS クライアントのプログラミング

http://www.ebi.ac.uk/~aj/das_workshop_2008/daslite_tutorial.html にそって DAS クライアントを Bio-Das-Lite Perlモジュールで作ってみました。

つぎのようなメニューで実習をうけました。

  1. 配列の取得。
  2. Feature の取得。
  3. レジストリからソースの取得。

最後のレジストリからソースの取得は、http://www.dasregistry.org/SOAP サービスをつかうのですが、じぶんの環境の SOAP::Lite ではうごきませんでした。ま た S O A P か。

BioSapiens Network of Excellence - A European Virtual Institute for Genome Annotation

screenshot
ワークショップは BioSapiens Network of Excellence がスポンサーになっていました。
BioSapiens はヨーロッパ中の 14 カ国の 25 研究所のバイオインフォマティクス研究者で構成されている。目的は大規模なゲノム(UniProt に登録されているタンパク質配列を含む)へのアノテーションです。
http://www.biosapiens.info/images/partners/partnermap.png

アノテーションの進捗状況は BioSapiens – Exploring the primal, sexual nature of humans and primates. にある。

76 種のソース

BioSapiens – Exploring the primal, sexual nature of humans and primates. によると、

  1. UniProt などのデータベースに含まれるレコード、
  2. DSSP や TMHMM などの計算結果、
  3. 特定のタンパク質についての文献からアノテーション

などがあります。

18 種の座標系
座標系 #
ゲノム CEL_130,Chromosome,Caenorhabditis elegans 1
ゲノム CHIMP_1,Chromosome,Pan troglodytes 1
タンパク質 Ensembl,Protein Sequence 1
タンパク質 Ensembl,Protein Sequence,Homo sapiens 1
タンパク質 GENCODE_2.2,Protein Sequence,Homo sapiens 4
ゲノム HIV,Chromosome,HIV-1, strain HXB2 1
タンパク質 IPI,Protein Sequence 1
ゲノム NCBI m_35,Chromosome,Mus musculus 5
ゲノム NCBI_35,Chromosome,Homo sapiens 7
ゲノム NCBI_36,Chromosome,Homo sapiens 4
タンパク質 PDBresnum,Protein Structure 5
ゲノム RGSC_3.4,Chromosome,Rattus norvegicus 8
遺伝子 SGD_32,Gene_ID,Saccharomyces cerevisiae 1
ゲノム TETRAODON_7,Chromosome,Tetraodon nigroviridis 1
遺伝子 TIGR,Gene_ID,Arabidopsis thaliana 1
タンパク質 UniParc,Protein Sequence 1
タンパク質 UniProt,Protein Sequence 34
ゲノム WASHUC_1,Chromosome,Gallus gallus 2
11 の生物種
Species #
Arabidopsis thaliana 1
Caenorhabditis elegans 1
Gallus gallus 2
HIV-1 1
Homo sapiens 16
Multi 40
Mus musculus 5
Pan troglodytes 1
Rattus norvegicus 8
Saccharomyces cerevisiae 1
Tetraodon nigroviridis 1

Ustream.TV で配信してました

今回も Ustream.Tv で配信を行いました。日本との時差があるので、数名しかみていなかったようですが、ノウハウの蓄積というか練習というような感じでやりました。

機材構成としては、MacBook Pro に USB カムで撮影し、内蔵マイクで集音しました。映像は CamTwist.app でキャプションをつけて配信しました。当初は外付けのマイクを準備していたのですが、後述の理由でつかえませんでした。

配信と同時に録画を行いました。スピーカーの許可がえられれば、公開されることになるはずです。こちらはオーガナイザーが確認中です。

海外での一般的な注意点としては、電源事情があげられます。イギリスは240Vの電源なので、外付けのマイクやビデオを持ち込むときはかならず AC アダプターが対応しているか確認してから使用しましょう。今回は外付けマイクとして ICレコーダーをもっていったのですが、AC アダプターが海外対応していなかったことに気づかず壊してしまいました。

KPT

  • Keep
    1. 許可を取ってストリーミングする。
  • Problem
    1. Ustream.Tv の知名度が低いので説明することが多い。
    2. マイクを壊してしまった。
    3. カメラのフォーカスが甘い。
  • Try
    1. 機材の使用練習を事前に十分おこなう。
    2. オートフォーカスのカメラを検討する。
    3. 口頭発表する。