国際開発会議DBCLSバイオハッカソン2010開催のおしらせ

来る2月8日から12日に東京にて国際開発会議DBCLSバイオハッカソン2010を開催いたします。初日の8日にはシンポジウムを開催し、のこりの日程で開発会議をおこないます。参加者募集中です。

ライフサイエンス統合データベースセンターでは、ライフサイエンスのデジタルリソースの統合化をおこなっています。その達成のためにいままでにオープンソースソフトウェアと公共サービスを活用する統合環境の開発や先行研究のサーベイのために国際開発会議バイオハッカソンを2008年から開催しています。Open Bio*ライブラリによるライフサイエンスウェブサービス相互運用性の標準化にとりくんだバイオハッカソン2008、実問題でのアプリケーションにとりくんだバイオハッカソン2009を開催してきました。今年は、セマンティックウェブ技術による生物学的知識の取り扱いをテーマに開催するは運びとなりました。

screenshot screenshot screenshot

データの質の多様化と量の増加の著しいライフサイエンスでは、データからの知識発見のためのより効果的な取り組みがますます課題となってきています。知識発見は、ある側面から見ると、新しいデータの組み合わせによってなされます。データを組み合わせるとはデータ統合そのものです。多様大量データの効果的なデータ統合という観点から LinkedData を支えるセマンティックウェブ技術が有望であると考え、クエリ、データセット、ストア、ツールに問題設定を分割しそれぞれの専門家を内外から参加していただき、課題について議論し問題の明確化をおこない、具体的な開発ターゲットを設定し、開発に集中することや、デジタルデータ共有やセマンティックアノテーション、Biomedical LinkedOpenData などについての情報交換や情報共有を行います。期待する成果としては、この方向の妥当性についての確認やオープンバイオ*共通APIの仕様策定とその実装、幅広いユーザ層それぞれにメリットのあるアプリケーション実装や拡張、Biomedical LinkedData の拡張に向けたセマンティックアノテーションの取り組みの普及があげられます。

クエリは、RDF化データやLinkedDataを利用した、必要とされる生物学的質問への回答可能性やあたらしい質問の実現可能性について扱います。具体的な質問を列挙したり、その回答に必要なデータについて議論します。

データセットは、上記のクエリに答えるためにいま手にいれることのできるデータ(Bio2RDFNeuroCommonsやLinkedOpenData)そして欠けているデータを調査し、必要に応じてデータのセマンティックアノテーションを実施することを計画しています。データのRDF化のためのセマンティックアノテーションが今後普及していくべきことであると考えています。

ストアは、必要なクエリに対するデータのストアシステムの調査や開発を計画しています。トリプルの性質にもとづいた拡張性や検索更新の速度などがポイントになります。

ツールは、オープンバイオ*プロジェクトでのRDFストアやSPARQLエンドポイントへの共通APIの開発、RDFデータの入出力や変換などのツールの開発、エンドユーザーアプリでの応用やテキストマイニングツールの実装を計画しています。たとえば、Cytoscape から SPARQL エンドポイント経由でノードのアトリビュートを追加する機能の実装、BioMartのRDFインポート機能やGalaxyの対応データ型のRDF拡張などが想定されています。

これらに限らず、必要に応じて調査や開発に取り組むことができるようにしていきたいところです。特に、ユーザ層が多様なライフサイエンスでは、データ可視化やユーザーインターフェースが極めて重要になっています。この観点からも取り組んでいきたいです。

参加者募集中

参加者を大きくわけると、オープンバイオBioRuby のなかお、片山さん、後藤さん、Janさん、Pjotrさん(BioLib)、Raoulさん(Main Page · BioSQL)、 BioJavaBioRubyphyloMLのChiristianさん、 BioPythonのBradさん、BioPerlNEXMLのRutgerさん、G-langageの荒川さん、Bio-JETIのAnna-Lenaさん、クライアントアプリ側として Cytoscape の大野さんと西田さん、RDFscapeのAndreaさん、IntActのBrunoさん、Biomart の Arek さん、Galaxy の James さん、InterMine の Gos さん、DBCLS Galaxyの山口さん、セマンティックウェブ側としてBio2RDFのFrancoisさん、Cell Cycle OntologyレビューのErickさん、NeuroCommonsAlanさん、Concept Web AllianceのMatthiasさん、テキストマイニング側としてMammanDさん、TogoDocの山本さん、 ReflectのHeikoさんとVenkataさん、exEBIのAlbertoさん、マッシュアップ系の Pierreさん@yokofakun、システム生物学の荻島さん、UniProt RDFのJervenさんとThomasさん、BioMOBYからMarkさんとLukeさんとPaulさん、UTGBとデータベース系の斉藤さんとなっています。

海外からの参加者は予算の許す限り招待しています。国内からの参加は、通常の国際会議スタイルになっています。会場は本郷地区の東京大学工学部12号館にあるライフサイエンス統合データベースセンターですので、関東圏の方はもとより国内の方の参加を期待しております。特に学生のかたの参加を歓迎いたします。参加費は無料ですので、開発会議に参加を希望されるかたは参加登録を参照して応募してください。

screenshot

初日(8日)にシンポジウムを開催します。いくつかのトークで問題設定の共有をはかり、後半にオープンスペースの時間をとって、サブグループの形成を試みます。シンポジム後のレセプションで交流を広げ、ハッカソンのスタートアップ図ります。二日目以降はグループに分かれ、ひたすら開発を中心とした開発会議を行います。朝と夕方に集合して進捗を共有し、夜には情報交換を行うスタイルになると思います。最終日(12日)に、成果報告会を行い、成果の確認とその後のゴールを設定し、報告書の概要を決めることになります。13日以降には、ポストハッカソンイベントとして報告書の作成が計画されています。初日前にはプレハッカソンイベントも計画されていて、前乗りで参加可能な方とのブレインストーミングBioRuby開発者ミーティングが計画されています。


国際開発会議DBCLSバイオハッカソン2010 開催概要

screenshot

まとめ