圧縮索引

2013年度の文法圧縮の進展

年が明けて2014年の1月ももう半分まで来てしまいましたが、調度良い時期ですので, 2013年の振り返り記事の代わりに2013年の文法圧縮の進展を振り返ってみたいと思います。はじめに文法圧縮を簡単におさらいすると, 文法圧縮とは入力となるテキストのみを表…

大規模フィンガープリント類似検索のための簡潔マルチビット木の実装を公開しました

以前のブログで紹介した簡潔マルチビット木のc++による実装 (Succinct Multibit Tree (SMBT)) を公開致しました。ソフトウェアーはgoogle codeからダウンロードすることができます。 http://code.google.com/p/smbt/SMBTは去年のWABIで発表した内容にもとづ…

MLAB2012で大規模化合物フィンガープリントの類似度検索のための簡潔データ構造に関する研究発表を行いました

8月6日,7日に北海道大学で開催された、機械学習とバイオインフォマティクスのワークショップMLAB2012にて研究発表を行いました。 http://www.cris.hokudai.ac.jp/takigawa/mlab2012/発表内容は大規模化合物フィンガープリントデータベースのための新しい簡潔…

ESPによる文法圧縮の実装を公開しました。

2012-02-04の記事 http://d.hatena.ne.jp/tb_yasu/20120204 のESPによる文法圧縮の実装に関して問い合わせが数件ありましたのでソースコードを公開しました。今後のアップデートのしやすさを考慮してgithubにアップロードしました。 https://github.com/tb-y…

文法圧縮 (Edit Sensitive Parsing (ESP))を実装してみた

ALSIPの時に聴いて気になっていた文法圧縮法Edit Sensitive Parsing (ESP)を実装しました。文法圧縮とは、与えられた文章から曖昧でない文脈自由文法*1をもとめることにより圧縮する手法です。文脈自由文法のサイズは、導出規則の右辺の終端記号と非終端記号…

大規模グラフデータベースの類似度検索ソフトウェア(gWT:graph-indexing wavelet tree)を公開しました

昨日のブログで紹介した大規模グラフの類似度検索のC++による実装(gWT:graph-indexing wavelet tree*1 )を公開しました。googlecodeよりダウンロードすることができます。初めに、gWTはgwt-buildによりグラフデータベースの索引付けを行います。以下にサンプ…

SDM2011でwavelet木を用いた大規模グラフデータベースの高速類似度検索手法について発表しました

4月28日から4月30日に開催されたデーターマイニングの国際会議 SIAM Conference on Data Mining (SDM2011)にてwavelet木を用いた大規模グラフデータベースの高速類似度検索手法について発表してきました。Yasuo Tabei and Koji Tsuda: Kernel-based Similari…

FM-index++を公開しました

FM-indexのC++による実装 FM-index++を公開しました。http://code.google.com/p/fmindex-plus-plus/FM-index[1〜4]とは、圧縮全文索引の一種でO(n)時間とO(nlgσ)メモリー(n:テキスト長、σ:文字種類数)で構築することができます。最近では、テキスト処理ばか…