Parallax Image

Cutls Code Archives


SNZ 2016

結局のところトゥートの検索ってどうなったの2019

カテゴリ:Mastodon 投稿日:2019年3月25日

2020も書いたよ

https://blog.cutls.com/2020/05/16/toots-search-2020/

この記事執筆時点の情報を書き連ねる。

Mastodonの投稿(=トゥート)を検索するということはだれしもがやりたいことではあるのだが、その需要とは裏腹に供給が間に合っていないのが現実だ。
Mastodonアンチ論者の主張の1つとしてもよく挙げられるし、TwitterとMastodonの比較対照を語る上でも見逃せないポイントになっている。

なぜ存在しない?

潤沢な計算機資源(つまり全文検索するには金がかかる)ということなのであろう。1TBもあればトゥートの情報保持は(メディアを含めなければ)十分であろうが、それを上(新)から下(旧)までくまなく部分一致検索をすることは、スペックのよいコンピュータでないと膨大な時間がかかるという話である。

それでも我々は全文検索をしたい。

現在有効なツールを紹介する。以下個人の主観。

tootsearch

Elasticsearchを利用した検索ツールだが、検索データ保持期間は3日。APIが用意されているため、Subway Tooterなど一部のクライアントからも検索できる。対象を絞ったえらい棒探索により、検索パフォーマンスが高いのが特徴。作者様も活発に活動しているため、安心して利用できる。

いわゆる大手インスタンス等いくつかのインスタンスの連合TLから取得しているため、基本的に検索範囲の狭さで困ることはない。

マストドン検索ポータル

サーバーがダウンしたりしなかったりを繰り返すサービス。だいたいMySQLのコネクションをモリモリしすぎて落ちてる印象。知らんけど。

HTTPSに対応せず、APIの提供は限られた許可制のもの。公式アカウントは一年弱更新が無い。

TheDeskについても後々API利用を申請したがすでに公式が蒸発していたため無視された。 某検索ポータルが使えるオープンソースクライアントのソースコードにAPIキーが直書きされていたのでそれコピペしてもバレんやろ…と思ったりもしたが、結局していない。

検索できる範囲は限られたインスタンスのLTLであるため狭い。いわゆる3大インスタンスのトゥートは取得できるため大きなビハインドではない。

マストドンリアルタイム検索(Userlocal)

おそらく連合を参照し、おそらく2, 3か月データを保持している。推測でしか語れない謎サービスだが、なんだかんだ安定して普通に検索できる。APIはなし。

マストドン検索 by google

ググってくれる。データの保持はGoogle任せ。正確にはトゥートだけの全文検索ではないが、エゴサの達人ならGoogle検索演算子を駆使して掘り出されもしなかったトゥートをGETできる可能性もある。天下のGoogleなので表記揺れ対応などはできるが、日によって検索結果が違ったりするのでよくわからない。

Tootdon

これを語る時が来たようだ…。分散SNSフォーラムによるサードパーティ製クライアントシェアNo.1を独走するこのクライアント。公式アカウントの昨年夏以降の行動が全く読めない。ただ、認証情報を無条件にTootdonサーバーに送っていると思われ、またTootdonユーザーの見ているTL上のトゥートが魔法のような技術で検索できるようになっていると推測している。
オブラートに包むといろいろセキュリティ的にグレーなので、これ以上の言及は避ける。

Misskey(misskey.xyz)

伏兵。村上さんの力によりActivityPub内のトゥートの全文検索が可能になっている。ログインが要るし、というか分散SNSの1つであるので検索エンジン的な使い方を推奨するわけではないが、覚えておくといいだろう。