2013.06.03 Monday
スポンサーサイト
一定期間更新がないため広告を表示しています
スポンサードリンク | - | | - | - | - | - |
lucene-gosen、solrなど。あと、興味のあること。
新ブログに移行中。http://blog.johtani.info
2012.11.26 Monday
第9回Solr勉強会 場所:VOYAGE GROUP 会議室 日時:11/26(月) 19:00〜21:00 1. Atilika Inc. Christian Moenさん タイトル:Who we are, what we do, and a little bit about Kuromoji ◎Atilikaの紹介。 会社の目指すもの ・BigData、検索、NLP ◎プロダクト Kuromoji:形態素解析エンジン Akahai:日本語クエリサジェストエンジン Keywords:日本語キーフレーズ抽出 ◎Kuromojiの紹介 3.6からデフォルトで使える。 ◎将来の改良の話。 ・踊り字対応(コミット済み) ・漢数字に関するチケット&パッチのお話。 ・ユーザ辞書の重複エントリ改良とか(すみません、パッチ書きます。。。) 2. 株式会社ドワンゴ 吉村総一郎さん(@sifue) タイトル:Solr@ニコニコ生放送 ◎ニコニコ生放送の紹介 ・1日に10万番組。。。 ・10/17にバージョンQをリリースしたら、トップはひどい叩かれようでした。。。 ◎これまで。 Jackrabbit→Lucene→Solr→ニコ生のSolr ◎退職者と入れ替わりでSolr担当。。。 今回は資料と環境を調べて発掘した機能のお話。。。 ◎機能 キーワード検索。論理クエリ、などなど。 ◎利用してる環境 3.4ベース+Jetty マスタスレーブ構成(スレーブ2台) 途中は分散インデックスを自分で実装? ボトルネック自体がDBからのデータ収集だった ◎インデックス対象 ・見れるのは過去1週間と過去の公式番組すべて。 この部分だけ検索可能。 ・更新頻度の高い情報に「来場者数」「コメント数」 ◎インデックス作成 ・バッチにて更新 ◎アナライザ CJKTokenizerFactoryを利用 HTMLStripCharFilterFactory Bi-gramなので、「FF」とか「DQ」に弱い(FF1でFF13とかヒットしちゃう) 検索精度は悪いと言われてるみたい。 ◎1日のリクエスト ピーク時40QPS程度 5分おきにスパイクがある。(ユーザが作ったツールによる検索とか。。。) ◎UPDATEリクエスト ピーク時は80QPS ◎開発用のJettyのマルチテナント機能を利用したSolr環境の提供 ◎台湾語とか英語もやりたいなぁ。 3. 株式会社マーズフラッグ 柳吾朗さん(@hitode7456) タイトル:ドリルダウン色々 ◎Facetの紹介から ◎楽天でのドリルダウン例(これはFacetの紹介での例であり、実際にSolrが利用されているかはわからないです。) ◎多段ドリルダウン(ファセット)のお話。 アプリを実装するときの考え方とか。 ◎実直形、工夫形、PivotFacet Q&A Q:3つの性能系のコストは? A:まだ調べてないです。残り2つは工夫形がいいですよ。と 次回、調べた結果の発表もやってほしいなぁ。 4. 兼山元太さん (@penguinana_) https://speakerdeck.com/penguinco/solrtoelasticsearchfalsebi-jiao タイトル:SolrとElasticsearchの比較 ◎クックパッド! ◎elasticsearchの紹介 ◎比較サイトもあるよ! http://solr-vs-elasticsearch.com ◎サンプルデータ・セット(ライブドアグルメ)でサンプル実装。 https://github.com/penguinco/ld_gourmet_search ◎APIの紹介 REST APIがちゃんと造られてますよと。 設計時点でコレクションなどがURLに含まれてるのがいいよねと。 ◎_analyzeによりアナライザーもAPIとして公開されてるよと。 ◎Kuromojiも対応してるよ! ◎DynamicFieldよりも便利だよ。 ◎クエリのDSLが違うのでちょっとアレ。 ◎スコアリングも色々できるよ。 ◎感想 ・機能面の不足なし ・APIがいい コア追加とか、curlだけでできるのがいい。 ・習得が容易(Solrやってると機能とか似てる) ・大規模じゃなくても使えそう ◎分散検索がデザイン時に組み込まれてるのがいいよね。 write consistencyなどがインデックスごと(コレクションごと?)に設定可能なので便利。 ◎multi-tenant open/closeなどができる(時系列データとか) shard allocationなどの細かな制御も可能ですよと。 ◎plugin 色々プラグインがあるよ。管理画面もプラグインであります。 プラグインもコマンド一発で追加可能。 ◎クエリキャッシュがないので、自前でnginx、varnishなどでキャッシュが必要。