スポンサーサイト

一定期間更新がないため広告を表示しています

スポンサードリンク | - | | - | - | - | - |

エンジニアのためのスキルアップ勉強会『Tech Compass』 #tecomp ― Vol.2 「人気Webサービスの作り方教えます!」に参加しました。

第2回目も参加しました。
とりあえずメモ。
自分には欠けてる視点の話しなので面白かった。
ちょっと寒かったなぁ。


エンジニアのためのスキルアップ勉強会『Tech Compass』 #tecomp ― Vol.2 「人気Webサービスの作り方教えます!」 ―
日時:2013/04/23 19:00
場所:パレスサイドビル9F マイナビルーム

◎自己紹介
 ●株式会社Zaim/閑歳孝子
  小学校3年からFMVで草の根チャットとかにつないでた。(すげー)
  これがいい記事ですよ。http://www.1101.com/umeda_iwata/
  テレビとかで紹介されてるZaimやってます。
  3つの基準  
  ・日常的に使うもの
  ・普通の人が使うもの
  ・少なくとも自分は使うもの
  サービスの良さの基準
   縦軸:影響の深さ
   横軸:影響する人数
   この面積が大きいのがいいんでは。

 ●株式会社ワディット/和田裕介
  いろいろ作ってます「カウントダウンチューブ」とか「君のラジオ」とか30〜40くらい作ってます。
  ・「ボケて」ってのやってます。
   600万ボケ。アプリ120万DL   
  僕らがつくるための5Wについて
  ・なぜ?
   ・サービスの根本となる「哲学」をみんなで共有できるかが重要
   ・内向けのビジョンも大事
  ・何を?
   ・ユースケースで整理する
  ・いつ?
   ・つくろう!すぐ作れるようにしようねって感じ
  ・誰と?
   ・最強のチーム。意思決定がはやい。
  自分主体でサービス設計して、作りなおすのをためらわない

◎ディスカッション
 Q:どうしてサービス作ったの?
 A:エンジニアへのあこがれから、サービスを作った(閑歳さん)
   ものづくりという意味では、Webサービス以外もあるけど?(馬場さん)
   学内のSNSのようなものを作ってて、アクセスが伸びるのが面白かった。(閑歳さん)
   大学でlastfmみたいなものを研究してて。。。(和田さん)
   社会に出てサービスを作るまでの話は?作って稼ごうって思ったのは?(馬場さん)
   あんまりなかった。(閑歳さん)
   すでに起業してた。サービス作ると実績として認められて仕事が入ってきてた。(和田さん)
   直接あった時に反応がもらえるのが楽しい。(和田さん)
 
 Q:どうやって、チームを組み立てたりして開発とかしてきたのか?(馬場さん)
 A:「ボケて」まとめサイトでブレイクしたけど、アクセス数が落ちてない。
   同年代の知人で色々とチームが組めてて楽しい(和田さん)
   はじめは一人でやってて、しかも構想とか。あとロゴだけ最初に作ってた。
   ノマド的に作業してました。(閑歳さん)

 Q:チームがバラバラですが、困らないですか?
 A:今のところ困ってないです。もっと人が増えると困るかもしれないですけど。(閑歳さん)
   それぞれが他に職を持ってるので特に困ってないです(和田さん)
   向き不向きはあるんじゃないかなぁ。10人とかになるとどうなるか不明(閑歳さん)
   GoogleのMLでレスが早ければ問題ないかな。(和田さん)
   あとは、チームが大きくならないように上手く分割してる(?)(ふたりとも)
 Q:ユーザの声の吸い上げ方、サービス改善の判断材料は?
 A:ユーザの声は聞くけど、全部取り込むものではない。
   細かな点はユーザの声を取り込むけど、軸はブレないようにしてる(閑歳さん)
   古参ユーザよりも新しいユーザを取り込むのが大事。(和田さん)
   nanapiのけんすうさん
 Q:品質はどうしてる?
 A:セキュリティは絶対。(閑歳さん)
   品質を気にするってのは難しい。品質を担保できる仕組みを作るとこまでいけるようにしたい。
   投稿される画像はチェックしている。(和田さん)
johtani | 勉強会 | 20:45 | comments(0) | trackbacks(0) | - | - |

Heroku Meetup #8 TreasureData + Waza Report!! に参加しました。#herokujp

heroku気になってるのに使ってなくて、TDのアカウント作ってデータアップしてない軟弱者ですが、参加して来ました。。。
とりあえず、大事なことです。まずは、上記の書籍を買ってください(って中の人が言ってました。)
イベントページはこちら

総じて、herokuの中のエンジニアの方たちがすごく情熱があって、ユーザと会話をしたがっているという感想だったようで、まだまだ、よくなりそうだなぁと。
私は、ベースがJavaなので、JavaやScala、Playで使ってる方の感想とか聞きたいかなぁ。
あと、herokuとS3の組み合わせだと思うんですが、料金とかはAmazonとheroku両方に別々に払うのかな?とかはちょっと気になりました。
AWSのアカウントも作ってS3にバックアップあげるの作ろうと思って手をつけてない軟弱者ですが。。。
今月は余裕がありそうなので、TDとか触ってみようと思います。。。

懇親会ではTDのmuga-sanとお話できて、いくつか気になってた話ができたのでスッキリしました。
あと、株式会社サムライズムの名刺頂きました。写真載せろって言われたけど、また今度w

最後に、大事なことです。まずは、上記の書籍を買ってください(って中の人が言ってました。)

以下は、いつものようなメモです。最後の方はちょっとくたばってたのでメモがおざなりになってます、すみません。

日時:2013年04月04日(木) 18時30分 - 21時00分
場所:日本創生ビレッジ 事業開発支援オフィス 東京21cクラブ コラボレーションスペース


◯Ayumu Aizawa(Heroku, Inc.)
 ・■
  PostgreSQLが9.2になりました。
 ・◆
  メモリが2倍。βテスタ向けにスケールアップ。
  JavaとかJavaとかJavaとかデプロイしてもいいよね。
  けど、メモリ2xは価格も2x!
 ・●
  Heroku OAuthを提供。Experimentalだけど。
  heroku-bouncer使うとOAuthが楽になる。

◯Treasure Data and heroku
 Masahiro Nakagawa(TreasureData)
 ・会社紹介
 ・フロントエンド部分の担当(fluentd)
 ・1500億レコード!?
 ・投資家の中にHerokuの方がいる。
 ・ターゲットは?
  Cloud + Big Dataが対象
  Hadoopは立ち上げるのはいいんだけどメンテナンスコストが。
  Hadoopの処理基板を提供
 ・Hadoop生ではなく、Plazmaを使っていたりする。
 ・Viki
  herokuにtd-agent入れて、TDにデータ送って、Postgresに書き出して使ってる。
 ・TDはどうやってheroku使ってるの?
  Webコンソール。
   http://console.treasure-data.com
  Webサイトは大体heroku
   fluentdとかも
 ・herokuのaddonとしてtd-agentを提供してる。
 ・STDOUTからTDにデータ送るのもできるよと。


◯Waza Report
 ◯吉田雄哉さん(co-meeting)
  ・まずは、co-meetingの紹介。
   1文字ずつ送信してるよと
  ・Chief Talk Officerらしいw
  ・MongoDB使ってるって言ったら、herokuのPostgreSQLの人と話して、鼻で笑われたw
  ・すごく熱意のある人達がエンジニアとして働いてる
  ・ユーザの声をきちんと聞いてくれる体制ができてるミーティングだった。
  ・「クラウド」って単語を聞いてない。勉強会のレベルもすごい。

 ◯山本裕介さん(株式会社サムライズム)
  ・ニッチなブログ書いてます。
  ・Java屋が見るWaza
   Tシャツプレゼント!
  ・OSS好きが多い。
   Java/Scala系の話が少なかった。Scala界隈では人気みたい

 ◯岡村純一さん(株式会社シャノン)
  ・スライド1枚も作らずに喋る人とかいました。
   (すごい。。。)
  ・Django

   Playに似てて面白いかもと
  ・Ruby2.0
   Matzが喋ってたとか
  ・クロージングはビールが出てきてた。
   交流パーティみたいになってた。CROSSがそれに似てますね。日本でやってるイベント

 ◯小西俊司さん(株式会社フレクト)
  ・バックエンドの性能とかを収集して見ることができるツールがあるらしい。
  ・クエリを登録しておくと監視ができるツールとか。(TDとかぶってる?)
  ・やっぱり、情熱的だし、OSS好きでオープンな感じのエンジニアが多い。


◯Heroku LT
 無慈悲なLTです。3分たったらケーブル引っこ抜きます。
 (最後はくたばっててあまり聞けてない。。。)

 ◯山本 裕介(株式会社サムライズム)
  ・herokuでJava7!
   Java6終わってますからherokuも移行してね!
 ◯竹野 淳(Grow!)
  ・BoxTo?
  ・コラボレーター募集!
 ◯小西 俊司(株式会社フレクト)
  ・ExcelのテンプレートをアップロードしてGETでパラメータわたせばいいよみたいなの作ってる。
 ◯大久保英樹(Job-Hub)
  ・CarrierWaveとかの注意点
johtani | 勉強会 | 11:20 | comments(0) | trackbacks(0) | - | - |

第10回Solr勉強会を主催しました。#SolrJP

記念すべき!?第10回のSolr勉強会です。

発表者が無事あつまり(本当にありがとうございました!)、今回も盛況な感じでほぼ満員でした。
ツイートのおかげか、キャンセル処理もちゃんと行なってもらえて助かりました。
開場直後にドタバタしてしまい、すみませんでした。。。

とりあえず、第一報の記事をアップしておきます。
懇親会での話とか感想はまたあとで。

関口さんの資料は実は、前もって見たことがある資料でした。
最初の発表にしては、少しむずかしいと思った方もいるかなぁと。
ただ、類義語の辞書は結構作るのが大変だし、探しても出てこないものなので、面白い話だったんではないかなぁと。
「ミスチル」はできないけど、「マツケン」ができるのは読みがあるからとかなんですかねぇ?って質問するの忘れてた。

尾形さんの話は結構、みんな通ってきた道かもなぁと思いました。他の方も同じ経験してるんじゃないかなぁと。
ただ、一人でやるのはすごいですよね。検索って結構人数が割かれてない場合が多いのかなぁ。
あんまり使われていないというのが少し悲しい話でしたが。。。
サーバを要求すれば結構なスペックが用意してもらえるのはうらやましい限りですねぇ。
スキーマ変更については、レプリケーション機能を使うと追加などならうまくいくんじゃないでしょうか。(そんなツイートもありましたよ。togetter読み返すと出てきます。)
フィールド名を変更しないで型を変更するなどしたらおかしくなると思いますが。

野口さんの話はなかなかチャレンジングでいいなぁと思いました。よく挫けずに頑張られているなぁとw
試行錯誤した仮定も発表してもらえると同じ轍を踏んだ人が助かると思います。
大きな企業で本格的に横断的な社内検索が出来る仕組みが出来上がっているって話はなかなかきかないかなと。
どうしても、社内検索とかお金が出なくて手を付けられないといいう悲しい話が多いので、こういう話は共有したい情シスの方がいっぱいいるんじゃないかなぁと。
ManifoldCFが結構地雷を多く含んでいるのは大変そうですね。。。
SolrにもTikaが入っていたりしますが、個人的にはTikaがやるべき処理は前処理と思っているので、Solrとは別の場所でやりたいとか考えていたりします。
ManifoldCFがその辺りまでやってくれるかまではちゃんと調べてないんですが。
Solrは検索だけに注力させることで、役割を分割できるので、性能の対処とかを行うのが楽になるんじゃないかなぁとか。
ManifoldCFで困ってる人は他にもいるようなので、ジャンジャン使って、どんどんチケット上げて貢献してもらうといいかと。
また、定期的に発表してもらうと面白そうだなぁと。

弘瀬さんの話は結構興味ある方がいたんじゃないかなと。
SolrCloudは壮大だなぁと思いつつ、手を出しづらいと思ってる方が多いと思います。
実際のサービスに投入して試行錯誤された話を細かな数値も上げて発表してもらえるのは検証をやる方の助けになります。
残念ながら、私もSolrCloudは興味有りつつちゃんと追っかけてないので、途中でnodeとshardとcoreの関係がわからなくなってしまいましたので。。。
もう一度勉強して、スライドを見たいと思います。。。
分散検索(1つのインデックスが複数のcoreやshardに分割された状態)が絡んでくると、複数台の検索の性能のうち、一番遅い性能が最終的な検索性能に響いてくるので、検索リクエストの偏りとかも影響が出たりするかもしれないなぁと。
そういった意味でも試行回数を3以上で計測した結果で再度発表してもらうと面白そう!(なんか、下心見え見えですがw)

前回、今回も感じたのですが、もう少し質問をしてもらえると発表された方も励みになるかなぁと思いました。
質問しにくい雰囲気になってるのでしょうか?参加者が結構いるから質問しにくく感じたりするのでしょうか?
そのあたりをもう少しうまくやれるようになにかコメントもらえると嬉しいかなぁと。
運営で気になった点などもコメントやツイートをいただけると今後の改善にも役立てますので気兼ねなく連絡いただけると助かります。
開場がドタバタしすぎとか、ハッシュタグがわからなかったとか。

今回は思ったよりも懇親会に残る方が少なめでした。
コミッターの方(LuceneやManifoldCFとかlucene-gosenとか)が複数いたり、Solrを結構触ってる方がいたりと面白い話が聞けそうだったのですが。。。
Kuromojiのユーザ辞書の改良点をチケットにあげるって約束したのでやらないとなぁ。
早く帰るつもりだったのに気づいたら23時でしたwやっぱり色々と話ができるのが楽しくて。。。
駅前の機動隊とかびっくりしながら帰りました。
今回、お話ができなかった方もいらっしゃるかと思いますが、気兼ねなく、ツイートしてもらったり、声をかけていただければと。

あと、常に発表していただける方は歓迎しておりますので、連絡いただけると非常に助かります!
こんな話が聞きたいなどでもいいかと思いますので、連絡いただければと。

#SolrJPもtogetterにまとめてもらいました。ありがとうございます。
以下は、いつものメモになります。


日時:2013/03/26 19:00 to 21:00
場所:VOYAGE GROUP 会議室

1. 株式会社 ロンウイット 関口 宏司さん
  タイトル:Wikipediaからの類義語知識の自動獲得について
 発表資料はこちら
 ・「辞書型コーパス」という単語は造語かもしれません。
 ・なんでこんなことを?
  →類義語辞書を自動生成したいから。
 ・自賠責保険、自動車賠償責任保険を例にSynonymFilterの説明。
 ・Wikipediaを入力として、類義語辞書を作成するときにLuceneのインデックスを活用してる。
 ・類義語候補の見つけ方
  いくつかヒューリスティクスな処理とかも入れてます。
  日本語Wikipedia固有なもの。
 ・実際に導出された単語も載ってる。
  FTPなども導出で来てる。
  丸ビルとかも。
 ・導出できなかったものもあります。
  「十六進法」が「十進法」になってる
  「ミスチル」も無理。
 ・ミスもあるけど、類義語が存在しない場合になんとなく、使う辞書としては採用できるのでは?
  類義語検索対象のブーストを小さくするなどをすれば役に立つ

 Q:類似度にしきい値を用意したりしてますか?
 A:min.scoreという値を用意し、足切りをしている。
 Q:ベクトルを作るという話があったが、品詞でフィルタリングとかしてる?
 A:名詞に限って処理してます。名詞に限らなくてもいいかも。。。(若干聴き逃しました)
   重みの高いn件をベクトルの対象にしてます。

2. グリー株式会社 尾形 暢俊さん
  タイトル:GREEにおける全文検索の歴史
 発表資料はこちら
 ・GREEさん、検索はないがしろにされてる。。。
  一人でつくって、一人でメンテナンスしてる。
 ・GREEの検索は右上の検索ボックスが
 ・2007年はSennaつかってました。
  Tritonnに移行。2009年くらいまで。
  やっぱり安定しない+MySQLのバージョンアップしたいけど、追従できない
 ・2012年初頭までLuceneでやってた。(結構古い)
  フラグメントが発生してOptimizeすると、検索サーバが使えなくなる。。。
  検索しにくるサーバが1000台いるので、Optimizeかけるときに、1000台のサーバの設定を書き換えるとかしてた。。。
 ・現在まではSolrをつかってる。
  Luceneのバージョンも古かったので100倍くらい速くなった。
 ・Solr本が必須ですよ!!!
 ・Lucene+Tomcatから移行。
  移行に気をつける点として、I/FをそのままSolrに置き換えると。
  Solr返却のXMLをカスタマイズしたり、クエリをSolr向けに書き換えたり。
  あと、メンテナンスが楽になるように。
  40数台のインデックスサーバがあると。
  一人でメンテナンスしてるから、楽になる方法が重要
 ・レプリケーションで、Optimizeの影響が出ないように。
  キューをつかって、マスタに登録して、スレーブにレプリカを配布
 ・スキーマが7つ
  あんまり使われてなくてかなしい。。。
 ・負荷のグラフもありました。
 ・RangeQueryを結構使う。
 ・作りこんだ部分
  インデックスのMasterへ分散させる処理とか
  クエリの変換とか人力監視処理とかNGワードとか
  サーバ監視のための仕組み
 ・今でも大変なこと
  スキーマ変更が大変
  スレーブをマスタに昇格とかが手動
 ・今後改善したいこと
  精度を上げたい
  辞書を使ってみたいけど、各国語対応
  あと、自動化とか


3. ソフトバンクBB株式会社 野口 勝義さん
  タイトル:企業内の大規模ファイルサーバ検索事例
 ・情シスの企画版?という立場のかた。
 ・売上に貢献したいのでクラウドサービスとして検索をオプションとして立ち上げてみた!
 ・Solr+ManifoldCFで作ってみたよと
 ・なんでSolr?
  OSSだし、機能が充実
 ・なんでManifoldCF?
  Active Directory連携が使いたかったと。
  社内検索ってやっぱりアクセス権がうるさいので。
 ・ManifoldCFの説明はロンウイットさんの画像を使わせてもらいましたw
 ・ファイルサーバが、70TB。。。

 ・困ったこと。
  ・その1
   ・クローラージョブの構成の最適化どうする?
   ・マルチコアで、クローラーとファイルサーバを1対1の構成にしてみた。
  ・その2
   ・ファイル数が増えるとまた問題が。。。
   ・ファイルサイズが大きい→Heapが足りないエラーとか、MCFのタイムアウトとか。。。
    ファイルサイズのリミットを設けてみた。
    mp4とかでエラーがでるとか。既知のエラーでしたとか。
    ulimitがたりないとか。
    MCFの稀に出るバグとか。。。
    ファイルサーバの不良ブロックとか。。。
  ・その3
   ・クロールに時間がかかる
   ・MySQLでスロークエリとか
    MySQLよく知らないとか言われながらコミッターに対応してもらうなど。
    SSDつかうとか考え中
   ・フルクロールで1週間
    差分でも1日強かかる。
    ManifoldCFだけで対応できないから、ファイルの特徴を元に
    →ManifoldCFを経由しないリアルタイムインデックス更新のAPIを経由してMasterじゃなくて、更新かけると。(特定のクライアントからの方法)
  ・その4
   ・本文データをstored=falseに
    けど、ハイライトできないから、どうにかしたい
  ・ユーザの要望
   ・もしかして検索
    類義語?じゃないよねぇ。テザリング、tezaringuとか
    フロント側で頑張った。(Solr諦めました)
   ・検索スコアも弄りたいとか
    外部データでブーストとかもしたい。External Fieldとか使うといいのでは?とか。

4. 株式会社サイバーエージェント 弘瀬 健さん
  タイトル:SolrCloudの導入事例
 発表資料はこちら
  ・Webエンジニアだったのに、検索エンジニアに!
  ・SolrCloudもサービスインしてると。
  ・SolrCloud概要
   4.0以降の機能とか。
  ・SolrCloudの構成要素
   概念的なもの。Collection、Shard
   物理的なもの。Node、Core
  ・ Simplogってサービスに導入済み。
   ZooKeeperが3台、6Shard、3nodeという形式
  ・性能
   平均レスポンスタイム50msec
    思ったより出てないので、調べてみた。node数とかshard数を変えてみて調べてみた(まだ、模索中。)
  ・色々テストケース試したけど、試行回数が1回だけです。
   詳細なデータが出てるのありがたい(全部はまだ理解できてないですw)
  ・検証まとめ
   ノード当たりのcore数が少ないほうが検索、更新性能がいい
   1コレクション当たりのshard数が少ないほうが検索性能がいい
  ・まとめ
   ・SolrCloudの利点
    クライアントが色々意識しなくていいのがうれしい。
   ・SolrCloudの注意点
    shardの分割機能がまだないので、大変。
    コレクション情報が壊れると検索更新できないとか。4.0だとバグが有った
   ・性能的には素のSolrのほうがいいよと。


johtani | 勉強会 | 21:16 | comments(0) | trackbacks(0) | - | - |

エンジニアのためのスキルアップ勉強会『Tech Compass』@竹橋 ― Vol1 「スマホ時代到来、この先生きのこるエンジニアとは!?」に参加しました。#tecomp

久々にブログ+イベント参加です。
知り合いが開催+出演したので参加してみました。
「スマホ」ってキーワードはあまりなかったけど、面白かったです。


とりあえず、メモ。
余力があれば感想追加します。


日時:2013/03/19 19:00
場所:パレスサイドビル9F マイナビルーム (東京都千代田区一ツ橋1-1-1)
URL:http://atnd.org/events/36966

登壇者:@naoya_ito @yusuke

◯@naoya_itoさんの発表
 最近、感心してること。
 ・RubyMotionやってます。
  今年5月に
 ・AWSもやってるよ。
 ・「継続的デリバリー」の話
  GREEでは毎日デリバリーしてるよと。
 ・Chefの話
  DevOpsとか。
 ・Obama for Americaの話
  GitHubとか使ってた。
 身に付けるべきものは?
  「変化に適応する力」が必要だよね。
 最近は
  Ruby、クラウド、AWS、iOS開発とかやってる、どうしてこうなったw
  先は予測してないけど、変化に適応するには5分でいいからやり続けること。

◯@yusukeさんの発表
 自己紹介が難しい
 ・今やってること
  ブログ執筆
  刺さるツイート研究
  ソフトウェア販売代理店
   思わぬ収穫。InDesign/Illustratorのスキル、ビジネスの仕方w
   会社設立中。
  Webサイト構築・運用
 ・ハッタリが大事
 ・プログラム好き
  プログラミング以外を仕事にしてる。
 ・人と違うことがしたい。市場がない場所での差別化はしない=トレンドに逆行し過ぎない。バランス。
 ・今は種まき中。

◯ディスカッション
 ・2,3年後とか何やってると思いますか?
  @naoya_itoさん
   ドラクエやってると思ってるかもしれませんが、サービス作るコード書いてます。
   将来的な見通しでやってるのか?って言われるとそうでもない。
   ツールとかよりは、コミュニティとかのサービスを作るほうが好き。
  @yusuke
   一定の収入がありつつ、プログラミングしてたい。あわよくばサービス作ったのが当たるといいなぁ
 ・そもそもフリーランスをどう捉えているか?
  @naoya_ito
   いいところ。自由に自分の時間をコントロールできる。
   悪いところ。自分でコントロールしないといけない。
   自分をコントロールしないと厳しい。
   フリーになってわかったのは、会社は人間を働かせるための仕組みをよく考えて出来てる。
   フリーでいいのは、選択した結果に自分が責任を持つというのがいい。
  @yusuke
   セフルマネージメントできたほうがいい。
   しがらみを捨てるためにフリーになるのはおすすめしない。
 ・情報発信を継続してるけど、必要なことか?
  @naoya_ito
   必要とは思わないけど、みんな書いたらいいと思う。
   検索すれば自分が助かるからw
   セルフブランディングのために重要?かなぁ。あまりそれが唯一の方法ではないと思う。
  @yusuke
   発信することで、何に興味を持ってるかをわかってもらえるから、便利かな。
   ブログに残したほうがググって引っかかるよと。
 ・技術の方向性?見つけ方?は?
  @naoya_ito
   直近は、クラウド流行るしiOSはまだ伸びてるしと。
   そっから先はどうするの?
   わからないよね。じゃあ、どうするの?って変化に対応してボトムアップで見つけてくのがいいんじゃないかなぁ。
   人がやってないところを先にやらないと武器にならないけど、どうやって見つけるのか?
   プログラミングやってる時に、その先に必要なこととか、気付きがあるので、手を動かさないとだめだよねと。
  @yusuke
   トレンドを追いかけつつ、知ったかぶりするのは重要
   ある程度ハッタリ+手を動かす

johtani | 勉強会 | 20:28 | comments(0) | trackbacks(0) | - | - |

Hadoop Conference Japan 2013 Winterに参加しました。#hcj13w

金曜日に引き続き、イベントに参加して来ました。(仕事。。。これも仕事だよ。)

「Hadoop Conference Japan 2013 Winter」です。
普段、Hadoopを触るのも少ないのですが情報を仕入れときたいなぁということで。
ビッグサイト
今年はビッグサイトですよ。そろそろ無料のカンファレンスもキツイのではないでしょうか。。。
こちらの写真はセッション会場。今回もすごいです。。。
壇上。相変わらずすごい演出

簡単ですが、聞いていた感想です。
全体的に、Hadoop本体の話ではなく、エコシステムと呼ばれる周辺のプロダクトの話や実際に運用している実例が増えていました。
だいぶ普及期に来たのかなぁと。そして、自分の不勉強を実感できたなぁと。
(あと、TreasureDataに絡む話が多いなぁと言うのも印象です。そういうセッションを選んで出ていたのかもしれませんが)
懇親会まで残っていたのですが、結構、すごい方たちの顔ぶれだなぁというのを今更ながらに実感するとか。
(ハチ象Tシャツを着ているすごい集団でもありましたが。。。)

以下はいつものメモになります。だいぶ金曜日のイベント後で腑抜けてるのでメモが雑ですが。
◯ご挨拶
 Doug Cuttingさんのビデオ(あんまり聞けてない) さすがのhamakenさんのトークの安定感。
 後援はリクルートテクノロジーズさんが大半。
 リクルートテクノロジーズの米谷さんが軽く発表

◯LINEのHBaseを利用した大規模なメッセージストレージ:NHN Japan 中村 俊介
 まずは、LINEの紹介が続く。
 New Yearのメッセージは3倍位だったけど、何とかなっったよと。
 データロスがない。
 サーバ故障からのデータリカバリも自動でやってくれる
 書き込み1ms、読み出し1-10msでできてる
 ・IDC onine migration
  クライアントベースで2つに書き込み
  Incremental replication(新データ)、BulkMigration(旧データ)
  元のHBaseのレプリケータは利用してない(pushだったから。スループットコントロールしたかったから)

 ・NN failover
  2012.10にNameNode障害発生
  HA構成にしてたから問題が発生。
  VIPはHDFSにつかうとリスキー
  現在:
   少ないダウンタイムを許容する

 ・Stabilizing LINE message cluster
  ※あとでHBase触るときに資料見直すくらいで。。。
  Case1:Too many HLogs
  Case2:Hotspot問題
  まぁ、けど1億ユーザのインフラとして使えるってすごいよな。。。  

◯Hadoop meets Cloud with Multi-tenancy: Treasure Data 太田 一樹
 TDもFluentdも有名だなぁ
 Hadoopのメンテナンスとか、つらいよねというのを見てきたのでTD作った
 ・なぜ、BigData+Cloud?
  Hadoopだけみてもバージョンが混在してる+ディストリビューターも多くなってる
  十徳ナイフみたいになってきてるけど、必要なのはナタだよね。というのを提示するためにTD立ち上げた。
 ・なぜCloud?
  ・IaaSベンダーの対象としてるのはSCM。
   オンプレだとHWが陳腐化してくよね→HWはクラウドが主流に
  ・PaaS、SaaSの対象は時は金なり
   バージョンアップとか大変だよねと
 ・TDのご紹介
  唯一の解析用DBを目指して
 ・哲学とアーキテクチャ
  解析とか運用をいかに楽にしていくかというのを主体においたサービスを提供したい?
  いかに速くレポーティングシステムを簡単に構築していくかとかの話
  簡単なインタフェースと目的に集中することで、価値を提供
 ・AWSとの違いは?
 ・アーキテクチャとか技術的な話
  データを集める処理がデータ解析に実際には重要なフェーズ
 ・カラム指向でデータ保存
  実装がどーなってるのかとか、TD内部のHadoopクラスタの運用、バージョンアップとかがどうなってるのかもきになる。(企業秘密だろうけど)

◯Amazon Elasti MapReduceとHadoopコミュニティの関わり:Amazon Web Services Peter Sirota
 ・3つのV
  Volume、Velocity、Variety
 ・yelpのAuto-suggestの例
  カスタマーのレコメンデーションにElasticMapReduce使ってるよと。
 ・razorfishの広告インプレッションの解析に使ってる
 ・Amazon.comでの話
  AWS Public Datasetsの話
  http://aws.amazon.com/jp/publicdatasets/
  IonFluxのDNA解析の話
 ・いろんな分野でのBig Data
  事例がちらほら
 ※わかりやすい英語なんだけど寝不足が。。。

◯ランチ!
 サンドイッチと豚汁とあとなんとかライス。
 TDブースにて、fluentdのTシャツもらったよ!

◯Hadoop's Power to Transform Business:MapR Ted Dunning
 ・Mahaut+Solrの単語が。8時間のレコメンデーションデータの作成が3分に??
 ・Stormにてリアルタイム処理と連携。バッチ処理はMRで。
 ・バッチ処理とリアルタイム処理の間としてのDrill
 ・Drillの概観とできるところの話。
  (あとでスライドで)データ解析のために機会学習の処理とかも投げられそう。
  Q:ImplaraとDrillの違いは?
   コミュニティベースかなどが違うよね(あまり聞き取れず)
  Q:Drillの開発はどのくらいすすんでるの?
  A:。。。
  Q.クエリ言語としてSQLがいいの?
  A.No。というのも、単独の言語ですべてにベストというのはないから。SQLはわかりやすくて良いが、実行が非効率な場面も。

◯Introduction to Impala〜Hadoop用のSQLエンジン〜:Cloudera 川崎 達夫
 ・Impalaとは
  分析に特化した低レイテンシクエリ実行基盤
  Apacheライセンス
  バッチ処理要ではなく、データサイエンティストが試行錯誤するときに利用するのを想定
  パフォーマンスが良い
   実行エンジンはC++とかで実装されてる
   MapReduceに依存してない
 ・MapReduceの問題点
  MR直接は難しい→Hiveとか、M/Rの実装を隠して使いやすくするものが増えてきた
  Hiveを例に説明。MRがベースなので高レイテンシ
    ・Impalaのアーキテクチャ
       機能制限やGA版について言及されてる資料なのが良い
    ・GA以降の話もあり
        ピンチヒッターなのに落ち着いて発表とか凄すぎです。
     jdbcサポートも入ると。
     プランナーはjava実装
     Hiveとの互換性は?→完全互換を目指す。
     開発のプロセスが見えにくいのでは?開発主体がcloudera

 ◯Flumeを活用したAmebaにおける大規模ログ収集システム:CyberAgent 飯島 賢志
 立ち見。
 Flumeのコミッターの人がCAにいたんだ。

◯Log analysis system with Hadoop in livedoor 2013 Winter:NHN Japan 田籠さん@tagomorisさん
 ・NHNJapanのお話
 ・Webサービスのログ解析について話していく
  400+Webサービス
 ・2011年8月にLTしました。
 ・1.5TB/day。。。
 ・batchとstream
  Batch集計も重要だし、Stream処理も重要なので、ハイブリッドシステム
 ・システムーバービュー
  FluentdClusterを中心にして各種ツール、保存先に転送してる。
  これが結構重要。だけど、今日はFluentdの話ではない
 ・Fluentd周りを一人でやってるのか。。。
 ・処理の流れ
  ・ログの収集と、生ログ保存
  ・パース(主にHive用に)、変換、フラグ追加(分類しておくとあとで集計したいとか、保存すべきかを処理可能に)
  ・Hiveにロード
 ・第1世代のはなし
  すべてbatch処理、Scribe
  遅延が1時間ちょっとあるため、Hiveクエリで結果が見れないとか。
 ・第2世代の話
  Fluentdのstream処理にHadoop Streamingを呼び出せるようなプラグインを書いた
  Fluentd+HoopServerの構成
 ・第3世代
  HoopをWebHDFS
  Fluentdでのオンライン集計
  GrowthForcast、HRForcast
 ・第4世代(ここ1週間でやったこと)
  CDH4でQJMベースのNameNode(Failoverは手動)
  Hiveのスキーマを変更(これはブログに今度書くよ)
  とりあえず、現時点で改善点が思いつかない
 ・総括
  HTTPベースでRPCベースにしたのでコンポーネント切り替えが結構楽
  OSSで公開されてるからいいよね
  公開することにより色々とドライブするよ!

◯いかにしてHadoopにデータを集めるか:Treasure Data 古橋 貞之
 ・自己紹介
 ・ビッグデータ収集の問題点
  ・壊れたデータが入ってる
  ・読み書きの時間がかかる
   ログはサブケースである。メインはサービスとかだから。
 ・トライ&エラー処理が時間かかる
 ・データを分割するのが基本的なアイデア
  失敗した時のリトライが楽になる。さらに、それをStream処理すれば良いよねと。
    ・flumeのお話
    ・fluentdのお話
       バッファリングは性能アップも兼ねてる
       設定のクラスタへの伝搬とかインストールはpuppetとか使おうねと。
       プラグインのインストールが楽
    ・いくつかのプラグインの紹介
    ・TDへのデータ投入のお話
    ・最後にmuddydixonさんのプラグインの宣伝がw

◯Hadoopの次に考える分散システム技術:Microsoft 萩原 正義
    ・CAP定理の克服をどうしていくか
    ・CAPのおさらい
    ・Lease
       クライアント主導、サーバ手動とか
  (理論重視の話で最後のセッションには辛かった。。。頭が疲れててついていけませんでした)

おまけ
今回頂いたノベルティなどを写真に撮ってみました。(ランチはお腹すいてて写真取らずに食べちゃいました。。。)
ノベルティ色々
Hiveロゴへの愛を語ってHive Tシャツをゲット。
FluentdのTシャツももらいました!
Hiveステッカーなどもゲット
メッセージボード
あと、メッセージボードなるものがあったので書いてみました。一応、Hadoopに絡んだことですよね!?

johtani | 勉強会 | 00:50 | comments(0) | trackbacks(0) | - | - |

エンジニアサポートCROSS 2013に参加(+お手伝い+モデレータ)しました #cross2013

1/18(金)に開催された、エンジニアサポートCROSS 2013で「検索CROSS」セッションのセッションオーナー(モデレータ)をやって来ました。

@muddydixonさんに昨年の夏くらいに声をかけていただいたのがきっかけです。
こういったイベントの運営のお手伝い(ほとんど何もしてない)も初めてでしたし、セッションオーナー(モデレータ)も初めての経験で色々といい勉強をさせて頂きました(自分の足りない所とか、考慮すべき点がどういったところにあるとか)。本当にありがとうございます。

スピーカーとして登壇していただいた久保田さん、佐藤さん、安田さんほんとうにありがとうございました。
頼りないオーナーで、モヤッとした内容を提示したにもかかわらず、意図を汲み取って話の内容をふくらませていただいてすごく助かりました。
また、会場にお越しいただいたみなさん、ありがとうございました。すこしでも検索に興味をもっていただければ、セッションは成功だったと思っています。
続きを読む >>
johtani | 勉強会 | 22:09 | comments(0) | trackbacks(0) | - | - |

いまさらですが、CROSS 2013で検索CROSSというセッションを担当します

いまさら感満載ですが、今週の金曜日(1/18)に開催されるCROSS 2013というイベントで「検索CROSS」のセッションを担当することになってます。

ここ数年、検索に携わっていますが、検索は色々な技術の組み合わせ(検索用インデックス、自然言語処理、機械学習などなど)でなりったていて奥が深いなぁと感じる毎日です。
そこで、実際のサービスで検索をやられている方、検索プラットフォーム製品を開発している方、自然言語処理や検索に長けた方を招いてつぎのような話をしてもらおうかと。

・現在の事例(検索とその周辺技術)
・今後の検索にクロスすると面白い技術

がっつり検索をやられている方々に登壇していただきますので、検索に興味のある方はぜひ、ご参加を!
登壇者の方々についてはこちらを御覧ください。

検索CROSS以外にも楽しみなセッションが多数ありますので、参加をご検討いただければと。
あと、実はこっちがメインなのですが、夕方からのプレモルタイムも期待できるのでこちらへの参加だけでもぜひ!!
johtani | 勉強会 | 01:29 | comments(0) | trackbacks(0) | - | - |

第一回 JetBrainsユーザーグループ #jbugj に参加してきました

イケメンが主催した「第一回 JetBrainsユーザーグループ #jbugj」に参加してきました。

いろんな製品があるんだなぁと。入り口には良いイベントだったと思います。
個人的に、WebStorm、IntelliJが気になっていたので、参加しました。(あとは、イケメンがやってるイベントだからというのもあるかも)
ちなみに、MBAにしてからインストールはしていたのですが、ほぼ触っていなかったのでこれを機会にちょっと触ってみようかなぁと。

発表は、全般的な製品紹介、ライセンスの紹介から、ライブコーディングあり、ここがいいよ!という話ありという感じでした。

MTLさんのおしゃれな空間で発表を聞いたので、いつもとは少し違った感じでしたでしょうか。

私自身は、発表を聞きつつ、IDEAのCEで色々やってました。
一応、Lucene/SolrのSVNからチェックアウトしたり、lucene-gosenのtrunkをチェックアウトしたり、個人のbitbucketからlucene-gosen-wikiparseとかcloneしてました。
Eclipseで作ったプロジェクトなので、cloneとかチェックアウトしたあとに、Eclipseと並行開発するとどうなるのかなぁ?というのがちょっと気になります。(普通は移行しておしまいなんだろうけど。。。)
ちなみに、lucene-gosenのプロジェクトもSVNからチェックアウトしたらすんなり使えそうでした。
こんな感じ。(lucene-gosenのプロジェクト)
IntelliJ IDEAでlucene-gosenのプロジェクトを取り込んでみた
とりあえず、見た目がカッコイイw

いくつか触ったり、聞いていて気になったのはつぎのような点です。ちょっとずつ触る機会を作った時に調べてみようかなぁと

  • Eclipseのワーキングセット相当の機能はどうするのか?→モジュールとかでやればいいらしい。
  • プラグインってどんなものがあるの?探す方法とインストールの仕方
  • JDKの複数の切り替え方とか
  • Eclipseでやってる人とIntelliJでやってる人の混在チームでの開発とか


で、いつものごとく、懇親会に参加しました。
@mike_neckさんや@sue445さんとお話できたのですが、VCSにEclipseの設定ファイルとか挙げないほうがいいですよねとか、テストが無いプロジェクトってないわーなどの話を聞いて、やっぱり自分はまだまだなんだなぁと認識できるとか面白かったです。
lucene-gosenのSVNにはEclipseの設定ファイルとかアップされてるからなぁ。ホントはAntとかMavenのターゲットでこれらの設定ファイルができるようにしとくのがいいんでしょうねぇ。
まだまだ勉強することだらけですが、コツコツ教えてもらいます

ちなみに、イベント参加者にはショートカットキーが印字されたキートップシールや2ヶ月有効な評価ライセンスがあとからもらえるなどの特典もありました。
普段はEclipseなのですが、運良くライセンスが当たったら本気で乗り換えようかなぁw

ちなみに、Eclipseでもそうですが、私自身はショートカットキーをほとんど覚えてない軟弱者ですので、メニューの場所などを覚えれば乗り換え自体はこんなんじゃないかと。
Mac自体にKeyRemap4MacBookを入れていて、Emacsっぽいショートカットを使うので、覚えられないというのもありますが。
ライセンス当たらないかなぁー

以下はいつもの通り、聴きながら自分用にメモしたものになります。



日時:2012/12/11(火)19:00-21:00
場所:メディアテクノロジーラボ 
イベントサイト:http://www.zusaar.com/event/450003

◎JetBrains製品群、ライセンス形態などの紹介 - @yusuke
 ・日本でヤル気あるの!?→あるある!→じゃあ、ユーザグループ立ち上げるぜー
 ・あくまで情報交換の場を設けるだけ。
 ・アンケート結果
  IntelliJが1番人気
  WebStromが2番
 ・ステッカー(ちょっとかっこ悪いかも。。。)
 ・2名限定でIDEAのライセンスプレゼント!
  ブログ書いて、応募用フォームに登録してランダム抽選
◎IntelliJの基本(インストール〜プロジェクト作成、テスト、実行までのウォークスルー) @yusuke
 ・JetBRAINSはチェコの会社
 ・IntelliJはなんでもできる(AppCodeは違うけど)
 ・.Net系もある(書きそびれた)
 ・YouTrack:課題追跡
 ・TeamCity:継続インテグレーション
 ・読み方は「イデア」じゃなくて「アイデア」だよ!
 ・Community Editionはあんまり機能がない。
  OSSライセンスだと、Ultimateの機能が使えるよと。
 ・仙台の人が一人アドベント・カレンダーやってます。
  http://d.hatena.ne.jp/masanobuimai/20121201
 ・ライブデモ
  黒いインタフェースにするのどーすんだろう?
  →Preferences→AppearancesでThemeで「Darcula」を選択すると黒くなる。
 ・やべ、時間過ぎてたw終わり!

◎IntelliJのここが気持ちいい!→普通IntelliJでしょ? @mike_neck
 ・DQXやってます。
 ・僕とeclipse
  ・新規クラス作成:3ステップかかる
  ・補完の素早さ:
  ・SprintFramework:Ultimateなら対応してるよ。
関係ないけど、TLで質問したので。
 Eclipseのワーキング・セットに相当するもの。
 http://d.hatena.ne.jp/masanobuimai/touch/20121024
◎LT
 ◯WebStormとRubyMineについて @sue445
  ・JavaScriptのIDEとして最強
   jsの補完が素晴らしい。(外部のJSはプロジェクトに入れないと難しい。)
   jsTestDriver pluginがデフォルトで入ってる!
  ・RubyMine
   RubyのIDE
   ソースを追うのが楽。
   erbのインポートしたものも追っかけられるの便利。
   viewからhelperクラスにも飛べる。
  QA
   UMLとか出せるの?→出せるよ。
   DBクライアントもあるよ。

◎JetBrains発のJVM言語Kotlinの紹介 - @ngsw_taro
 アドベントカレンダー(一人)http://atnd.org/events/34627
 ・社畜してます
 ・Androidアプリとか作ってる。
 ・Kotlinな活動
  Pull Requestしてる
 ・マイルストーンなど。
  M4が3時間前に出た!
 ・どんな言語?
  静的型付け、オブジェクト指向、関数型プログラミング的、JSへコンパイル可
  産業利用目的(初めて聞いたかも、この言葉w)
 ・Java大変だよね。
  互換性問題とか
 ・ライブコーディング
  大変そうだwKUnitってのもあるらしい。
 (ゴメンナサイ、IDEA触ってて、流してました。。。Eclipseで作ってたプロジェクトをBitbucketから落としてきて四苦八苦してた)
 (参考にしたサイト(ググった):http://d.hatena.ne.jp/waman/20100506/1273166533

◎AppCodeについて
 ・IDEAには含まれないので、別途ラインセンス購入が必要。
 ・XcodeとAppCodeの違いをライブコーディングで説明。
 ・XCodeよりも補完が良くできてるっぽい。
 GUIはXCodeで作って、コーディングはAppCodeでやるってのがいいですよ。
 ※私が、iOS系のアプリの開発ってやったこと無いからよくわかってないです。。。
  XCodeはコードフォーマットがないのが辛い by @yusuke

johtani | 勉強会 | 21:22 | comments(0) | trackbacks(1) | - | - |

#DSIRNLP 3.5に参加しました。&「Emacs実践入門」を頂いちゃいました!

ヒカリエに行ってみたいという不純な理由で参加してきました。
新しいということもあり、おしゃれで綺麗なカフェでした。
入り口にはおっきな人形も立ってたし。
渋谷の夜景も見下ろせて素敵な場所でした。

で、内容です。残念ながら、本編の3回めには参加していなかったのですが、
今回も濃い話が聞けたので楽しかったです。
論文読まなかったり、基礎を勉強したのに忘れてたりと抜けてる部分が多いので、 こういう機会が与えてもらえるというだけで目からうろこです。

@kumagiさんの「あなたの知らないハッシュテーブルの世界」はハッシュテーブルの基本的な話から、最近の論文で発表されてる内容までをカバーする幅広いお話で面白かったです。
(大学でやってると思うんだけどすっかり抜けてる自分がなんとも。。。)
こういうコアな中身も知ってると、色々とプログラム書いたりするときの見方や考え方も変わってきますよね。
(そんなプログラム書いてないけど。。。)
で、随分おとなしい内容だなぁ?と思いきや、途中からちゃんとLock-Freeの話も出てきてさすがと感心させられましたw
最後はJubatusの宣伝まで入ってたし。(某氏のすごい写真入りで。。。)

@hitoshi_niさんの文書要約の話は、NLPに興味があるので、楽しみにしていた内容でした。
今回もなめらかによどみなく喋られる発表にただただ感心させられるばかりでした。
内容は中級編ということで、文書要約のキモになる処理の文章の短縮の話です。
係り受け木を元にする手法をわかりやすく説明されて、もうなんか、すぐに実装できちゃうんじゃないかと錯覚してしまう始末でした。
係り受け解析というと、CaboChaを思い浮かべてしまうんですが、きっと違う実装なんだろうなぁ。
入門編と次回の重要文抽出の話も聞きたいなぁと。

最後に、技術評論社さんから「Emacs実践入門」など3冊の書籍のプレゼントまでありました。
その他の2冊は購入済みだったのですが、Emacs本は購入したいリストに入れたままでした。
ということで、欲しいですというアピールをしてゲットしてきました!
Emacsはなんだかんだで、もう10年以上使っていますが、そこまで深入りしないような使い方をしていました。
これを機に、再入門してもっと使いこなせるようになろうかと。
また、読了したタイミングでブログに感想かきます。


ということで、以下はいつもの自分用のメモになります。おかしいところ、それ書いちゃダメでしょ的なところのツッコミをいただければ。


日時:2012年11月28日(水) 19:00
場所:渋谷ヒカリエ27F NHN Japan カフェ


◎開会、諸注意など @overlast
 人材募集、会場説明など。
 前回、本をもらった人はブログ書いてね。オライリー様より
 今回も本のプレゼントあり。技術評論社様より

◎あなたの知らないハッシュテーブルの世界(30分 + 質疑応答10分) @kumagi さん
 ・まずは前提。
  データの集合を扱いたいよね
  配列でもできるね。けど、データ増えるとキツイね。
 ・ハッシュ関数の話から。
  リハッシュとかの話
 ・ClosedAddressingとOpenAddressingの話
 ・ClosedAddressingの場合、ポインタ使ってるからキャッシュミスあり。
  メモリとかの話
 ・OpenAddressingメモリに乗るのでキャッシュミスは少ないけど、削除データの扱いがちょっと大変
  →削除がいっぱい有ると処理が面倒
 ・RubyはClosedAddressing、PythonはOpenAddressing
  memcachedはClosedAddressing
 ・Cuckoo Hashing(2001)
  密度50%以上になると急にコストが高くなる。
  挿入がすごく遅くなる。追い出し操作が増えるから?
 ・そこで、Hopscotch
  ググった参考ページ:http://shnya.jp/blog/?p=639
  http://en.wikipedia.org/wiki/Hopscotch_hashing
  密度が上がっても性能劣化がない。
 ・C++でHashtableが欲しくなったら、google_sparse_hashとdense使うよと。
 ・ConcurrentHashmapのお話
  テーブル部分がvolatile、Chain部分はfinal
  insertはChainの先頭に。
  削除は遅い。ReadCopyUpdate。
  空でも1.7M(K?)持ってく
 ・ここからはLock-free系
  ・Lock-Free Hash Table
   http://www.azulsystems.com/events/javaone_2007/2007_LockFreeHash.pdf
   HotSpot VMの人のもの?こんなのやってる。http://www.0xdata.com/faq.html
  ・(聞きそびれた)
  ・日立謹製Lock-free hashtable
   日立のDBで使ってる部品?
   ベンチマークが胡散臭い
  ・最後はJubatusのCM
 
◎文書要約入門 中級編(40分 + 質疑応答10分) @hitoshi_ni
 ・画数が少ないです。
 ・ヒカリエ綺麗ですね。
 ・文書要約とは?
  「機械に」要約させる。
 ・なんで要約?
  長い文章読みたくない。人件費の削減
 ・どうやって要約?
  1.文分割:文書を文に分割
  2.文短縮:就職説を削除するなどして、原文より短い文の亜種を出す。
  3.重要文抽出:要約にふさわしい文を選び出す。
 ・今回は文短縮について
 ・動機
  長い文は文抽出で扱いにくい
  文の中にも重要なところとそうでないとこがある
 ・係り受け木の剪定すると短くできると。
  剪定のルール
   中間ノードは落としちゃダメ
  除去の時に考えること
   重要度
   言語
 ・重要度?
  文節に点数を付ける
  文書集合中の出現頻度とかを採用。訓練データからでもいいよ(ロジスティック回帰とか)。
 ・言語尤度
  言語としての尤もらしさ
  典型的にn-gram言語モデルを使う
 ・そして探索
  基本的には2値ラベリング
  ビタビアルゴリズムではだめ。係り受け制約が考慮できない
  ナイーブいはビームサーチをする。
 ・文短縮の評価
  ・人間が書いた短縮文と比較
  ・ROUGE-Lという尺度などで評価(これしらないなぁ。)
 ・幾つかの論点
  係り受け解析しない
  文節じゃなくて、単語単位でもいいよねとか。
 Q:硬い文章以外の要約ってやってるの?
 A:あります。
   技術的な話だと、係り受け解析がうまく出来ればできる。
   係り受け解析がうまくいけば、そこまで大変じゃない。
 Q:短さが短くなるほど難易度があがるけどどこまでやってます?
 A:短くすればするほど難しい。これは情報の欠落が激しくなるから。
   文法性を担保するのも難しい。
   10文字くらいならできそう。
 Q:実例としてどのくらいの長さをどのくらい短くしてる?
 A:ある程度の長さを20文字にしてくれとか。Twitterに入るくらいにしてくれとか。


頂いちゃいました!
johtani | 勉強会 | 02:00 | comments(0) | trackbacks(0) | - | - |

第9回Solr勉強会を主催しました。#SolrJP

第9回Solr勉強会に参加しました。
皆勤賞です!というか、主催者になってしまいました。
まだ不定期の開催になると思いますが、話をされたい方などいらっしゃいましたら連絡いただければ助かります。

今回も面白い話が聞けました。

最初はKuromojiの開発者でSolrのコミッターでもあるChristianの発表です。
Solr勉強会では初の英語の発表だったんじゃないでしょうか。
Atilikaでやってることの紹介から、Kuromojiの紹介、今後の改良に関する話とひと通り話してもらいました。
途中でKuromoji使ってる人?などの質問があったのですが、残念ながら反応が薄かったです。
漢数字をアラビア数字でも検索できるようにするチケットなど、今後のKuromojiの発展も楽しみです。
(コメントとかパッチを送れというプレッシャーもあったので、パッチ頑張って書きます。。。)

つぎはニコ生でのSolrのお話。結構、赤裸々(前任者がいない状態で引き取ったとか)に語っていただき、ハラハラしながら聞いてました。
やはり、新語や略語で苦労されてるんだなぁと。
複数のサービスや開発者に対してSolrの環境を提供するという話はなかなか興味深かったです。
いろんな人がSolrを触るような状況になってきてるんだなぁと。
基盤となるラッパーのようなフレームワークとかも作ってるのかなぁ?
今後は台湾語や英語への展開も考えられているようなので、Language Detectionなどを利用してみた感想とその内容を今度発表してもらいたいですねw

つぎはFacetPivotの話です。
昔から要望が出ていたのですが、4.0系でやっと使えるようになりました。
ファセットはSolrの売りの一つだと思います。
最初はこの考え方がしっくりこない人もいるかもなぁと。特にデータをどのように作れば、いいのかって悩むこともあります。
その悩んだ内容について発表してもらいました。
実際にどうやって使うかを悩んだ内容を発表してもらうのもいいなと思いました。

最後はSolr勉強会なのに、elasticsearchの洗脳会になってましたw
elasticsearchはSolrと同じ、Luceneをコアに採用した検索エンジンサーバーになります。
Solrとは別のアプローチでLuceneをラップし、REST APIでアクセスしやすくしたプロダクトです。
Luceneのコミッターの方もelasticsearchの開発に参加しています。
分散インデックスを念頭においた設計や、インストールが簡単なプラグイン構造といったSolrとは違ったアプローチがなされており、面白いものになっています。
残念ながら日本で利用されているという話はまだ聞いた事ないですが、だからこそ、触ってみて事例を紹介してみるのも面白いのではないでしょうか。
今回紹介したKuromojiも使えるようになっていたりしますので、日本語でもある程度使えると思います。

以上が簡単ですが感想です。主催者だったのに、@hirotakasterさんや@ajiyoshiさんに受付などをやっていただいたので、いつもの様にしっかり話を聞いてしまいました。
発表者の方、会場提供いただいたVOYAGE GROUP、お手伝いいただいた皆さんに感謝です!

今回初の主催でしたが、本当に助かりました。たどたどしい説明や紹介など至らない点も多々有ったかと思いますが、今後もよろしくお願いいたします。

主催者的な立場として感じたことも書いておこうかと。
無料の勉強会で、ATNDという参加しやすい環境というのもあるかもしれないのですが、キャンセルをきちんとしていただくほうがいいなと思っています。
幸いにもSolr勉強会はここ数回は盛況で、キャンセル待ちの方が結構いらっしゃいます。
ギリギリまで業務との兼ね合いを見つつ、参加しようと思っていらっしゃる方もいると思うのですが、キャンセル待ちで行けるかな?どうかな?と思っている方もいらっしゃいます。
ドタキャンは問題ないのですが、キャンセルせずに欠席は出来れば避けていただけると助かるなぁと。
(残念ながら、きちんと集計をとれなかったので、次回からは集計取ってみようかなぁと)

次回の開催は今のところ未定です。発表してみたい方、こんな話を聞いてみたいなど、気兼ねなく連絡いただければと思います。
このブログにコメントを頂いてもいいですし、ツイートしていただいてもいいので、反応をいただけると嬉しいです。
また、今回至らない点があったなどのツッコミ、批判も気兼ねなく言っていただければと思います。
今後の反省点にもしたいので、ぜひ反応をいただければと!

懇親会でも色々な方とお話できました。(もう少し、Christianと英語で話す努力とかしないとなぁ。。。)
とりあえず、メモをアップしときます。 リンクとか感想とかはまた(飲んだ)後で。。。

togetterでまとめてももらったみたいです。ありがたいです。

第9回Solr勉強会
場所:VOYAGE GROUP 会議室
日時:11/26(月) 19:00〜21:00

1. Atilika Inc. Christian Moenさん
  タイトル:Who we are, what we do, and a little bit about Kuromoji
 ◎Atilikaの紹介。
  会社の目指すもの
  ・BigData、検索、NLP
 ◎プロダクト
  Kuromoji:形態素解析エンジン
  Akahai:日本語クエリサジェストエンジン
  Keywords:日本語キーフレーズ抽出
 ◎Kuromojiの紹介
  3.6からデフォルトで使える。

 ◎将来の改良の話。
  ・踊り字対応(コミット済み)
  ・漢数字に関するチケット&パッチのお話。
  ・ユーザ辞書の重複エントリ改良とか(すみません、パッチ書きます。。。)

2. 株式会社ドワンゴ 吉村総一郎さん(@sifue)
  タイトル:Solr@ニコニコ生放送
 ◎ニコニコ生放送の紹介
  ・1日に10万番組。。。
  ・10/17にバージョンQをリリースしたら、トップはひどい叩かれようでした。。。
 ◎これまで。
  Jackrabbit→Lucene→Solr→ニコ生のSolr
 ◎退職者と入れ替わりでSolr担当。。。
  今回は資料と環境を調べて発掘した機能のお話。。。
 ◎機能
  キーワード検索。論理クエリ、などなど。
 ◎利用してる環境
  3.4ベース+Jetty
  マスタスレーブ構成(スレーブ2台)
  途中は分散インデックスを自分で実装?
  ボトルネック自体がDBからのデータ収集だった
 ◎インデックス対象
  ・見れるのは過去1週間と過去の公式番組すべて。
   この部分だけ検索可能。
  ・更新頻度の高い情報に「来場者数」「コメント数」
 ◎インデックス作成
  ・バッチにて更新
 ◎アナライザ
  CJKTokenizerFactoryを利用
  HTMLStripCharFilterFactory
  Bi-gramなので、「FF」とか「DQ」に弱い(FF1でFF13とかヒットしちゃう)
  検索精度は悪いと言われてるみたい。
 ◎1日のリクエスト
  ピーク時40QPS程度
  5分おきにスパイクがある。(ユーザが作ったツールによる検索とか。。。)
 ◎UPDATEリクエスト
  ピーク時は80QPS
 ◎開発用のJettyのマルチテナント機能を利用したSolr環境の提供
 ◎台湾語とか英語もやりたいなぁ。  

3. 株式会社マーズフラッグ 柳吾朗さん(@hitode7456)
  タイトル:ドリルダウン色々
 ◎Facetの紹介から
 ◎楽天でのドリルダウン例(これはFacetの紹介での例であり、実際にSolrが利用されているかはわからないです。)
 ◎多段ドリルダウン(ファセット)のお話。
  アプリを実装するときの考え方とか。
 ◎実直形、工夫形、PivotFacet
 Q&A
  Q:3つの性能系のコストは?
  A:まだ調べてないです。残り2つは工夫形がいいですよ。と
  次回、調べた結果の発表もやってほしいなぁ。

4. 兼山元太さん (@penguinana_) https://speakerdeck.com/penguinco/solrtoelasticsearchfalsebi-jiao
  タイトル:SolrとElasticsearchの比較
 ◎クックパッド!
 ◎elasticsearchの紹介
 ◎比較サイトもあるよ!
  http://solr-vs-elasticsearch.com
 ◎サンプルデータ・セット(ライブドアグルメ)でサンプル実装。
  https://github.com/penguinco/ld_gourmet_search
 ◎APIの紹介
  REST APIがちゃんと造られてますよと。
  設計時点でコレクションなどがURLに含まれてるのがいいよねと。
 ◎_analyzeによりアナライザーもAPIとして公開されてるよと。
 ◎Kuromojiも対応してるよ!
 ◎DynamicFieldよりも便利だよ。
 ◎クエリのDSLが違うのでちょっとアレ。
 ◎スコアリングも色々できるよ。
 ◎感想
  ・機能面の不足なし
  ・APIがいい
   コア追加とか、curlだけでできるのがいい。
  ・習得が容易(Solrやってると機能とか似てる)
  ・大規模じゃなくても使えそう

 ◎分散検索がデザイン時に組み込まれてるのがいいよね。
  write consistencyなどがインデックスごと(コレクションごと?)に設定可能なので便利。

 ◎multi-tenant
  open/closeなどができる(時系列データとか)
  shard allocationなどの細かな制御も可能ですよと。

 ◎plugin
  色々プラグインがあるよ。管理画面もプラグインであります。
  プラグインもコマンド一発で追加可能。
 ◎クエリキャッシュがないので、自前でnginx、varnishなどでキャッシュが必要。


johtani | 勉強会 | 18:44 | comments(0) | trackbacks(0) | - | - |
1/4PAGES | >> |

11
--
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
--
>>
<<
--
PR
RECOMMEND
[改訂新版] Apache Solr入門 ~オープンソース全文検索エンジン (Software Design plus)
[改訂新版] Apache Solr入門 ~オープンソース全文検索エンジン (Software Design plus) (JUGEMレビュー »)
大谷 純,阿部 慎一朗,大須賀 稔,北野 太郎,鈴木 教嗣,平賀 一昭
Solr 4系に対応した改訂版を出しました!興味ある方はぜひ。
RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
RECOMMEND
RECENT COMMENT
  • ポモドーロ回してます。(ポモドーロテクニック入門読みました)
    おーたに (05/07)
  • Lucene 4.3.0のChangesにあるChanges in backwards compatibility policyが気になったので訳してみた。
    おーたに (04/26)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    おーたに (09/04)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    m_nori (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    おーたに (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    ho4kawa (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    おーたに (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    まろか (09/03)
  • Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章)
    おーたに (08/07)
  • Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章)
    moco (08/07)
RECENT TRACKBACK
MOBILE
qrcode
OTHERS