スポンサーサイト

一定期間更新がないため広告を表示しています

スポンサードリンク | - | | - | - | - | - |

AWS ビッグデータ活用事例セミナーに参加しました。#jawsug

初目黒(たぶん)で、初Amazonな感じで、流行りの「ビッグデータ」のセミナーに参加してきました。

とりあえず、いつもの自分用のメモを残しておきます。
感想はまた後日。。。(たぶん、頑張れ私。。。)


AWS ビッグデータ活用事例セミナー
日時:2012/11/09 [ 金 ] 9:30 - 12:00
場所:アマゾンデータサービスジャパン目黒オフィス

★AWSビッグデータ概要 @understeer 
 ○Amazonの紹介
 ○Amazon Web Serviceの紹介
  ・オンプレミスと比べ、初期費投資が不要
  ・コストダウンを促進
   過去6年で21回の値下げを実施
  ・IaaSだけじゃなく、PaaSもやってますよ。
  ・OSより上の層は好きに選べるよ。
 ○AWSのサービスだけで20ある。
 ○3つのV
  Volume  2012年で1.2ZB。95%が非構造データ。今後も非構造データが増加
  Velocity  デバイスの増加、パーソナライゼーション系の増加
  Variaty
   素粒子のデータの解析とか、地質学、気象予報とかいろいろやってるみたい。
 ○BIG DATAの4つのプロセス。
  収集、保存、分析、共有を繰り返しやりましょう。
 そこで!AWS使いましょう。

 ○収集
  AWSへのデータアップロード
  オンプレにあるデータをAWS(S3)にアップロード
  ・インターネット経由
  ・専用線サービス(AWS Direct Connect、1/10Gbps)も可能
  ・AWS Import/Export(HDDを送りつけてS3にアップロードしてくれる。Tokyoリージョンにはだない)
  ・インターネットVPN経由も可能
  ・EC2上のデータももちろんできる。
  ※WAN高速化ソリューションも利用可能。
 ○保存
  ・AmazonS3
   99.999999999%の耐久性。
   同一リージョン内の3箇所以上のDCに自動複製
   容量無制限で低コスト(1G 約10円/月)
   
  ・Amazon Glacier

   データの利用準備に3.5〜4.5時間かかる。
   S3の約1/10という低コスト
 
 ○分析 
  オンプレミスだと運用が大変。
  ・Amazon EC2
   スケールアップ/ダウン、アウト/インが即座に可能。ライセンス持ち込みや従量課金に対応
   スペックの種類が豊富(SSDとかもあるよと)
  ・Elastic MapReduce
   Hadoopをサポートしたの仮想サーバが簡単に用意可能。
   S3、Dynamoとの連携も可能
   ディストリビューションも選択可能(Apache、MapR)
   追加のアプリ(Hive、Pig、HBase)なども利用可能。
   ジョブの大きさに合わせてクラスタサイズを適切にすることでコスパがよくなる。
   →HadoopのMRのデータのローカリティとかはどうなってるんだろう?
 ○共有
  ・AWS RDS
   MySQL、Oracle、SQLServerをサポート(PostgreSQLはないのかな?)
   自動バックアップ、フェイルオーバー、パッチ適用機能があるよ
  ・Amazon DynamoDB
   AmazonオリジナルなNoSQLデータベース。論文有るよ。
   運用管理は気にしなくていい。
   性能については客指定の性能が出せるようになる。しかも変えられるよと。
  ※データサイズに応じて以下を選択しましょう
   RDS、HBase on EMR、DynamoDB、S3
   他にもEC2上で、CassandraやmongoDB、GlusterFSを使ってる事例もありますよ。
 ○以上を繰り返すのが意味があります。そこで!
  ・Simple Queue Service
   マネージド分散キューサービス
   最低1度のメッセージ到達の保証。複数DC間で複製保存
  ・Simple Workflow Service
   進捗などの管理も可能
   NASAのCURIOSITYの制御に利用?10m前進するのに10時間のバッチ処理がある。。。
 データがなくて試せない!そんなあなたに!
 ○AWS Public Data Sets
  すぐ使えるPublic Dataが用意されてるよ。
  http://aws.amazon.com/jp/publicdatasets/

★AWSのビッグデータ事例紹介 @shot6
 ○NETFLIX
  ・どんな会社?
   2500万人以上のストリーミング会員
   500億以上のイベント
  ・AWSの利用は?(保存)
   8TB/日のイベントデータを収集しS3に。
   Cassandra上の顧客データもS3に。

   1PB以上のデータがS3に保存。
  ・AWSの利用は?(解析)
   EMRでレコメンデーション、アドホック分析、パーソナライゼーションなど。
   本番クラスタ(ずっと動かしている)
   アドホック分析用クラスタ(必要に応じて構築)
   解析用のアルゴリズムをAPIで叩けて、ジョブとして定義されてるらしい
  ・Cassandraを使ってるよ。
   Cassandraのクラスタをマルチリージョンで対応したりもしてる。
   CassandraのBackupもやってる。OSSで公開されてる?
   ※HBaseのものもあるよ。
   ※AWS上のCassandra事例もいくつか広告系で出てるみたい。
  ・High I/O Instances for EC2(SSDのインスタンスまだ東京に無いらしい。)
  ・AWSスケールアウトだけでなく、スケールアップも徐々に増えています。
 ○yelp

  ・どんな会社?
   口コミサイト。
   スペルミスの自動修正、検索ワード自動補完、
  ・AWSの利用は?
   WebサイトのログをS3に保存。
   EMRを利用してHadoopClusterで解析してS3に保存している。
   EMRは処理終了後にシャットダウンしてる。
  ・データ解析が日常になった
 ○SHAZAM
  ・どんな会社?
   広告配信、モバイル系の配信をやってる会社。
   Super Bowlの広告配信でAWS、DynamoDBを利用。
  ※マイネット・ジャパンでもDynamoDBを利用している
 ○CLIMATE Corporation
  ・どんな会社?
   天候保険の会社
  ・AWSの利用は?
   200TBの地質、天候データを解析して
 ○THOMSON REUTERS
  ・どんな会社?
   情報提供の会社。データの提供が元だけど、解析した結果の情報も提供してるみたい。
  ・AWSの利用は?
   MarketScanという18年分の個人の医療データ(個人情報自体はないみたい)を販売する、販促ールとして利用。
   1500万人分の患者データを提供。

   マーケットの分析に使えるデータの提供。
   KARMASPHEREとEMRの組み合わせで、ソリューションを提供していますよと。
  ・事例
   1.MarketScanをS3にアップロード。
   2.分析官が、KARMASPHERE経由でEMRにアクセス。
   3.EMRにS3からデータロードされ、結果がRDS(Oracle)に保存
   4.RDSに他の人達もアクセスして使ってるよと。
 ○RANGESPAN
  ・どんな会社?
   ECサイト向けのPaaSサービスを提供してるロンドンの会社。
  ・AWSの利用は?
   NLP、機械学習にEMRを利用?
   mongoDBのクラスタを構築してる。
  ※mongoDBの日本の事例としてCAがあるらしい。

★Huahin Framework活用事例 on AWS @ryu_kobayashi
 ○Cassandra本とかもやられてるみたい。
 ○EMRとは
  PaaSなんだけど、中身を自分でいじれるらしい。
  Management Consoleでは3つのバージョンが使えるが、コマンドラインからだと他にも使えるみい。
  ・HBaseはAmazonのDistributionのものだけ。
  ・EMRのメリットは?
   インフラの面倒を見なくていい。
   クラスタの立ち上げも複数あげられるので簡単。本番実行と同じ環境
  ・EMRのデメリット
   オンプレミスにすでにデータがあるとアップロードが大変。実際に物理HDDを送ったこともある(2,3日でAWS上にアップロードされた)
   外に出せないデータがあると。。。
 ○EMRのTips(EMRの連載に載ってますよ!http://gihyo.jp/dev/serial/01/emr)
  ・Bootstrapを設定
   EMRのクラスタの起動前にメモリ設定とかHadoopの設定が可能にできる。
  ・ファイルサイズを適切に
   Map数=splitを決めるコード
    を指定することで、処理が早くできるのかな?
 ○EMRの起動には
  いろいろあるけど、HuahinEManagerを使うと使いやすいよ?

 ○Huahin Frameworkの構成
  ・Huahinの名前の由来は?
   社内のコードはワインの産地にするという決まり。
   タイの観光地Hua Hinがワインの産地。
  ・他のHadoop関連のマスコットより可愛いでしょ!?
  ・Huahin Core
   MRのプログラムを簡易化
   WritableとかSecondary Sortとか書かなくていい
   考え方がSQL寄り
   素のMRも書ける。Pig、Hiveだとパフォーマンスが難しい
   Huahin UnitというMRUnitをラップしたものもある
  ・Huahin Tools
   汎用的な処理を集めたツール群だけど、Apache Logの成形のみ。
   オンプレミスHadoop、スタンドアロン環境でも動かせるようになってる。
  ・Huahin Manager
   Jobを管理するマネージャ
    Jobの実行

     キューを持ってるので、複数の実行が可能だよ。
   EMR対応してる。bootstrapに設定するとできるらしい。
  ・Huahin EManager
    EMRのいろいろが管理できるみたい。
    初期設定20までしかインスタンスが挙げられない上限があるらしいので気をつけましょうと。
    キュー登録のPOST機能は便利そうだ。(EMR触る機会まだまだないけど。。。)
   EMRにはJobのkillがない→Job FlowをターミネートすればOK→実際にはEMRのマスタノードにSSHすればできるよ。→めんどくさいよね。。。
   EManagerなら可能ですよと。これは必須だよなぁ。
   
johtani | 勉強会 | 01:07 | comments(0) | trackbacks(0) | - | - |

LucidのGrant Ingersollさんの講演を聞いてきました

このイベントにウチダスペクトラムの枠でMahoutのコミッターである、Grant Ingersollさんが講演されるということで、興味があったので聞いて来ました。 (この枠だけ)

LucidWorks社が現在展開している、LucidWorks BigDataの概要とコンセプトといった話の内容でしょうか。
LucidWorks社(元Lucid Imagination)はLucene/Solrのコミッターの方々が多く在籍している会社です。
検索システムに関するノウハウを元に、発見や解析といった部分にニーズが広がってきているという話の ざっくりした概要のはなしでした。
検索システムを中核にして、ログや検索で提供しているデータの解析などの重要そうなポイントが散りばめられて いるお話でした。

もっと詳しい話を聞きたいなぁ。

講演では日本語の資料でしたが、サイトに英語の資料がアップされているとのことでした。
原文が読めるのは非常に助かります。他のイベントなどでもこのように英語の資料も見れるようになると嬉しいです。

以下は、いつものメモになります。



場所:富士ソフト アキバプラザ5Fホール
日時:16:10-

◯サーチ技術による情報の可視化
 通常、検索と言うとWebサーチだけど、ウチダスペクトラムのやっている部分はエンタープライズ向け
 ナイスガイ=Grant S. Ingersollという紹介
◯サーチからSDAへ
 LuceneやSolrのお陰で、検索自体は簡単になってきている。
◯サーチの進化
 ユーザとデータを結びつける意味での検索の進化が必要
 ユーザインタラクションや、アクセスの方法とか
◯SDA
 Search, Discovery and Analytics
 ・ユーザからのニーズ
  検索、優先順序付け、新たな気づき、フィードバックによる学習
 ・ビジネスからのニーズ
  ナレッジの有効活用
◯ユーザ事例
 保険会社での請求に関する不正利用分析を含んだクレーム処理と分析
◯事例:個人に最適化された医薬品
 DNAをベースに検索やファセットで医薬品を検索したり。
◯事例:通信会社における通話記録処理
 ログを元に検索して、不正通話などを解析
◯SDA基盤に必要な要素
 高速で拡張性のある、検索
 大規模でのコスト効率が高いストレージと処理
 NLPとMLにより解析などが向上
◯SDAのアーキテクチャ
 基盤
  LucidWorks Search、Hadoop、HBase、ApachePig、Mahout、
 NLP、
 管理
  Zookeeper
 インフラ
  ZABBIX、AWS、Chef
 データの流し込み
  Twitterからのデータとか
◯検索部分にフォーカス
 ・LucidWorks Search
  SolrCloudによる簡単なshard処理
 ・Hadoop
  ログ、生データ、中間ファイルの保存
  WebHDFS
  小さなファイルには向いていない
 ・HBase
  メトリック、ユーザ履歴などのストレージ
 課題
  どこに正式に保存する?
  リアルタイム処理 vs バッチ処理
  分析はどこで行われるべきか?
◯検索の実装に関連すること
 3つのポイント
  性能と拡張性
  関連性
  オペレーション(モニタリング、フェイルオーバーなど)
 ビジネス側では検索結果の適合性を重要視する
 開発側は性能を重視する傾向がある。
◯適合性に関して
 テストが重要。
 クエリ、クリック、表示したドキュメントなど、すべて保存すべき!
◯Discoveryにフォーカス
◯MahoutによるDiscovery
 3つのC
 ・協調フィルタリング
 ・クラシフィケーション
 ・クラスタリング
 追加事項
 課題
  収束を伴う計算コストの高い機械学習アルゴリズム
  Mahout
◯余談:Experiment Management
◯Analyticsにフォーカス
 Rとか、うまく活用
 検索エンジン自体でもできることがある。ファセット、TF、DF/IDF
 SearchとDiscoveryの定量化
  ログ、ナビゲーション分析
johtani | 勉強会 | 18:08 | comments(0) | trackbacks(0) | - | - |

PFIオープンセミナー2012に参加してきました。 #pfiopen2012

PFIオープンセミナー2012に参加してきました。
対象から微妙に外れてたり、話の内容についていけるか自信がありませんでしたが、参加してきました。
PFIさんは前から面白そうなことやってる会社だなぁと思っていたので。

面白い話がいっぱい聞けました。
電池が切れそうなので、とりあえず、まずはメモをアップしときます。
かろうじてついていけたという感じですが。
丸山先生の話はアーキテクチャの話に入る前のビッグデータの光と影の話がよかったです。
ビッグデータと言っても、まずは、サンプリングなどで小さなデータで処理できるかもしれないと考えるのも必要なのでは?という話や、相関があるからといって、因果が有るわけではないとか、おそらく、統計やってる人や、数学やってる人にしてみれば、当たり前の事なんでしょうが、その部分に警鐘を鳴らす話が聞けたのは良かったです。
もちろん、ビッグデータでなければ意味が無い解析などもありますという話もきちんと出ていました。

伊藤さんの話は、Screwと呼ばれる、多言語解析基盤のお話です。その前にSedueの紹介で、SolrとSedueの比較の話も出ていました。(若干、強引な感じもしましたが。。。)
多言語解析基盤は、Solrでも少し入ってきています。ただ、それよりも汎用的な作りになるようなので、今後Solrと組み合わせて使うといったことも可能になるかもしれません。
まだ、対応言語などが少ないので今後に期待という感じでしょうか。
複数の言語が混ざった時の挙動がどうなるのかや、身近な文章での言語判定の正確さは少し気になります。

サイバーセキュリティの話も面白かったのですが、話が多岐にわたるのと、スライドの情報量の多さに少しついていけませんでした。
資料が公開されたら、もう一度見直したいかなぁと。

比戸さんの話は、Jubatusと関連のある話でした。機械学習の実際の利用の話が特に興味深かったです。
最近になって、ようやく、実際のデータを利用した話が出てきているみたいで、もっと事例が出てくると機械学習も身近になりそうだなぁと。

最後は、日経BPの中田さんの話でした。これが、一番想像していたものと内容が違って、驚きつつ、楽しめた話でした。
ビッグデータというバズワードがいかにして生まれたのかがよく分かりました。
私は、バズワードだなぁと思う程度だったのですが、出てきた背景にある程度意味があるという考察に感心して聞き入ってしまいました。

ということで、思っていたよりも話の内容についていけたので、講演された方々の話しのされ方が良かっただと思います。
少し無理をして参加してよかったと。

残念だったのは、会場が地下だったため、携帯が入らなかったことでしょうか。
私はe-mobileで接続していたので大丈夫でしたが、docomoの携帯は圏外でした。
ツイートがもう少し盛り上がれば、もっと質問も出たのかもしれないです。
http://preferred.jp/news/seminar/

資料が公開されたので、リンクを貼っておきます。
PFIの方たちの資料へのリンク: http://preferred.jp/news/?id=1139

ゲスト講師の資料へのリンク: http://preferred.jp/news/?id=1159


◯「多様化する情報を支える技術」 講師:西川徹(株式会社プリファードインフラストラクチャー 代表取締役)
 ・PFIの説明
  VCに頼らない。製品につながるビジネスにこだわる(受託開発しない)、技術の多様性を重視
 ・PFIの技術領域、ビジネス
  製品開発(Sedue/Bazil/Jubatus)、自然言語処理、機械学習、分散システムなど
 ・”人”が生み出すデータと"機械"が生み出すデータ
  ビッグデータの発端はGoogleが元じゃないか?→最後の公演で解説があるよ
  人:質が高いけど、量が少ない
  機械:質は低いけど、量が多い
 ・検索システムについてのお話
  社内の資料とか情報が、人によって、まちまちなデータの保存(形式、場所など)が実施されてしまう。
  情報検索技術と大規模データ
 ・人のデータへ必要なアプローチ
  より検索システムを活用してもらうために、楽に整理できる仕組みなどをどう提供するか
  質の高いデータなのに、形式的な共有しかできていないのはもったいない
 ・機械のデータへ必要なアプローチ

  大量データと高度な解析が重要(CEPとか)
  デバイスが性能向上→流れてくるデータが大量に→蓄積するだけでも問題になってくる
   →蓄積したデータを扱うだけでも処理コストが高くなる
  分析をオンライン化、ストリーム化すること→Jubatusで貯めずに高度な解析をしましょう。
  Edge-Heavyになりつつある。  

◯「ITアーキテクチャはどこへ向かうのか」
 講師:丸山宏氏(統計数理研究所 副所長 モデリング研究系教授 工学博士)
 ・ビッグデータの光と影
  「その数学が戦略を決める」という本がオススメ
  ・大量データでも、ランダムサンプリングでとければ、ビッグデータじゃなくてもいいよね。
   もちろん、ランダムサンプリングだけじゃダメな場合もある。
  ・Hadoopが解ける問題領域って少ないのでは。
  ・TVを見る時間が長い人ほど、方言の使用率が高い
   因果関係と相関関係の違いをきちんと理解しましょう。
  ・データをきちんと理解して意思決定などをしたほうがいいよと。
 ・つぎのアーキテクチャは何か?
  ・コンピュータ・アーキテクチャの歴史
   ConnetionMachine CM-1(1985)
   SPARC
   Transputer(CSPによる並列性、Occam)
   SymbolicsLispMachine
   Intelアーキテクチャの台頭により、アーキテクチャの研究が廃れてくる
  ・クラサバ、スマホ・クラウドなどのアーキテクチャの話
  ・じゃあつぎは?
   Edge-Heay Data=スマホなどデータが保存される場所がEdgeになりつつある
   ビッグデータのほとんどが廃棄されるデータ
  ・Edge-Heavy Dataに特化したアーキテクチャとは?
   分散マッチング・プロトコル→サマリ情報を交換することで、絞り込みが可能
   X=3とした場合、センサーとかなら、ピンポイントな値ではなく、範囲では。
   分布表現を1stクラスオブジェクトとするプログラミング言語が必要では?
 ・アーキテクチャの変節点を見極めよう
 QA:
  Q:スパースネス問題がランダムサンプリングやフィルタリングじゃ解けないんでは?
  A:はい。ただ、その前にやることがあるはずですよねという注意喚起の意味での発表です。

  価値に応じて、EdgeにあるデータをCenterに持ってくるという考え方が必要。
  今は価値が見いだせないのなら、Centerにまで持ってこなくてもいいのでは。

◯「グローバル化する情報処理」
 講師:伊藤敬彦(株式会社プリファードインフラストラクチャー 研究開発部門 リサーチャー)
 ・Sedueの説明
  NHKニュースなどで
 ・提供する機能
  ・検索補助
   レコメンド、サジェストなど
 ・レコメンド機能の紹介
 ・Sedue/Solrの比較
  サポート体制:開発チームがサポートしてくれる
  安定性:GCがないのがいい
  付加機能:
  検索の完全性:接尾辞配列による検索

 ・多言語処理の話
  ・翻訳ではなく、任意の自然言語言語で動作・精度を向上させる処理の話。
  ・背景
   サービスのグローバル化、会社組織のグローバル化
  ・複数言語を扱う場合の難しさ
   多言語解析基盤Screwの開発。
   1.必要な処理を順番に適用する
    処理の順序は設定で。出力はJSONで。
    例:言語同定、単語分割、単語正規化
     →言語同定処理で
   2.言語ごとに必要な処理を適用
 ・疑問
  ScrewはSolrとの組み合わせもできる?
  複数言語が混ざった文章の場合にどういう形で動作する?
  言語判定は独自実装?
 
◯「BigData処理技術とサイバーセキュリティ」→題名変更されてた
 講師:桑名栄二氏(NTTセキュアプラットフォーム研究所 所長)
 ・経歴
  Jubatusプロジェクト立ち上げに参画
 ・攻撃に関する話
  原因のわかっていないケースが多い。
 ・端末の初期設定のパスワードとかが狙われるケースも多い
 ・変化する攻撃、変化するシステム・サービス、変化するデータ
 ・マルウェアの分類にJubatus
 ・不正IPアドレスを機械学習して
 ・ABC
  「あたりまえ」のことを「ばかみたいに」「ちゃんとやる」

◯「先進ビッグデータ応用を支える機械学習に求められる新技術」
 講師:比戸将平(株式会社プリファードインフラストラクチャー 研究開発部門 リサーチャー)
 ・ビッグデータ分析はより深い地検を得られるビッグデータ「解析」へ
  ・ビッグデータ分析プロセス
    Volume、Variety、Velocity
    蓄積(NoSQL系)、分析(CEP)、両方やるのがHadoop
  ・分析から深い解析へ
   予測、カテゴリ分類、レコメンド、異常検知 
   これを機械学習で解決する方向で
  ・機械学習を応用している例
   クレジットカードの不正利用検知:FICO
   ネットワーク攻撃/侵入検出
   Jeopardy!でクイズ王に勝利
   医療診断支援

 ・データ解析技術への過度な期待と現実とのギャップ
  いろいろできるみたいだけど、何が必要?
  ・ビッグデータ処理系を使える人
  ・データサイエンティスト
  ・機械学習ツール

 ・ビッグデータ処理系での機械学習への対応状況
  Hadoop本体(YARN)
  MapReduce系(Mahout、AllReduce or Vowpal Wabbit、SystemML)
  非MapReduce系(Spark)
  ・機械学習からビッグデータへの歩み寄り
   ベンチマーク性能への固執とか、応用との乖離を批判する論文もあるらしい。
  ・機械学習の応用例
   Machine Lerning for the New York City Power Grid[Rudin et al., TPAMI, 2012]
   電力配電設備の障害予測・検知
   実データを用いた例が今後増えていくのでは。
 ・今後重要になる技術とPFIの取り組み
  ・データ解析の敷居を下げるためのトレーサビリティ
   機械学習向けスクリプト言語は敷居が高い
   WekaやSPSSのようなアイコンベースのデータ処理プロセスの記述は前処理には強力だけど、機械学習とは相性が良くない
   結果が見える化部分との統合が不十分。
  ・Bazil Farm学習結果分析例
   Tweet年齢推定、Tweet性別推定

◯「“ビッグデータ”が話題になった理由」
 講師:中田敦氏(株式会社日経BP社 記者)
 ・自己紹介
 ・バズワードができるまで
  まずは、「クラウド」のバズワードの歴史
  「バズワードはIT企業やThe Economist誌の煽りでなく一般企業の経営陣が納得すると生まれる」
 ・なぜ経営者がビッグデータに興味を?
  「ザ・クオンツ」という書籍に金融業界のルールの変化が書かれてる。面白いよ。
  Google/Amazonに対する警戒心から。
  破壊的な新規産業者へ対抗して行かないといけない思うところからビッグデータが流行ってるのでは。
  「買ってきたIT」は差別化要因にならないのでは?→自分で作ったITなら差別化できる。
 ・競争力は自分で作るしか無い
  日本のとある特殊事情
  ITエンジニアの所属先が日米で割合がぜんぜん違う。米国はユーザ企業が75%、日本は25%くらい
 ・ビッグデータの次はなに?
  3次元プリンタがあれば、好きなモノが作れちゃう。=消費地の近くで作成しちゃえば良くなるのでは。
johtani | 勉強会 | 17:05 | comments(0) | trackbacks(0) | - | - |

Fluentd meetup in Japan #2 #fluentd に参加しました。

興味をもちつつ、触っていない軟弱者ですが、興味があるので今回も話を聞きに行って来ました。

まずは、作者古橋さんによるFluentdの魅力や次期バージョンのお話。
あいかわらずわかりやすいスライドで話もわかりやすくてよかったです。
どうしても実績という点を懸念事項として上げる人が多いというアンケートを元に、各社が使ってるし導入もしやすいですというお話。
ここまでしてもらってるのに触ってないなんてほんと申し訳ないです。。。

次は楽天の方によるCloud Foundryのログの問題点解消のためのFluentd導入のお話。
EC2でもそうですが、ファイルが永続化されない?のでログが消えてしまうという問題があるので、 集約しましょうと。
いままでとは少し違う問題点からの話でした。

次はドリコムの方(浴衣?甚平?でかっこ良く発表)のIDCをまたいだFluentdの活用と、Fluentd自体の監視などについてのお話。
実際にログが増殖して苦労された点を解決するために考えられた監視項目など、あとで見返したくなる資料でした。
実際に試行錯誤されたあとの話はやはりありがたいです。
あと、お子さんが可愛かったw

つぎのCROOZの方のPCがWindowsだったため(?)プロジェクターに繋がらず、急遽QAタイム。
このあたりの@doryokujinの話のつなぎの旨さとかほんとすごいなぁと感心します。

で、Macに乗り換えてCROOZの方の発表。
Fluentd+TreasureDataのお話。少人数(というか一人?)でも簡単にログ収集の仕組みが作れて、しかも保存先のサーバを用意せずに簡単な解析もできるというお話。
これは、ちょっとやってみようと思う人(少なくとも、私はやろうと思った)が増えたんじゃないかなぁという発表でした。
スライドがなぜか最後のほうが見えなくなってしまったので、第3回でも発表されるということになってましたw
最後は新大阪から文字通り駆けつけた玉川さんのHBase本+そのた今後の翻訳本の紹介。
つぎはHiveの本も出てくるみたいでした。
日本語の資料ってホント助かります。購入しないと翻訳本が出る機会もないみたいなので皆さん買ってくださいとのこと。
HBaseはまだ触りそうにないから9月に出るAWSの本でも買おうかなぁ。
あ、日本語で解説してあるSolrの本もあるので是非買ってください!

その後は懇親会でした。今回もTL上でズケズケと私が勝手に絡んでいる方たちにリアルにお会いできたので楽しかったです。

自分もフロントよりも、バックエンドに興味があるし、実際に運用されてる人の話が多く聞けるので次回も参加したいです。
それまでにどこかで触るかplugin作るかしないとなぁ。

ということで、以下はいつもの適当メモです。

開催日時:2012/08/22 18:00  〜  22:00
場所:グリー株式会社 14F セミナールームYosemite

◎「Fluentdの現在と未来」 Treasure Data, Inc. 古橋 貞之 (@frsyuki)
 ◯アンケートの内訳
 ◯ドキュメント欲しい?
  ※思ったより日本語のドキュメントじゃなくてもよさそうだった。
 ◯loggingってなんでいるの?
  いろいろな解析ってあるよね。
 ◯ログの集約、保存、などの問題点について
  フォーマットが混在
  集約するのもいろんなスクリプトが混在
 ◯メリット
  ・プラグインアーキテクチャ
   in/outに合わせてプラグインが用意/開発可能
  ・フォーマットがJSON
   アプリでの解析が楽
  ・HA構成が可能
 ◯実績がない?→
  誰が使ってる?
   COOKPADとか、NHNとか
 ◯次期バージョンの構想
  ・設定ファイルで色々とらくできるよ。
  ・MessagePackのv5に対応
  ・td-agent-lite
  などなど

 ◯QA
  Q:時刻にミリ秒を持つことは可能?
  A:互換性も気になりますが、検討します。
  Q:JSONで構造化が売りだが、Flumeとかはテキストだけど、テキスト
  A:ログのパース時にやるというスタンス。
  Q:日本語ドキュメントがやっぱり欲しい。手伝います!
  A:別ブランチで翻訳しながら公開して欲しいし、バラバラにやるよりいいので。
  Q:Windowsでも動かしたいけど、cool.ioの移植とか考えてないですか。
  A:次期で、fluentdのコアからはcool.ioを外す予定です。

◎「Logging Infrastructure in PaaS by Fluentd」 Rakuten, Inc. Yohei Sasaki (@yssk22), Waldemar Quevedo (@wallyqs)

 ◯Cloud Foundryの説明
 ◯Cloud Foundryの問題点
  解析しようにもログが消えてしまう。。。
  なので、Fluentdでログを集める仕組みを作ったよと。
 これかな? https://github.com/rakutentech/dea/
◎「Fluentdを優しく見守る監視事例」 株式会社ドリコム 外道父 ( @GedowFather )
 ◯概要:
  Fluentdをより穏やかに安定稼働させるための監視項目と自動処理について。また,その実運用における障害例なども紹介したいと思います。
 ◯目次
 ◯動作環境
  ・IDCもバラバラな環境のログを一箇所に集約。
   グローバルなネットで、圧縮、暗号化し、VPN使ってない
  ・tailのプラグインを改良して利用
   copy、flow counterを利用
   forwardも改良
  Flume OGとは比較にならないし、FlumeNGはOGと全然違うから論外だった。
 ◯ローカル監視
  ・monit使って監視してる。
  ログを記録してるか、内容が正しいか
  td-agentが正しく起動してるか、Collectorに送っているか
   重複起動してないかとか、起動してるかとか。
   ※重複起動でログが増えてた(@mazgi濡れ衣事件)
  HDFSに送ってるか、保存されてるか
  
 ◯リモート監視
  アラート/グラフ作成の集約
  状態の可視化
  Collectorのキャパシティ管理
  Agentにキャパシティの心配はほぼないが、Collectorは足りなくなる可能性がある。
 ◯野望
  CollectorでAgentを把握したい
 
 ◯QA
  Q:圧縮はどうやって?
  A:forwardを改造してやっている。

◎QAタイム
 Q:秒間どのくらい出るの?
 A;秒間8000メッセージくらいらしい。
 Q:ハートビートの取りこぼしは?
 A:案1:UDPじゃなくて、TCPにする。案2:TCP接続してたらハートビートのカウントとしてしまう。
 Q:CollectorのCPUに影響があるのってなに?
 A:ロックがCPUを食う=ロックが影響→リクエスト量を減らす
 Q:Windows対応はいつ?(発生源がWindows)
 A:td-agent-liteをWindows対応にしたいと思ってる。
 Q:F#の実装とかテストは?
 A:性能値の測定までは行ってない。メッセージが送れたなぁくらい。
 Q:設定のDSL化はv11ではなくなったの?
 A:ホスト名は入れたい。設定はやっぱり設定だけにしたい(プログラムは入れたくない)
   プラグイン側がDSL対応してればDSLできるようなものは入れようかと思ってるが、
   DSLは延期したい。
 A(tagomoris):DSL化したいパターンが幾つかに絞れるなぁと思ってて、それに合わせたプラグインをいくつか作ってるよー。

◎「Fluentd & Treasure Data でこっそり始めるログ集計」 CROOZ 株式会社 池田 朋大( @mikeda )
 ◯概要:
  FluentdとTreasureDataプラットフォームを使って、1インフラエンジニアが勢いでログ集計システムを作ってみたお話です
 ◯アクセスログ、エラーログ、メールログ(試験中)を集めてる。
 ◯TreasureData
  500Gまで無料なのかー。
 ◯ダマで入れてもばれないぞ!
 ◯最後は心の目で見えるスライドでした。

◎祝・O'Reilly HBase 訳本発売。訳者本人によるPR。 Sky株式会社 玉川 竜司 ※ O'Reillyの新刊「HBase 」 http://www.oreilly.co.jp/books/9784873115665/


◎懇親会

そうそう、ステッカーもらったのでアンケート書きましたw
Fluentdステッカー
johtani | 勉強会 | 02:40 | comments(0) | trackbacks(0) | - | - |

Twitter 勉強会 #twtr_hack に参加しました。

またまた飲みに行って参加してきました。
今回は、Rails、iOSでのTwitter連携の話から、ツイート分析、クライアントアプリの開発の苦労?楽しい話と、 幅広い話題でこれまた面白かったです。

Railsはあとで、もう一回資料+ビデオがみたいかも。あと、発表者の方が言ってたけど他の言語の似たようなサンプルがあると面白いかも。(Solr入門みたいに同じ題材で違う言語のサンプルとか)

ツイート分析は、私の使い方とは異なる分析結果がちょっと意外でした。土日はあんまりツイートしないからなぁ。
利用時間帯とかは、他のSNS(Facebookとかmixiとか)の分析と比較してみると面白いのかも。
まぁ、深夜帯はそれほど利用は無いだろうけど。

Attaccaは自社や自宅でコーディングするときに利用させてもらってます。
どうしても自分のお気に入りのリストを作ってそれを聞くので満足しちゃうんで、 他の人のお気に入りも一緒にシャッフルして再生とかできると面白いかもなぁ。
もう少し、他にも曲を発見したいんだけど、その導線がもう少しうまく行くと嬉しいかも。

チャーハン諸島の話は開発者の原点みたいな話で面白かった。やっぱり、自分で作るの大事だよなぁと。
作りたいと思うものがあるのはいいことだし、実際作ってみないとわからないこともいっぱいありますよねぇ。
ただ、何か作ろうかなぁと思うものがあるのはちょっとうらやましいとも思いました。
なかなかサービスとか、ほしいものを作ろうと思うところまで行かないからなぁ。年取ったのかなぁ。

懇親会では、いつものように@twtrfkさんと喋って、あと Lytroを触らせてもらいました!
思ったよりも大きいのが第一印象。
ぱっと見で、何の変哲もないところがズームするところだったりと、インタフェースがちょっとおもしろかったです。
ピントが後から合わせられるということで、どうしても同じ構図になっちゃうのがなぁという話も聞けましたw
けど、ちょっと欲しいかもなぁ。動くものを撮るとどんな感じなのかも聞くんだった。

次回は9月中旬!らしいので、余力がありそうだったらまた遊びに行きます。


日時:2012/08/01 19:00 〜 21:00
場所:デジタルハリウッド東京本校 1Fセミナールーム

いつもの自己紹介タイム

@i7a16k(@_gifteeの中の人) スライドはこちら
 「RailsでTwitter連携アプリをサクっと作る」
 ・まずは、Railsの紹介
  MVC+routes.rbの紹介
 ・Dev Twitterの登録する必要なとことか。
 ・Railsのインストールから起動まで。
 ・実際にログイン画面を作成するまでの紹介
  コーディングするコマンドの紹介。動画付き
   omniauth_twitter
  ってのを使うみたい。
 ・サインイン、サインアウトまで。
  ツイートは次回!
  録画がよくできてて、それに合わせてしゃべるのもうまいなぁ。

@teapipin(ツイッター分析シリーズ の方) スライドはこちら
 「約173万ツイートを調査して分かったTwitterの利用動向」
 ・ハンドル名は午後の紅茶からきてる?+ピピン@
 ・ブログで色々公開してます。
 ・サービス作るのに、下調べをしてみましたというお話
  情報が無かったから、自分で調べてみたよと。(すばらしい)
 ・Streaming APIで取得
  タイムゾーンとか言語設定の取得でもうまく取れない。。。
  ということで、UnicodeBlockで判定してみたけど、、、
  最後は手作業で不要データを除去(すごい!)
 ・4日間で172万ツイート
  (金環日食とかスカイツリーのイベントがあったので、4日間で我慢)
 ・上位5個で50%を占めるクライアントみたい
 ・日曜日が多いらしい
 ・携帯が60%くらい
 ・位置情報(Geoタグつき)
  日本が多い。4sqが40%占めてる。
  店舗情報や天気情報などもあるらしい。
  人口と関係した相関が散布図でわかった。
  そこで、ツイート内容との関係を分析
   あとで資料みたいなー

@i2key(#attacca の関係者) スライドはこちら
 「iOSのTwitterFrameworkを使ってみたら・・・・」
 ・Twitter4Jのほうが楽だったよー
  デモがいいね!
 ・アーキテクチャ
  play!をバックエンド。Amazonとか。
  iOS Twitter framework
 ・Reverse Authの使い方とか。
  申請してから、20日間かかった。

@Mocel(チャーハン諸島 開発者) スライドはこちら
 「(仮)Twitter クライアントの開発とかについて」

 ・趣味プログラマー
 ・「ラーメン大陸」のクローン:「チャーハン諸島」を開発
  Excel溶けこむGUI
  Javaで実装
  コマンドライン風のTL画面もある(自分では使ってないけど)
  「電力会社の電力使用量モニター」もクライアント初搭載!
  ラーメン大陸のバージョンチェックも可能w
 ・開発したことで
  自分のニーズにジャストフィット
  優しい気持ちになれる(苦労がわかる)
  Twitter APIのテストとかもすぐ試せる
 ・GUIアプリ開発のノウハウも手に入るからオススメ
 ・API利用規約は読んどこうね
 ・自動アップデート機能がいるよ。→バージョンごとのサポートがなくなるよ。
 ・通信エラー前提で作りましょう
 ・鍵付きの非公式RTはやめなさい。
 ・Twitterクライアントの作成はおもしろいよ!
  反応がプレッシャーになることもあるけど。
  おもしろ機能をつけるのがいいよーと
 話が上手で聞きやすかった。
johtani | 勉強会 | 11:50 | comments(0) | trackbacks(1) | - | - |

Python Developers Festa 2012.07に参加してしゃべってきました #pyfes

ということで、ステッカー欲しさ?に勉強中の話を恥ずかしげもなく偉そうにしゃべってきました。
#pyfesは以前から、気になっていたんですが、タイミングがあわず初の参加になりました。
TwitterのプロフィールにSenseiDBに興味あると書いていたら、@voluntusさんに声をかけていただけて、 さらになぜかelasticsearchの話をすることにして話をしてきました。
まだまだ、いろんな意味(プレゼン的にも内容的にも)で至らない所だらけだったので反省しまくりですが、 これでまた経験値が稼げたかなと。次回に活かしたいと思いますです。
やっぱり、しっかり勉強して、シナリオを練ってから発表しないとダメですね。。。

発表のスライドは一番最後にリンクを用意しておきましたので、興味があれば見てもらえればと思います。


ということで、いつものメモを残しておきます。

日時:日本オラクル青山センター
場所:2012/07/28 10:00 - 20:00

概要:こちらにページあり

前半(10時から15時)はハンズオンなどをやられてました。参加せずにスライドを微調整して、他の勉強会のスライドをいじったりしてました。
以下は、15時から行われたスライドのメモになります。


 ◯PyConJP の宣伝 @shomah4a(LT)
  9/15-17
  PythonカンファレンスJapan
  App Engine、Django、Sphinxなどのカンファレンスも併設
  遠方参加者支援制度があるらしい。

 ◯elasticsearch 入門 @johtani
  わかりにくい話でしたかねぇ。。。

 ◯たのしいうぇっぶくろーら @tokoroten(LT)
  index.htmlをクロールしまくってる社畜2.0の人らしい。
 ◯Sphinxを使って翻訳してたら本が出てた話 @ymotongpoo(LT)
  OSSでもドキュメント翻訳でお手伝いできるよ。
  そしたら、いつのまにか書籍も出せたよ。
スライド

 ◯iOS関連のお話 @Seasons
  バイナリ解析をしてゴニョゴニョする話。
  解析するのに何を使ったとか思考の遷移を説明してくれるのでわかりやすい。
  スライドが大きなマインドマップを切り出した形。

 ◯HBaseのお話 @shiumachi
  HBase
   分散DB
   列ファミリ思考
  HBaseなんで?
   RDB→シャーディング→だるい。。。
   シャーディング→スケールできねー
  nandeHBase?
   書き込みスケールできるよ。
   KVS
  HBaseのデータ構造
   キーがいろいろな情報を含んでる
   キーがソートされてる
  HBaseのテーブル構造
   リージョンがシャーディングの情報もと?
  リージョン見つけなど
スライド

 ◯PythonではじめるGit @mkouhei
  GitPython
  LXCホスト?
  GitもPythonも初心者だわー

 ◯勉強会を成長させる参加者になろう @sawonya
  イラストレーター(スタートアップRubyのイラスト書いた人。サインもらいましたw)。
  参加者が増えるとなにがいいの?など。
  勉強会参加に向けた勉強会の講師とかやられてるらしい。
スライド

 ◯IT 系勉強会ネタ(仮) @tmmkr 
  アジャイルサムライを読んだ情報を共有したくなって読書会を開催してみた!
  ビアバッシュのケータリングとかは楽天デリバリーとか、カクヤスがいいよ。
  かなり、いいスライドなので、あとで見返す。
  今、読書会やったりしてるし、Solr勉強会の役にも立てそうだし。
スライド

 ◯Do not invent your RNG... @kenji_rikitake
  Androidの乱数のコードがすごいらしい(ひどい)
  Pythonの乱数ではos.urandomを使うのが安全です。
  オレオレ乱数は作っちゃ駄目!

 ◯分散ファイルシステム(LeoFS) @yosukehara
  LeoFSの開発者の方。
  Erlangで98%書いてある。
  Masterノードは存在しない。SPOFになるから。
  分散システムとして元にした概念とか論文ってあるんだろうか?

 ◯継続的デリバリー @troter
  CIとデリバリーの話。
  いいこと書いてあるんだけど、実際のツールの話しがないのが辛いこともある
  ということで、Python周りのツールをこうして見たよというお話。
  Rubyの方がものがいろいろ揃ってるらしい

 ◯クライアントサイドのみで作ったダッシュボード @takufukushima 
  RESTアクセス用のUIのフロントエンドの話?
  JSのお話の?node.jsとかの話。
  MVCにしたり、CSSフレームワーク使ったり。
  backbone.jsつかってるらしい。
  実際の画面がみたいなぁ。
  現状の話なので、

 ◯Meinheld @mopemope
  Python3対応とかLoggerとかやってから秋くらいに出るみたい。
  このあたりは未知の領域です。。。

 ◯3分間で開発環境構築 @tk0miya
  Vagrant+Chefみたい。
  VeeWeeってのでIOSイメージからVMイメージを作ってくれる。
  (githubから持ってこないといろいろ古いらしい)
  これ、重要だと思う。
  実践するようにしよう。
  手順書がわりにChefのレシピを書こうよと。
  環境マニア募集中!
  継続的デリバリー座談会やってます

 ◯筋トレ講座 @hiroki_niinuma
  ジムに通い続けるのはキツイ。
  成功率5%
  以下の条件に
  ・10時間以下の仕事時間
  ・ジムが近い
  ・ジムという環境が好き
  ベンチマークw先入観を捨てましょうとw
  ジムで筋トレとかよりも歩くのが全然いいよと。


togetterがあったのでリンク。
http://togetter.com/li/346242
http://togetter.com/li/346270


スライドはこちら。




それにしても発表するといういい機会を与えてもらえて良かったです!。
継続的にelasticsearchも調べていきたいので、興味ある人は声をかけてくださいー
johtani | 勉強会 | 18:15 | comments(0) | trackbacks(0) | - | - |

MIR輪読会始めました

いやぁ、蒸し暑くてなかなか寝れない日がはじまりましたね。(あんまり関係ないですね。。。)

Modern Information Retrieval 2nd Editionを輪読会という形で読み始めました。
Solrに関わって数年ですが、昔から検索をやっていたわけではありません。
なので、そろそろ基礎的、理論的なところも勉強して行かないとなと思い、この本を買いました。
ただ、約1000ページある英語の本でして。。。
一人で読むと間違いなく挫折するし、理解不能になりそうだなと。。。

ということで、Twitterで呟いたら賛同してくれる方が現れ、輪読会を開催することにしました。
イベントの開催とか初めてなので、手さぐりしながらです。(それにしても、ほんと、Twitterは素晴らしい。賛同してもらえる人が見つかったのもTwitterのおかげだし。)

さすがに細かく読んでいくと終わらなそうなので、1周目(できれば、2周目もやりたいなぁと思ってる。1週目が1年でも終わりそうにない感じだけど)は公開されているスライドを元に進めようと思ってます。
それにしても検索周りはいろんな技術が必要なのだなぁと分厚い書籍を見て、途方に暮れつつ、楽しみでもあるなと思いながら、輪読会後の飲みを楽しんでましたw

ということで、各分野の専門家もいそうなので、特別ゲストとして読んできて話に混ざってもらうのも面白いかもと夢想しつつブログを書いています。
だれかいないかなーw

参考URL:
書籍のHPで公開されているスライドのページです。
http://grupoweb.upf.es/WRG/mir2ed/contents.php

johtani | 勉強会 | 01:41 | comments(0) | trackbacks(0) | - | - |

Solr勉強会第8回に参加しました。 #SolrJP

またまた参加しました。いまだ皆勤賞です。
感想などはあとで。とりあえず、メモとったので第一弾です。

ということで、感想です。
まずは、参加人数。
今回は今までで一番、ATND登録した人が多かったんじゃないかなぁと。
埋まるのも早かったですし。やっとSolrというキーワードが多くの方に触れられるようになってきたんですかねぇ。

mixiの事例はやはり、SSDを使った11億文書のインデックスが圧巻です。
実際にマイニングに利用していて、ネガポジ分析なども行われているようで楽しそう。
TLにもありましたが、「ヤバイ」はネガ?ポジ?など、そのへんの分析方法をもう少し詳しく聞いてみたい感じもしました。
あとは、Luceneソースコードリーディングの開催が楽しみです!(候補日知らせないと。。。)

Lucene Revolution 2012の参加レポートは、自己紹介がおもしろかったですw
ずっと検索をやらてているのもあり、色々と理論ではなく、実践的なノウハウを持っていそうで、つぎはそのあたりの話を聞いてみるのも面白そうです(発表してくれないかなーw)
残念ながら、私はまだスライドを見ていないので、事例を中心にピックアップして見てみようかなぁと(時間がトレない。。。)

最後は阿部さんの4.0の紹介です。タイムリーに、前日に4.0-ALPHAがリリースされたので、 資料がすごく参考になりそうです。
SolrCloudについても詳しく書かれてたし。(ちゃんと動くのかなぁ?)

最後は懇親会です。最近知り合った方から、発表者、昔からの勉強会の参加者といろいろな方と今回も話ができて楽しかったです。
TL上で知り合った方にもお会いできたし。
次回もしゃべってもらえそうな人を捕まえつつあるので、また企画してもらうようにつついてみようかな。

※そういえば、毎度のことながら4.0ベースで、書籍は出さないのかって言われましたw

※ちなみに、4.0-ALPHAが出たので、lucene-gosenも4xブランチの更新作業をしています。
終わったらまたブログに書くと思います。



第8回Solr勉強会
場所:VOYAGE GROUP 会議室
日時:7/4(水) 19:00 〜
1. @haruyamaさん
  mixi での Solr の利用
 ・mixiの全文検索
  2011年以前:Hyper Etraier、Tokyo Dystopia、Senna
  2011年以降:Solrを利用して新規案件の検索システムの構築、入れ替えを行なっている。
 ・Anuenueの論理構成など。
 ・物理構成
  1マスター、2スレーブ
  インデックスが小さい、QPSが100以下
  インデックスサイズが大きいものは今後構築予定
 ・今後やりたいこと
  ・ログ分析
  ・パーソナライズ
  ・外部ストレージ参照のカスタム関数
 ・外部ストレージをファンクションカスタム関数クエリ
  FunctionQueryを活用したい。
 ・上記のデモ(検討中のもの?)
  現在はjar内部のファイルを読んでるよと。
  速度的な面がどうなるかがきになるところ。
 ・テキストマイニング
  mixiボイス
   haruyamaさん入社前:ダンプして解析してた
   haruyamaさん入社後:Solrに載せちゃえば

  600GのSSD   
   約11億文書
   約450GB
  利用してるもの:Solr 4.0(2012/01)
  lucene-gosen 1.2.1
  自作フィルタ
   haruyama/solr-filter - GitHub
 
 ・利用統計の説明。
  女性が多い。
  「AKB」だと20代前半が多い。男性はおっさんも頑張ってる。
 ・mergeindex機能を利用して、過去データとマージしてる。
  1日分だけ集計したいこともあるかもしれないから。
  updateじゃなくて、mergeindexなのは、ソッチのほうが早かったから。
 ・拡張してる分析
  ・ポジネガ分析
   形容詞>絵文字>顔文字でスコアが効く
   機械学習して辞書を調整してる
 ・Luceneソースコードリーディングまたやりますよ!

2. 楽天株式会社 大須賀 稔さん
  Lucene Revolution 2012 in Boston参加レポート(仮)
 ・まずは自己紹介。
  infoseekに転職→楽天→Ask.com→楽天(そして英語)
 ・Lucene Revolutionってなに?
 ・トレーニング
  Scaling Search with Big Data & Solr
   Hadoopの紹介
   SolrとHadoopのMapReduceを利用したインデキシングのハンズオン
   Solrのスケーリング(Sharding、Replication)、マルチテナント
   ※http://www.lucidimagination.com/services/training/big-data-training-scaling-solr
   日本ではやってない、残念。

 ・カンファレンス
  スライドとかはlucidimaginationのサイトで見れるよと。
   http://www.lucidimagination.com/devzone/events/conferences/lucene-revolution-2012
  ・Lucidworks Big Dataの紹介
   Hadoopとかいろいろ組み合わせて使えるよと
  ・Microsoftの人がAzureでSolrの紹介
   IEとかWindows8の話ばっかり。
  ・Kuromojiの紹介
   やはり、マイノリティ。
   内容は日本語勉強会w
   中国語とかは対応するの?日本語しか知らないです。。。
  ・ErickさんのSolrCloudの話
   4.0は2012年にリリースする予定
   スコアリングをプラガブルに。
   管理系画面がリッチだよと。
 ・一番重要だなぁと思ったのは。。。
  「英語」!(会社的な感想ではありません。。。)
 Q:これはみとけ的なスライドは?
 A:Hadoop上でインデキシングして、ビットトレントとかで連携してるという例が面白かった。
 Q:FASTとかと比べてSolrってどーなの?
 A:ESPは洗練されてる。クローラーとか、ベイシスのトークナイザーを内包してるとか。
   Solrは言語処理系が弱かったとかあるけど、そろってきてるのでは。
   4.0は互角になるんじゃないかなぁ。
   ESPがWindowsオンリーになるので、LinuxユーザがSolrに行きつつある。

3. 株式会社 ロンウイット 阿部さん
  Solr 4.0の紹介
 ・Solr 4.0の主な機能の紹介
   3.xは3.6が最後4.0-ALPHAが7/3に出た
  ・プラガブルなスコアリング
   BM25、Language Models、Divergence from Randomness、Information-based Models
   関口さんがスライド作ってる
  ・FST対応
   Finite State Automata/Transducer
   オートマトン理論を活用したもの。
   TokenStreamはFSAで実装
   SynonymFilterがFSTになると、オフセットが変わってくるらしいと。
  ・Codecプラグイン
   Luceneレベルのお話。
   ドキュメントをファイルに保存するときの形式をプラガブルに変更可能。
   SimpleTextなどもあるらしい。テストに利用できそう。
   APIレベルで、マイグレーションの必要があるかも。
  ・NRT
   Near Real Time Search
    softCommitのお話
    Realtime-get:IDを入れたらGETできるよと。
    KVSとしても活用できるぞ〜と。
  ・PivotFacet
   Facetが階層的(?)な感じで取れる
  ・JOIN、pseudo-join
   ローカルパラメータでできるよーと。
  ・SolrCloud
   インデックスの分散配置をやってくれる(3.6まではやってくれない)
   shardがダウンしたらフェイルオーバーしてくれそう
   Master/Slave環境
   リアルタイムインデクシングとリアルタイム検索とか
   ・ZooKeeperIntegration実装
    リーダー選出、コンフィグの管理などなど

 ・ManifoldCFの近況
  5月にトップレベルに昇格!
  http://manifoldcf.apache.org/ja_JP/index.html
  0.6は7月に出そう。日本語にもなってる。すげー
  Alfresco Connector、ElasticSearch Connectorなども
  Solr Plugin for Enterprise Searchとか
johtani | 勉強会 | 20:40 | comments(0) | trackbacks(0) | - | - |

JJUG CCC 2012 Springに参加してきました。

JJUG CCC 2012 Springに参加してきました。
昨年のFallに続き、2回目です。
概要や、タイムテーブルはこちらを御覧ください。
今回は、午後一から参加しました。
色々と迷いましたが、つぎのを聞いて来ました。
  • HotSpot vs JRockit 〜 HotRockit到来の前に予習しよう!
  • Play! Framework - モダンで高速なWeb開発
  • Grails/Groovyの開発活用術
  • Scala 最新状況報告
  • From Swing to JavaFX SwingからJavaFXへのマイグレーションガイド

JRockitは使ったことがなく(たぶん)、新鮮でした。いろいろなコマンドが用意されているなぁと。
あと、jvisualvmの使い方も知らないこともあったのでいい話が聞けました。
プレゼンに慣れているようで、プレゼン中に、コマンドラインの拡大+コマンドのオプションに赤い下線を入れるなど、どうやってやっているのか、プレゼンの内容よりも気になってしまったのが本音です

Playは今回の目玉の一つでした。まだ、手元でPlayを触り始めたばかりだったので、概観がつかめたのが良かったです。
あとでスライドを見なおさないと。
頭がどうしてもServlet、JSPのため、未だにPlayに切り替えができてないので、もっと触ってみないとなぁと。
ちなみに、紆余曲折してまして、Play 1.2.4→Play 2.0(Javaアプリ)→Play 2.0(Scalaアプリ)と心変わりしまくりで、まだ完全に作ってないのに、ふらふらしてます。。。

GrailsはGrailsを現場にどのように投入していくのがいいかという、技術よりは、政治的な話でしたが面白かったです。
実際に、あまり有名でないプロダクトを現場に導入するのに、Javaだからと無理やり説得してみたりw、開発コストがこれくらい下がりますという話をしてみたりと、いろいろやられているようでした。
あと、PlayのあとにGrailsということもあり、すこしPlayを意識した話もされていました。

ScalaはScalaDaysの話+Scalaの最近の動向ということで、ある程度Scalaを知っている人がターゲットのようでした。
少し触っただけなので、何となく分かる部分もありましたが、最後の方はついていけてないです、すみません。。。
一番感じたのは、発表者の水島さんのScalaに対する愛情でしょうか。

最後は桜庭さんのJavaFXのお話です。
一応、昔、JFreeChart+Swingでちょっとしたものを作ったことがあるので面白かったです。
プレゼン自体もJavaFXで作成されていたり、オープニングがStarWars風だったりと凝ったプレゼンでした。
JavaFXとしては、JavaOneでも聞いたのですが、グラフやHTMLがリッチに書けるようになったことがびっくりです。
実際のSwingアプリからJavaFXへの移行に関して、注意する点などがわかりやすく聞けました。
FXMLは確かに便利ですよねぇ。レイアウトをJavaで組むのがすごくめんどくさかったもんなぁ。

さて、簡単ですが、感想でした。
今回一番残念だったのは、長丁場の割に電源の確保が難しかったことでしょうか。
ツイートしたり、メモ取ったりしたかったのですが、電源が乏しいので、Wi-fiオフにしてメモ取るのが限度でした。。。



場所:オリンピック記念青少年総合センター
日時:2012/05/28 10:00 - 19:00

◎13:10 - 14:00 C-1 HotSpot vs JRockit 〜 HotRockit到来の前に予習しよう! 谷本 心 @cero_t
 ◯HotSpot from Sun
 ◯JRockit from BEA
  今は、どちらもOracle
 ◯違いは?
 1.歴史
 2.プラットフォーム
  JRockitはMacではNG。Solarisは一部。
  2.1Oracleさん曰く
   Solaris/Mac → HotSpot
   Windows/Linuxのサーバ → JRockit
   Windows/Linuxのクライアント → HotSpot
  2.2谷本さんは?
   WebLogic → JRockit
   1.4、5の時の開発環境はJRockit
   当時はJRockitの解析ツールがカッコ良かった
 3.解析ツール
  3.1コマンドラインツール
   プロセス
   HotSpot : jps
   JRockit : jrcmd
   スレッドダンプ
   HotSpot :jstack 
   JRockit : jjrcmd  print_threads
   ヒープ解析
   HotSpot:jmap -histo 
   JRocket:jrcmd  heap_diagnostics
   HotSpot:
   JRockit:jrcmd  
  他にもJRockitは色いろある。
   print_utf8poolとか(内部の文字列が出てくる)
  3.2GUIツール
   HotSpot:jvisualvm NetBeansベース
   JRockit:Mission Control Eclipseベース
  メモリリークの解消をツールを使ってみてみましょうデモ。
  ・hprofファイルを吐き出して、jvisualvmで読みこむのが楽な方法
  ・jrmcはヒープダンプファイルを読み込む機能がない。
   memleakというツールがある。アプリを起動してから、プロセスを右クリックして選択可能。
    タイプグラフや割当てトレースみたいなものが使えるよ。
    フライトレコーダーというのもあるよ。
 4.HotRockitの紹介
  まだいつ出るのかなぁという状態だけど、HotSpotにJRockitのツールも使えるようになるVMが出る模様。(2013?)

 ※デモ中に画面拡大した時に、赤線でラインを引いているのがすごく気になった。(便利なツールなのかな?そこだけ?)

◎14:15 - 15:05 C-2 Play! Framework - モダンで高速なWeb開発 池田尚史 @ikeike443
 ◯自己紹介
  Play!Frameworkコミッター
  日本Playframeworkユーザ会
 ◯アンケート
  メイン言語は?Java多数
  触ったことある?半分くらい?
  Play1?Play2?半々くらい
  プロダクションで使ってる人?3人
 ◯Playframeworkって?
  JEEではないよ。
  Webだよ。
  ServletとかXML使ってないよ。
 ◯JEEは難しいよね。RailsとかDjangoから流れてくると。
 ◯Webフレームワーク
  なので、Webアプリが作れればいいよね。
  開発すべきものに注力して、抽象化とかを頑張らないようにと。
 ◯ライブコーディング!
  Play2.0のScalaアプリみたい。
  プロジェクト作成〜編集して起動まで。
  エラーを起こして、エラーがどのように表示されるか。
  エラーのリンクをクリックして、エディタを起動するということも可能みたい。
  TODOとかで、まだ終わってないのも記述可能。
  パラメータとControllerの関数の引数が勝手にひもづけられますよと。
 ◯歴史
  Servletとかもあった。
  1.2からNetty、Websocket、Scalaサポート
  2.0.1:Scalaで書き直し。Netty+Akkaで非同期
 ◯1と2のちがいは?
  ・Play1
   Javaで書かれたJavaのフレームワーク。Scalaはプラグインサポート
  ・Play2
   Scalaで書かれたScala/Javaのフレームワーク
 ◯Playの特徴
  ステートレスとかノンブロッキングとかリアクティブとか
  ・高生産性
   XMLがないし、unzipするとすぐ使えるよ。
   ホットスワップできるよ。
   CoffeeScript、LESSサポートも。assetsに入れとくとコンパイルしてくれて静的コンテンツにしてくれる。(Railsにも似たようなのあったっけか?)
  ・ステートレス
   HttpSessionがない→必要ならMemcachedとかで管理してね。
   「デプロイ→ニーズ・状況に応じて即時スケールアウトという時代じゃないか?」という主張
   Playはステートレス養成ギブスであり、時代の要請にマッチ
  ・広範囲な型安全
   コンパイルしてエラー検知
  ・ノンブロッキングI/O
   非同期処理が手軽に書けるように考えられている。
   →リアルタイムWebの時代
    NettyやAkkaにより実現されてるのがいい
   Akkaを使ったアプリを書くと、長い処理のActorを別サーバにするなども設定で変更が可能。
 ◯テスタビリティ
  BDDフレームワーク(Specs2?)
  Viewもテストできるぞと。
 ◯事例
  Klout:ソーシャルスコアリング
  イギリスのガーディアン:コンテンツAPIの実装がPlay2
  MinecraftのWebサイト

◎15:20 - 16:10 C-3 Grails/Groovyの開発活用術 〜Java EE資産を活かして開発を加速する〜(仮) 上原潤二 山本剛
 ◯充電中のためお休み

◎16:25 - 17:15 C-4 Scala 最新状況報告 〜或いはScala Days 2012リポート〜 水島宏太
 ◯自己紹介
  言語を作るのが夢みたい。
 ◯Scala最新状況報告
  ScalaDaysの雰囲気を伝えるよと。(どっちかというと、旅行記かも)
 ◯Scala?
  ・オブジェクト指向関数型言語
   ハイブリッドじゃなくて、統合したもの
  ・強力な静的型付け
   NullPointerExceptionなども起きにくい
  ・超強力なコレクションフレームワーク
  ・Javaと同等の実行速度
  ・コードが簡潔(1/4くらい)
 ◯Scala採用企業
  Twitter、Amazon.com(どこに使ってるかは不明)、Foursquare、LinkedIn、VMWare、Klout、Tumblrなど
 ◯Scalaのバージョンは?
  2.10が開発版。2.9.2がステーブル版。
 ◯開発体制
  Typesafe+世界のContributor
  Typesafeメンバの議決でいろいろ決定
  githubでオープンに開発
 ◯ScalaDays2012の目玉
  豪華ゲスト(私は、わからなかった)
  Scala2.10の新機能紹介
  今後のScala、多数の応用例
 ◯ScalaDays2012を見ての方向性
  ・All-in-oneパッケージの提供
   Typesafe Stackの提供
   重要なツール
    sbt(Simple Build Tool)
    gitter8(プロジェクトテンプレート生成ツール。githubを元に色々取ってくる?)
    Akka
    Play 2.0 Framework
  ・学習コストの削減
   言語機能のモジュール化
   高度な開発者が使う昨日はデフォルトOff
  ・バイナリ互換性問題への対処
   ・Minor Release間での互換性を維持
    MIMAでジドウテキに非互換性を検出
   ・Major Release間では互換性は保証しない。
    No more java.util.Date
    ソース互換性は「概ね」保証される
    deprecatedは次期メジャーバージョン時に削除される。
  ・Scala IDEへの注力
   インクリメンタルにコンパイルしてくれるから、遅いのも気にならなくなるかも。
   デバッガとか、できるよと。
  ・さらなるパフォーマンス改善
   Value classes
   AnyValを継承したクラスが作成可能
    該クラスのオブジェクトがインライン化
    Pimp my libraryによるヒープ使用料が0に!
 ◯2.10最新機能紹介
  "1+2=#{1+2}"ができない
  s"1+2=${1+2}"ができるように String = 1 + 2 = 3
  f"1=${1}%03d"もできるようにSring = 1 = 001
  自分でStringコンテキストにメソッド追加できるらしい(聞き取った日本語が合ってるか?)
  とか。(かなり不安。。。まだまだわかってない。。。)

◎17:30 - 18:30 BOF-B-1 From Swing to JavaFX SwingからJavaFXへのマイグレーションガイド 櫻庭 祐一
 ◯JavaFX
  次世代のJava GUI Library
  Swing+Java2D+α
  JavaSE8から標準(JavaFX3.0)
 ◯サンプル
  クラス名がいろいろ変わってる。
 ◯はまりそうなところ
  コンテナへの追加がちょっと違う
  イベントリスナは1種類のみになった。(Genericsを使うようになったよと。)
 ◯Bind
  値が変わるとModelが勝手に検知して変わるみたい。
  双方向もあり。これだとEventを書かなくても良くなりつつ有るよと。
 ◯シナリオベースでマイグレーション考えましょう
  1.JavaFX in Swing
   JavaFXにSwingを埋め込むことはできないぞと。
   SwingでできないことをJavaFXでやりますよと。
   おー、グラフが動く。JavaDocのHTMLも綺麗に出てる。
   使い方:JFXPanelを使う
    シーングラフを記述可能
    データのやり取りが大変。Threadが違うから。
    パフォーマンスが落ちます。Java2Dで画像を書くので遅いですよと。
    新規のものはJavaFXで書きましょうと。
  2.Swing to JavaFX w/o FXML
   SwingをJavaFXに置き換える。
   使い方が違うものはTableViewなど、◯Viewとついてるもの。
   ちょっと考えるのはLayout
    Swing:コンテナ+レイアウトマネージャー
    JavaFX:コンテナがレイアウトを含む
     BorderPaneクラスとか。
   問題はTableとか
    Swing:TableModel
    JavaFX:BeanをColumnにバインド
  3.Swing to JavaFX w/ FXML
   ・FXML
    GUIの構造をXMLで表す。
    シーングラフを表現。
    スキーマレス
     クラス:要素
     プロパティ:属性 or 要素
   アノテーションバリバリです。これで、FXMLとJavaのバインディングができるよと。
  ツール
   Java :NetBeans
    e(fx)clipseってのがあるかも。
   FXML:Scene Builder
  
johtani | 勉強会 | 11:45 | comments(0) | trackbacks(0) | - | - |

Heroku JP Meetup #4に参加しました。#herokujp

WebSolrの話があるらしいというのを嗅ぎつけて、初めてHeroku JP Meetupに参加しました。
herokuもWebSolrも知りつつ、手を出していなかったので、いい機会でした。
(SignUpだけ、勉強会直前に済ませましたw)

HerokuはAWS上に構築されたアプリケーションプラットフォームで、簡単にアプリをデプロイして動作させることができるようです。
Ruby on Railsを使うのが多いみたいですが、他の言語も利用できると。
で、herokuの面白いところは、アドオンとして、開発が簡単にできるようなしくみが用意されていることみたいです。
今回発表のあった、IronMQ、WebSolr、PaperTrailもアドオンとして用意されており、簡単に利用することが可能です。
IronMQはメッセージキューとして利用できます。

WebsolrはSolrを簡単に利用できる形で提供しているものになります。
今、利用できるのは3.5.0のようで、最新版(3.6.0)になるのはまだ未定のようです。
今回の発表はWebSolrの話しもありましたが、基本は全文検索の仕組みとKuromojiの説明でした。
ただ、残念ながら、Kuromojiは3.6.0からの提供となるので、現時点では利用できないようです。
あとで、聞いた話だと、schema.xmlを自分で変更できるようです。
ただ、jarファイルを置いたりはできないようなので、lucene-gosenを利用するとかはできないみたいですが。。。
ほかにも、bonsai.ioとして、ElasticSearchの提供も行うようです。
まだ、利用はできないようですが。

最後がPapertrailです。
こちらは、ログを保存して、検索、グラフ化(視覚化)してくれるアドオンです。
まだ、ベータのようですが、ログを保存してくれるようです。無料版もあるようです。
アドオンとしての機能もそうですが、利用しているグラフ化のツールなど、面白そうなものが利用されていました。

LTはRuby使いの方が多かったです。

Ruby使いではないのですが、いろいろなアドオンが用意されており、サービスを簡単に提供することができそうだという印象をうけ、ちょっと使ってみたいなぁと思いました。
普段参加していない勉強会だったので、普段では知りえない興味ある話が聞けて面白かったです。

余談ですがPapertrailの人が利用していた、slideshareのようなサービスのSpeaker Deckもよさそうなので登録してみました。
次に何か発表があった時には資料はこっちにアップしてみようかなぁと

以下は、いつものように自分用のメモです。



日時2012/04/20 19:00 to 21:00
会場:パソナグループ本部 呉服橋
◎オープニング – Ayumu AIZAWA (Heroku Evangelist)
◎新入社員からの挨拶 – Koichi SASADA (Ruby Developer)
 前職:大学教員
 仕事:CRuby開発
 Heroku使った事無いですwRailsもよく知らないですw
 RUby2.0のリリースがゴール。2013/Feb
 性能アップのことやってます。

IronMQ – Chad Arimura (Iron.IO)
 「メッセージキューは涼しいです。」
 (Google翻訳による日本語訳付きのスライド)
 Aggregation、Distribution。。。
 IronMQ
  Elastic、RESTful
  heroku addon ironmq:rust
 簡単にheroku上にキューが用意できるアドオンです。
 Q:メッセージがキューに到達したのを確認する方法か?
 A:ステータスコードが帰ってくる。
 Q:データのサイズのリミットは?
 A:postのリミットはある。S3とかに巨大データをおいて、ポインタを渡すとかしてほしい。
 Q:キューへの到達の成功の保証は?
 A:アプリケーション側で判断してください?

◎Search & Indexing on Heroku – Nick Zadrozny (Websolr)
スライドはこちら。
 
 ※ツイートしてて、メモとってなかったので、ツイートをコピペ。
 次はWebsolrのお話
 Bonsai.io?
 Bonsai by onemorecloud - http://bit.ly/JjCuaE
 SQLのLIKE検索はO(n)でおそいねぇと。
 クエリのパースについての話。
 今度は転置インデックスのお話。
 Termへの分割ってどーすんの?というお話。Tokenizeのお話。
 その1:N-GramというTokenizeの方法。N文字ずつ先頭からTermを切り出す。開始位置は1文字ずつずらしていくと。
 N-Gramはノイズがのるし、多くのTermがでてきちゃうよと。
 その2:そこで、次は形態素解析ですね。
 先週、Lucene/Solr 3.6.0がリリースされて、Kuromojiという日本語向けの形態素解析器がでましたよ。
 Kuromojiはこちら。(Lucene版とは少し違うけど。)http://atilika.org/
 Kuromojiのサーチモードのお話。
 通常は、「関西国際空港」という単語になってしまうのを、Kuromojiでは「関西」「国際」 「空港」という切り方の単語も出してくれると。
 ちなみに、lucene-gosenでは、サーチモードはないんですねぇ。。。
 「の」はどこに消えたんだ??そこの説明は?
 ElasticSearchやSolrのコアの部分でLuceneを使ってるよ。
 ElasticSearch http://bit.ly/qjjvWp
 Kuromojiはユーザ辞書をサポートしてるよ。

 Q:まだ、3.5.0では?
 A:もうすぐやります

◎log analysis for your Heroku app – Eric Lindvall (Papertrail)

   heroku上にログを貯めて、検索したりグラフ化したりできるようになりそうなもの。
 スライドはこちら
 ログを貯めて、検索や可視化できるようにするサービスみたいです。
 まだ、アイデアレベルのものも発表資料には含まれていました。
 内部で利用しているツールなど、資料の最後に出てきますが、色々と面白そうなものがありました。

◎Lightning Talks
 ◯Receibo ( @shu_0115 )
  デザイナーxエンジニアハッカソンでの成果らしい。
  Webベースの家計簿アプリ。
  買ったものの名称と料金を入れるだけ。

 ◯Heroku + Pusherで作る!リアルタイムアプリケーション ( @satococoa )
  WebSocketみたいなことが、Pusherでできるらしい。
  http://www.slideshare.net/satococoa/heroku-pusher  

 ◯Herokuアドオンを作ってみてわかったこと ( @takkam )

 ◯heroku client のちょっと進んだ使い方 ( @hsbt )

 ◯love heroku? – we love herokuのご紹介 ( @ppworks )
johtani | 勉強会 | 00:23 | comments(0) | trackbacks(0) | - | - |
2/4PAGES | << >> |

03
--
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
--
>>
<<
--
PR
RECOMMEND
[改訂新版] Apache Solr入門 ~オープンソース全文検索エンジン (Software Design plus)
[改訂新版] Apache Solr入門 ~オープンソース全文検索エンジン (Software Design plus) (JUGEMレビュー »)
大谷 純,阿部 慎一朗,大須賀 稔,北野 太郎,鈴木 教嗣,平賀 一昭
Solr 4系に対応した改訂版を出しました!興味ある方はぜひ。
RECOMMEND
Apache Solr入門 ―オープンソース全文検索エンジン
Apache Solr入門 ―オープンソース全文検索エンジン (JUGEMレビュー »)
関口 宏司,三部 靖夫,武田 光平,中野 猛,大谷 純
RECOMMEND
RECENT COMMENT
  • ポモドーロ回してます。(ポモドーロテクニック入門読みました)
    おーたに (05/07)
  • Lucene 4.3.0のChangesにあるChanges in backwards compatibility policyが気になったので訳してみた。
    おーたに (04/26)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    おーたに (09/04)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    m_nori (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    おーたに (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    ho4kawa (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    おーたに (09/03)
  • メインMBAをMountain Lionにアップデート(いろいろ確認中)
    まろか (09/03)
  • Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章)
    おーたに (08/07)
  • Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章)
    moco (08/07)
RECENT TRACKBACK
MOBILE
qrcode
OTHERS