2013.06.03 Monday
スポンサーサイト
一定期間更新がないため広告を表示しています
スポンサードリンク | - | | - | - | - | - |
lucene-gosen、solrなど。あと、興味のあること。
新ブログに移行中。http://blog.johtani.info
2012.11.10 Saturday
AWS ビッグデータ活用事例セミナー 日時:2012/11/09 [ 金 ] 9:30 - 12:00 場所:アマゾンデータサービスジャパン目黒オフィス ★AWSビッグデータ概要 @understeer ○Amazonの紹介 ○Amazon Web Serviceの紹介 ・オンプレミスと比べ、初期費投資が不要 ・コストダウンを促進 過去6年で21回の値下げを実施 ・IaaSだけじゃなく、PaaSもやってますよ。 ・OSより上の層は好きに選べるよ。 ○AWSのサービスだけで20ある。 ○3つのV Volume 2012年で1.2ZB。95%が非構造データ。今後も非構造データが増加 Velocity デバイスの増加、パーソナライゼーション系の増加 Variaty 素粒子のデータの解析とか、地質学、気象予報とかいろいろやってるみたい。 ○BIG DATAの4つのプロセス。 収集、保存、分析、共有を繰り返しやりましょう。 そこで!AWS使いましょう。 ○収集 AWSへのデータアップロード オンプレにあるデータをAWS(S3)にアップロード ・インターネット経由 ・専用線サービス(AWS Direct Connect、1/10Gbps)も可能 ・AWS Import/Export(HDDを送りつけてS3にアップロードしてくれる。Tokyoリージョンにはだない) ・インターネットVPN経由も可能 ・EC2上のデータももちろんできる。 ※WAN高速化ソリューションも利用可能。 ○保存 ・AmazonS3 99.999999999%の耐久性。 同一リージョン内の3箇所以上のDCに自動複製 容量無制限で低コスト(1G 約10円/月) ・Amazon Glacier データの利用準備に3.5〜4.5時間かかる。 S3の約1/10という低コスト ○分析 オンプレミスだと運用が大変。 ・Amazon EC2 スケールアップ/ダウン、アウト/インが即座に可能。ライセンス持ち込みや従量課金に対応 スペックの種類が豊富(SSDとかもあるよと) ・Elastic MapReduce Hadoopをサポートしたの仮想サーバが簡単に用意可能。 S3、Dynamoとの連携も可能 ディストリビューションも選択可能(Apache、MapR) 追加のアプリ(Hive、Pig、HBase)なども利用可能。 ジョブの大きさに合わせてクラスタサイズを適切にすることでコスパがよくなる。 →HadoopのMRのデータのローカリティとかはどうなってるんだろう? ○共有 ・AWS RDS MySQL、Oracle、SQLServerをサポート(PostgreSQLはないのかな?) 自動バックアップ、フェイルオーバー、パッチ適用機能があるよ ・Amazon DynamoDB AmazonオリジナルなNoSQLデータベース。論文有るよ。 運用管理は気にしなくていい。 性能については客指定の性能が出せるようになる。しかも変えられるよと。 ※データサイズに応じて以下を選択しましょう RDS、HBase on EMR、DynamoDB、S3 他にもEC2上で、CassandraやmongoDB、GlusterFSを使ってる事例もありますよ。 ○以上を繰り返すのが意味があります。そこで! ・Simple Queue Service マネージド分散キューサービス 最低1度のメッセージ到達の保証。複数DC間で複製保存 ・Simple Workflow Service 進捗などの管理も可能 NASAのCURIOSITYの制御に利用?10m前進するのに10時間のバッチ処理がある。。。 データがなくて試せない!そんなあなたに! ○AWS Public Data Sets すぐ使えるPublic Dataが用意されてるよ。 http://aws.amazon.com/jp/publicdatasets/ ★AWSのビッグデータ事例紹介 @shot6 ○NETFLIX ・どんな会社? 2500万人以上のストリーミング会員 500億以上のイベント ・AWSの利用は?(保存) 8TB/日のイベントデータを収集しS3に。 Cassandra上の顧客データもS3に。 1PB以上のデータがS3に保存。 ・AWSの利用は?(解析) EMRでレコメンデーション、アドホック分析、パーソナライゼーションなど。 本番クラスタ(ずっと動かしている) アドホック分析用クラスタ(必要に応じて構築) 解析用のアルゴリズムをAPIで叩けて、ジョブとして定義されてるらしい ・Cassandraを使ってるよ。 Cassandraのクラスタをマルチリージョンで対応したりもしてる。 CassandraのBackupもやってる。OSSで公開されてる? ※HBaseのものもあるよ。 ※AWS上のCassandra事例もいくつか広告系で出てるみたい。 ・High I/O Instances for EC2(SSDのインスタンスまだ東京に無いらしい。) ・AWSスケールアウトだけでなく、スケールアップも徐々に増えています。 ○yelp ・どんな会社? 口コミサイト。 スペルミスの自動修正、検索ワード自動補完、 ・AWSの利用は? WebサイトのログをS3に保存。 EMRを利用してHadoopClusterで解析してS3に保存している。 EMRは処理終了後にシャットダウンしてる。 ・データ解析が日常になった ○SHAZAM ・どんな会社? 広告配信、モバイル系の配信をやってる会社。 Super Bowlの広告配信でAWS、DynamoDBを利用。 ※マイネット・ジャパンでもDynamoDBを利用している ○CLIMATE Corporation ・どんな会社? 天候保険の会社 ・AWSの利用は? 200TBの地質、天候データを解析して ○THOMSON REUTERS ・どんな会社? 情報提供の会社。データの提供が元だけど、解析した結果の情報も提供してるみたい。 ・AWSの利用は? MarketScanという18年分の個人の医療データ(個人情報自体はないみたい)を販売する、販促ールとして利用。 1500万人分の患者データを提供。 マーケットの分析に使えるデータの提供。 KARMASPHEREとEMRの組み合わせで、ソリューションを提供していますよと。 ・事例 1.MarketScanをS3にアップロード。 2.分析官が、KARMASPHERE経由でEMRにアクセス。 3.EMRにS3からデータロードされ、結果がRDS(Oracle)に保存 4.RDSに他の人達もアクセスして使ってるよと。 ○RANGESPAN ・どんな会社? ECサイト向けのPaaSサービスを提供してるロンドンの会社。 ・AWSの利用は? NLP、機械学習にEMRを利用? mongoDBのクラスタを構築してる。 ※mongoDBの日本の事例としてCAがあるらしい。 ★Huahin Framework活用事例 on AWS @ryu_kobayashi ○Cassandra本とかもやられてるみたい。 ○EMRとは PaaSなんだけど、中身を自分でいじれるらしい。 Management Consoleでは3つのバージョンが使えるが、コマンドラインからだと他にも使えるみい。 ・HBaseはAmazonのDistributionのものだけ。 ・EMRのメリットは? インフラの面倒を見なくていい。 クラスタの立ち上げも複数あげられるので簡単。本番実行と同じ環境 ・EMRのデメリット オンプレミスにすでにデータがあるとアップロードが大変。実際に物理HDDを送ったこともある(2,3日でAWS上にアップロードされた) 外に出せないデータがあると。。。 ○EMRのTips(EMRの連載に載ってますよ!http://gihyo.jp/dev/serial/01/emr) ・Bootstrapを設定 EMRのクラスタの起動前にメモリ設定とかHadoopの設定が可能にできる。 ・ファイルサイズを適切に Map数=splitを決めるコード を指定することで、処理が早くできるのかな? ○EMRの起動には いろいろあるけど、HuahinEManagerを使うと使いやすいよ? ○Huahin Frameworkの構成 ・Huahinの名前の由来は? 社内のコードはワインの産地にするという決まり。 タイの観光地Hua Hinがワインの産地。 ・他のHadoop関連のマスコットより可愛いでしょ!? ・Huahin Core MRのプログラムを簡易化 WritableとかSecondary Sortとか書かなくていい 考え方がSQL寄り 素のMRも書ける。Pig、Hiveだとパフォーマンスが難しい Huahin UnitというMRUnitをラップしたものもある ・Huahin Tools 汎用的な処理を集めたツール群だけど、Apache Logの成形のみ。 オンプレミスHadoop、スタンドアロン環境でも動かせるようになってる。 ・Huahin Manager Jobを管理するマネージャ Jobの実行 キューを持ってるので、複数の実行が可能だよ。 EMR対応してる。bootstrapに設定するとできるらしい。 ・Huahin EManager EMRのいろいろが管理できるみたい。 初期設定20までしかインスタンスが挙げられない上限があるらしいので気をつけましょうと。 キュー登録のPOST機能は便利そうだ。(EMR触る機会まだまだないけど。。。) EMRにはJobのkillがない→Job FlowをターミネートすればOK→実際にはEMRのマスタノードにSSHすればできるよ。→めんどくさいよね。。。 EManagerなら可能ですよと。これは必須だよなぁ。
2012.09.26 Wednesday
場所:富士ソフト アキバプラザ5Fホール 日時:16:10- ◯サーチ技術による情報の可視化 通常、検索と言うとWebサーチだけど、ウチダスペクトラムのやっている部分はエンタープライズ向け ナイスガイ=Grant S. Ingersollという紹介 ◯サーチからSDAへ LuceneやSolrのお陰で、検索自体は簡単になってきている。 ◯サーチの進化 ユーザとデータを結びつける意味での検索の進化が必要 ユーザインタラクションや、アクセスの方法とか ◯SDA Search, Discovery and Analytics ・ユーザからのニーズ 検索、優先順序付け、新たな気づき、フィードバックによる学習 ・ビジネスからのニーズ ナレッジの有効活用 ◯ユーザ事例 保険会社での請求に関する不正利用分析を含んだクレーム処理と分析 ◯事例:個人に最適化された医薬品 DNAをベースに検索やファセットで医薬品を検索したり。 ◯事例:通信会社における通話記録処理 ログを元に検索して、不正通話などを解析 ◯SDA基盤に必要な要素 高速で拡張性のある、検索 大規模でのコスト効率が高いストレージと処理 NLPとMLにより解析などが向上 ◯SDAのアーキテクチャ 基盤 LucidWorks Search、Hadoop、HBase、ApachePig、Mahout、 NLP、 管理 Zookeeper インフラ ZABBIX、AWS、Chef データの流し込み Twitterからのデータとか ◯検索部分にフォーカス ・LucidWorks Search SolrCloudによる簡単なshard処理 ・Hadoop ログ、生データ、中間ファイルの保存 WebHDFS 小さなファイルには向いていない ・HBase メトリック、ユーザ履歴などのストレージ 課題 どこに正式に保存する? リアルタイム処理 vs バッチ処理 分析はどこで行われるべきか? ◯検索の実装に関連すること 3つのポイント 性能と拡張性 関連性 オペレーション(モニタリング、フェイルオーバーなど) ビジネス側では検索結果の適合性を重要視する 開発側は性能を重視する傾向がある。 ◯適合性に関して テストが重要。 クエリ、クリック、表示したドキュメントなど、すべて保存すべき! ◯Discoveryにフォーカス ◯MahoutによるDiscovery 3つのC ・協調フィルタリング ・クラシフィケーション ・クラスタリング 追加事項 課題 収束を伴う計算コストの高い機械学習アルゴリズム Mahout ◯余談:Experiment Management ◯Analyticsにフォーカス Rとか、うまく活用 検索エンジン自体でもできることがある。ファセット、TF、DF/IDF SearchとDiscoveryの定量化 ログ、ナビゲーション分析
2012.09.21 Friday
◯「多様化する情報を支える技術」 講師:西川徹(株式会社プリファードインフラストラクチャー 代表取締役) ・PFIの説明 VCに頼らない。製品につながるビジネスにこだわる(受託開発しない)、技術の多様性を重視 ・PFIの技術領域、ビジネス 製品開発(Sedue/Bazil/Jubatus)、自然言語処理、機械学習、分散システムなど ・”人”が生み出すデータと"機械"が生み出すデータ ビッグデータの発端はGoogleが元じゃないか?→最後の公演で解説があるよ 人:質が高いけど、量が少ない 機械:質は低いけど、量が多い ・検索システムについてのお話 社内の資料とか情報が、人によって、まちまちなデータの保存(形式、場所など)が実施されてしまう。 情報検索技術と大規模データ ・人のデータへ必要なアプローチ より検索システムを活用してもらうために、楽に整理できる仕組みなどをどう提供するか 質の高いデータなのに、形式的な共有しかできていないのはもったいない ・機械のデータへ必要なアプローチ 大量データと高度な解析が重要(CEPとか) デバイスが性能向上→流れてくるデータが大量に→蓄積するだけでも問題になってくる →蓄積したデータを扱うだけでも処理コストが高くなる 分析をオンライン化、ストリーム化すること→Jubatusで貯めずに高度な解析をしましょう。 Edge-Heavyになりつつある。 ◯「ITアーキテクチャはどこへ向かうのか」 講師:丸山宏氏(統計数理研究所 副所長 モデリング研究系教授 工学博士) ・ビッグデータの光と影 「その数学が戦略を決める」という本がオススメ ・大量データでも、ランダムサンプリングでとければ、ビッグデータじゃなくてもいいよね。 もちろん、ランダムサンプリングだけじゃダメな場合もある。 ・Hadoopが解ける問題領域って少ないのでは。 ・TVを見る時間が長い人ほど、方言の使用率が高い 因果関係と相関関係の違いをきちんと理解しましょう。 ・データをきちんと理解して意思決定などをしたほうがいいよと。 ・つぎのアーキテクチャは何か? ・コンピュータ・アーキテクチャの歴史 ConnetionMachine CM-1(1985) SPARC Transputer(CSPによる並列性、Occam) SymbolicsLispMachine Intelアーキテクチャの台頭により、アーキテクチャの研究が廃れてくる ・クラサバ、スマホ・クラウドなどのアーキテクチャの話 ・じゃあつぎは? Edge-Heay Data=スマホなどデータが保存される場所がEdgeになりつつある ビッグデータのほとんどが廃棄されるデータ ・Edge-Heavy Dataに特化したアーキテクチャとは? 分散マッチング・プロトコル→サマリ情報を交換することで、絞り込みが可能 X=3とした場合、センサーとかなら、ピンポイントな値ではなく、範囲では。 分布表現を1stクラスオブジェクトとするプログラミング言語が必要では? ・アーキテクチャの変節点を見極めよう QA: Q:スパースネス問題がランダムサンプリングやフィルタリングじゃ解けないんでは? A:はい。ただ、その前にやることがあるはずですよねという注意喚起の意味での発表です。 価値に応じて、EdgeにあるデータをCenterに持ってくるという考え方が必要。 今は価値が見いだせないのなら、Centerにまで持ってこなくてもいいのでは。 ◯「グローバル化する情報処理」 講師:伊藤敬彦(株式会社プリファードインフラストラクチャー 研究開発部門 リサーチャー) ・Sedueの説明 NHKニュースなどで ・提供する機能 ・検索補助 レコメンド、サジェストなど ・レコメンド機能の紹介 ・Sedue/Solrの比較 サポート体制:開発チームがサポートしてくれる 安定性:GCがないのがいい 付加機能: 検索の完全性:接尾辞配列による検索 ・多言語処理の話 ・翻訳ではなく、任意の自然言語言語で動作・精度を向上させる処理の話。 ・背景 サービスのグローバル化、会社組織のグローバル化 ・複数言語を扱う場合の難しさ 多言語解析基盤Screwの開発。 1.必要な処理を順番に適用する 処理の順序は設定で。出力はJSONで。 例:言語同定、単語分割、単語正規化 →言語同定処理で 2.言語ごとに必要な処理を適用 ・疑問 ScrewはSolrとの組み合わせもできる? 複数言語が混ざった文章の場合にどういう形で動作する? 言語判定は独自実装? ◯「BigData処理技術とサイバーセキュリティ」→題名変更されてた 講師:桑名栄二氏(NTTセキュアプラットフォーム研究所 所長) ・経歴 Jubatusプロジェクト立ち上げに参画 ・攻撃に関する話 原因のわかっていないケースが多い。 ・端末の初期設定のパスワードとかが狙われるケースも多い ・変化する攻撃、変化するシステム・サービス、変化するデータ ・マルウェアの分類にJubatus ・不正IPアドレスを機械学習して ・ABC 「あたりまえ」のことを「ばかみたいに」「ちゃんとやる」 ◯「先進ビッグデータ応用を支える機械学習に求められる新技術」 講師:比戸将平(株式会社プリファードインフラストラクチャー 研究開発部門 リサーチャー) ・ビッグデータ分析はより深い地検を得られるビッグデータ「解析」へ ・ビッグデータ分析プロセス Volume、Variety、Velocity 蓄積(NoSQL系)、分析(CEP)、両方やるのがHadoop ・分析から深い解析へ 予測、カテゴリ分類、レコメンド、異常検知 これを機械学習で解決する方向で ・機械学習を応用している例 クレジットカードの不正利用検知:FICO ネットワーク攻撃/侵入検出 Jeopardy!でクイズ王に勝利 医療診断支援 ・データ解析技術への過度な期待と現実とのギャップ いろいろできるみたいだけど、何が必要? ・ビッグデータ処理系を使える人 ・データサイエンティスト ・機械学習ツール ・ビッグデータ処理系での機械学習への対応状況 Hadoop本体(YARN) MapReduce系(Mahout、AllReduce or Vowpal Wabbit、SystemML) 非MapReduce系(Spark) ・機械学習からビッグデータへの歩み寄り ベンチマーク性能への固執とか、応用との乖離を批判する論文もあるらしい。 ・機械学習の応用例 Machine Lerning for the New York City Power Grid[Rudin et al., TPAMI, 2012] 電力配電設備の障害予測・検知 実データを用いた例が今後増えていくのでは。 ・今後重要になる技術とPFIの取り組み ・データ解析の敷居を下げるためのトレーサビリティ 機械学習向けスクリプト言語は敷居が高い WekaやSPSSのようなアイコンベースのデータ処理プロセスの記述は前処理には強力だけど、機械学習とは相性が良くない 結果が見える化部分との統合が不十分。 ・Bazil Farm学習結果分析例 Tweet年齢推定、Tweet性別推定 ◯「“ビッグデータ”が話題になった理由」 講師:中田敦氏(株式会社日経BP社 記者) ・自己紹介 ・バズワードができるまで まずは、「クラウド」のバズワードの歴史 「バズワードはIT企業やThe Economist誌の煽りでなく一般企業の経営陣が納得すると生まれる」 ・なぜ経営者がビッグデータに興味を? 「ザ・クオンツ」という書籍に金融業界のルールの変化が書かれてる。面白いよ。 Google/Amazonに対する警戒心から。 破壊的な新規産業者へ対抗して行かないといけない思うところからビッグデータが流行ってるのでは。 「買ってきたIT」は差別化要因にならないのでは?→自分で作ったITなら差別化できる。 ・競争力は自分で作るしか無い 日本のとある特殊事情 ITエンジニアの所属先が日米で割合がぜんぜん違う。米国はユーザ企業が75%、日本は25%くらい ・ビッグデータの次はなに? 3次元プリンタがあれば、好きなモノが作れちゃう。=消費地の近くで作成しちゃえば良くなるのでは。
2012.08.23 Thursday
開催日時:2012/08/22 18:00 〜 22:00 場所:グリー株式会社 14F セミナールームYosemite ◎「Fluentdの現在と未来」 Treasure Data, Inc. 古橋 貞之 (@frsyuki) ◯アンケートの内訳 ◯ドキュメント欲しい? ※思ったより日本語のドキュメントじゃなくてもよさそうだった。 ◯loggingってなんでいるの? いろいろな解析ってあるよね。 ◯ログの集約、保存、などの問題点について フォーマットが混在 集約するのもいろんなスクリプトが混在 ◯メリット ・プラグインアーキテクチャ in/outに合わせてプラグインが用意/開発可能 ・フォーマットがJSON アプリでの解析が楽 ・HA構成が可能 ◯実績がない?→ 誰が使ってる? COOKPADとか、NHNとか ◯次期バージョンの構想 ・設定ファイルで色々とらくできるよ。 ・MessagePackのv5に対応 ・td-agent-lite などなど ◯QA Q:時刻にミリ秒を持つことは可能? A:互換性も気になりますが、検討します。 Q:JSONで構造化が売りだが、Flumeとかはテキストだけど、テキスト A:ログのパース時にやるというスタンス。 Q:日本語ドキュメントがやっぱり欲しい。手伝います! A:別ブランチで翻訳しながら公開して欲しいし、バラバラにやるよりいいので。 Q:Windowsでも動かしたいけど、cool.ioの移植とか考えてないですか。 A:次期で、fluentdのコアからはcool.ioを外す予定です。 ◎「Logging Infrastructure in PaaS by Fluentd」 Rakuten, Inc. Yohei Sasaki (@yssk22), Waldemar Quevedo (@wallyqs) ◯Cloud Foundryの説明 ◯Cloud Foundryの問題点 解析しようにもログが消えてしまう。。。 なので、Fluentdでログを集める仕組みを作ったよと。 これかな? https://github.com/rakutentech/dea/ ◎「Fluentdを優しく見守る監視事例」 株式会社ドリコム 外道父 ( @GedowFather ) ◯概要: Fluentdをより穏やかに安定稼働させるための監視項目と自動処理について。また,その実運用における障害例なども紹介したいと思います。 ◯目次 ◯動作環境 ・IDCもバラバラな環境のログを一箇所に集約。 グローバルなネットで、圧縮、暗号化し、VPN使ってない ・tailのプラグインを改良して利用 copy、flow counterを利用 forwardも改良 Flume OGとは比較にならないし、FlumeNGはOGと全然違うから論外だった。 ◯ローカル監視 ・monit使って監視してる。 ログを記録してるか、内容が正しいか td-agentが正しく起動してるか、Collectorに送っているか 重複起動してないかとか、起動してるかとか。 ※重複起動でログが増えてた(@mazgi濡れ衣事件) HDFSに送ってるか、保存されてるか ◯リモート監視 アラート/グラフ作成の集約 状態の可視化 Collectorのキャパシティ管理 Agentにキャパシティの心配はほぼないが、Collectorは足りなくなる可能性がある。 ◯野望 CollectorでAgentを把握したい ◯QA Q:圧縮はどうやって? A:forwardを改造してやっている。 ◎QAタイム Q:秒間どのくらい出るの? A;秒間8000メッセージくらいらしい。 Q:ハートビートの取りこぼしは? A:案1:UDPじゃなくて、TCPにする。案2:TCP接続してたらハートビートのカウントとしてしまう。 Q:CollectorのCPUに影響があるのってなに? A:ロックがCPUを食う=ロックが影響→リクエスト量を減らす Q:Windows対応はいつ?(発生源がWindows) A:td-agent-liteをWindows対応にしたいと思ってる。 Q:F#の実装とかテストは? A:性能値の測定までは行ってない。メッセージが送れたなぁくらい。 Q:設定のDSL化はv11ではなくなったの? A:ホスト名は入れたい。設定はやっぱり設定だけにしたい(プログラムは入れたくない) プラグイン側がDSL対応してればDSLできるようなものは入れようかと思ってるが、 DSLは延期したい。 A(tagomoris):DSL化したいパターンが幾つかに絞れるなぁと思ってて、それに合わせたプラグインをいくつか作ってるよー。 ◎「Fluentd & Treasure Data でこっそり始めるログ集計」 CROOZ 株式会社 池田 朋大( @mikeda ) ◯概要: FluentdとTreasureDataプラットフォームを使って、1インフラエンジニアが勢いでログ集計システムを作ってみたお話です ◯アクセスログ、エラーログ、メールログ(試験中)を集めてる。 ◯TreasureData 500Gまで無料なのかー。 ◯ダマで入れてもばれないぞ! ◯最後は心の目で見えるスライドでした。 ◎祝・O'Reilly HBase 訳本発売。訳者本人によるPR。 Sky株式会社 玉川 竜司 ※ O'Reillyの新刊「HBase 」 http://www.oreilly.co.jp/books/9784873115665/ ◎懇親会
2012.08.02 Thursday
「RailsでTwitter連携アプリをサクっと作る」 ・まずは、Railsの紹介 MVC+routes.rbの紹介 ・Dev Twitterの登録する必要なとことか。 ・Railsのインストールから起動まで。 ・実際にログイン画面を作成するまでの紹介 コーディングするコマンドの紹介。動画付き omniauth_twitter ってのを使うみたい。 ・サインイン、サインアウトまで。 ツイートは次回! 録画がよくできてて、それに合わせてしゃべるのもうまいなぁ。
「約173万ツイートを調査して分かったTwitterの利用動向」 ・ハンドル名は午後の紅茶からきてる?+ピピン@ ・ブログで色々公開してます。 ・サービス作るのに、下調べをしてみましたというお話 情報が無かったから、自分で調べてみたよと。(すばらしい) ・Streaming APIで取得 タイムゾーンとか言語設定の取得でもうまく取れない。。。 ということで、UnicodeBlockで判定してみたけど、、、 最後は手作業で不要データを除去(すごい!) ・4日間で172万ツイート (金環日食とかスカイツリーのイベントがあったので、4日間で我慢) ・上位5個で50%を占めるクライアントみたい ・日曜日が多いらしい ・携帯が60%くらい ・位置情報(Geoタグつき) 日本が多い。4sqが40%占めてる。 店舗情報や天気情報などもあるらしい。 人口と関係した相関が散布図でわかった。 そこで、ツイート内容との関係を分析 あとで資料みたいなー
「iOSのTwitterFrameworkを使ってみたら・・・・」 ・Twitter4Jのほうが楽だったよー デモがいいね! ・アーキテクチャ play!をバックエンド。Amazonとか。 iOS Twitter framework ・Reverse Authの使い方とか。 申請してから、20日間かかった。
「(仮)Twitter クライアントの開発とかについて」 ・趣味プログラマー ・「ラーメン大陸」のクローン:「チャーハン諸島」を開発 Excel溶けこむGUI Javaで実装 コマンドライン風のTL画面もある(自分では使ってないけど) 「電力会社の電力使用量モニター」もクライアント初搭載! ラーメン大陸のバージョンチェックも可能w ・開発したことで 自分のニーズにジャストフィット 優しい気持ちになれる(苦労がわかる) Twitter APIのテストとかもすぐ試せる ・GUIアプリ開発のノウハウも手に入るからオススメ ・API利用規約は読んどこうね ・自動アップデート機能がいるよ。→バージョンごとのサポートがなくなるよ。 ・通信エラー前提で作りましょう ・鍵付きの非公式RTはやめなさい。 ・Twitterクライアントの作成はおもしろいよ! 反応がプレッシャーになることもあるけど。 おもしろ機能をつけるのがいいよーと 話が上手で聞きやすかった。
2012.07.28 Saturday
日時:日本オラクル青山センター 場所:2012/07/28 10:00 - 20:00
◯PyConJP の宣伝 @shomah4a(LT) 9/15-17 PythonカンファレンスJapan App Engine、Django、Sphinxなどのカンファレンスも併設 遠方参加者支援制度があるらしい。
◯elasticsearch 入門 @johtani わかりにくい話でしたかねぇ。。。
◯たのしいうぇっぶくろーら @tokoroten(LT) index.htmlをクロールしまくってる社畜2.0の人らしい。
◯Sphinxを使って翻訳してたら本が出てた話 @ymotongpoo(LT) OSSでもドキュメント翻訳でお手伝いできるよ。 そしたら、いつのまにか書籍も出せたよ。スライド
◯iOS関連のお話 @Seasons バイナリ解析をしてゴニョゴニョする話。 解析するのに何を使ったとか思考の遷移を説明してくれるのでわかりやすい。 スライドが大きなマインドマップを切り出した形。
◯HBaseのお話 @shiumachi HBase 分散DB 列ファミリ思考 HBaseなんで? RDB→シャーディング→だるい。。。 シャーディング→スケールできねー nandeHBase? 書き込みスケールできるよ。 KVS HBaseのデータ構造 キーがいろいろな情報を含んでる キーがソートされてる HBaseのテーブル構造 リージョンがシャーディングの情報もと? リージョン見つけなどスライド
◯PythonではじめるGit @mkouhei GitPython LXCホスト? GitもPythonも初心者だわー
◯勉強会を成長させる参加者になろう @sawonya イラストレーター(スタートアップRubyのイラスト書いた人。サインもらいましたw)。 参加者が増えるとなにがいいの?など。 勉強会参加に向けた勉強会の講師とかやられてるらしい。スライド
◯IT 系勉強会ネタ(仮) @tmmkr アジャイルサムライを読んだ情報を共有したくなって読書会を開催してみた! ビアバッシュのケータリングとかは楽天デリバリーとか、カクヤスがいいよ。 かなり、いいスライドなので、あとで見返す。 今、読書会やったりしてるし、Solr勉強会の役にも立てそうだし。スライド
◯Do not invent your RNG... @kenji_rikitake Androidの乱数のコードがすごいらしい(ひどい) Pythonの乱数ではos.urandomを使うのが安全です。 オレオレ乱数は作っちゃ駄目!
◯分散ファイルシステム(LeoFS) @yosukehara LeoFSの開発者の方。 Erlangで98%書いてある。 Masterノードは存在しない。SPOFになるから。 分散システムとして元にした概念とか論文ってあるんだろうか?
◯継続的デリバリー @troter CIとデリバリーの話。 いいこと書いてあるんだけど、実際のツールの話しがないのが辛いこともある ということで、Python周りのツールをこうして見たよというお話。 Rubyの方がものがいろいろ揃ってるらしい
◯クライアントサイドのみで作ったダッシュボード @takufukushima RESTアクセス用のUIのフロントエンドの話? JSのお話の?node.jsとかの話。 MVCにしたり、CSSフレームワーク使ったり。 backbone.jsつかってるらしい。 実際の画面がみたいなぁ。 現状の話なので、
◯Meinheld @mopemope Python3対応とかLoggerとかやってから秋くらいに出るみたい。 このあたりは未知の領域です。。。
◯3分間で開発環境構築 @tk0miya Vagrant+Chefみたい。 VeeWeeってのでIOSイメージからVMイメージを作ってくれる。 (githubから持ってこないといろいろ古いらしい) これ、重要だと思う。 実践するようにしよう。 手順書がわりにChefのレシピを書こうよと。 環境マニア募集中! 継続的デリバリー座談会やってます
◯筋トレ講座 @hiroki_niinuma ジムに通い続けるのはキツイ。 成功率5% 以下の条件に ・10時間以下の仕事時間 ・ジムが近い ・ジムという環境が好き ベンチマークw先入観を捨てましょうとw ジムで筋トレとかよりも歩くのが全然いいよと。
2012.07.13 Friday
評価:
![]() Ricardo Baeza-Yates,Berthier Ribeiro-Neto ¥ 6,244 (2011-01-31) |
2012.07.04 Wednesday
第8回Solr勉強会 場所:VOYAGE GROUP 会議室 日時:7/4(水) 19:00 〜 1. @haruyamaさん mixi での Solr の利用 ・mixiの全文検索 2011年以前:Hyper Etraier、Tokyo Dystopia、Senna 2011年以降:Solrを利用して新規案件の検索システムの構築、入れ替えを行なっている。 ・Anuenueの論理構成など。 ・物理構成 1マスター、2スレーブ インデックスが小さい、QPSが100以下 インデックスサイズが大きいものは今後構築予定 ・今後やりたいこと ・ログ分析 ・パーソナライズ ・外部ストレージ参照のカスタム関数 ・外部ストレージをファンクションカスタム関数クエリ FunctionQueryを活用したい。 ・上記のデモ(検討中のもの?) 現在はjar内部のファイルを読んでるよと。 速度的な面がどうなるかがきになるところ。 ・テキストマイニング mixiボイス haruyamaさん入社前:ダンプして解析してた haruyamaさん入社後:Solrに載せちゃえば 600GのSSD 約11億文書 約450GB 利用してるもの:Solr 4.0(2012/01) lucene-gosen 1.2.1 自作フィルタ haruyama/solr-filter - GitHub ・利用統計の説明。 女性が多い。 「AKB」だと20代前半が多い。男性はおっさんも頑張ってる。 ・mergeindex機能を利用して、過去データとマージしてる。 1日分だけ集計したいこともあるかもしれないから。 updateじゃなくて、mergeindexなのは、ソッチのほうが早かったから。 ・拡張してる分析 ・ポジネガ分析 形容詞>絵文字>顔文字でスコアが効く 機械学習して辞書を調整してる ・Luceneソースコードリーディングまたやりますよ! 2. 楽天株式会社 大須賀 稔さん Lucene Revolution 2012 in Boston参加レポート(仮) ・まずは自己紹介。 infoseekに転職→楽天→Ask.com→楽天(そして英語) ・Lucene Revolutionってなに? ・トレーニング Scaling Search with Big Data & Solr Hadoopの紹介 SolrとHadoopのMapReduceを利用したインデキシングのハンズオン Solrのスケーリング(Sharding、Replication)、マルチテナント ※http://www.lucidimagination.com/services/training/big-data-training-scaling-solr 日本ではやってない、残念。 ・カンファレンス スライドとかはlucidimaginationのサイトで見れるよと。 http://www.lucidimagination.com/devzone/events/conferences/lucene-revolution-2012 ・Lucidworks Big Dataの紹介 Hadoopとかいろいろ組み合わせて使えるよと ・Microsoftの人がAzureでSolrの紹介 IEとかWindows8の話ばっかり。 ・Kuromojiの紹介 やはり、マイノリティ。 内容は日本語勉強会w 中国語とかは対応するの?日本語しか知らないです。。。 ・ErickさんのSolrCloudの話 4.0は2012年にリリースする予定 スコアリングをプラガブルに。 管理系画面がリッチだよと。 ・一番重要だなぁと思ったのは。。。 「英語」!(会社的な感想ではありません。。。) Q:これはみとけ的なスライドは? A:Hadoop上でインデキシングして、ビットトレントとかで連携してるという例が面白かった。 Q:FASTとかと比べてSolrってどーなの? A:ESPは洗練されてる。クローラーとか、ベイシスのトークナイザーを内包してるとか。 Solrは言語処理系が弱かったとかあるけど、そろってきてるのでは。 4.0は互角になるんじゃないかなぁ。 ESPがWindowsオンリーになるので、LinuxユーザがSolrに行きつつある。 3. 株式会社 ロンウイット 阿部さん Solr 4.0の紹介 ・Solr 4.0の主な機能の紹介 3.xは3.6が最後4.0-ALPHAが7/3に出た ・プラガブルなスコアリング BM25、Language Models、Divergence from Randomness、Information-based Models 関口さんがスライド作ってる ・FST対応 Finite State Automata/Transducer オートマトン理論を活用したもの。 TokenStreamはFSAで実装 SynonymFilterがFSTになると、オフセットが変わってくるらしいと。 ・Codecプラグイン Luceneレベルのお話。 ドキュメントをファイルに保存するときの形式をプラガブルに変更可能。 SimpleTextなどもあるらしい。テストに利用できそう。 APIレベルで、マイグレーションの必要があるかも。 ・NRT Near Real Time Search softCommitのお話 Realtime-get:IDを入れたらGETできるよと。 KVSとしても活用できるぞ〜と。 ・PivotFacet Facetが階層的(?)な感じで取れる ・JOIN、pseudo-join ローカルパラメータでできるよーと。 ・SolrCloud インデックスの分散配置をやってくれる(3.6まではやってくれない) shardがダウンしたらフェイルオーバーしてくれそう Master/Slave環境 リアルタイムインデクシングとリアルタイム検索とか ・ZooKeeperIntegration実装 リーダー選出、コンフィグの管理などなど ・ManifoldCFの近況 5月にトップレベルに昇格! http://manifoldcf.apache.org/ja_JP/index.html 0.6は7月に出そう。日本語にもなってる。すげー Alfresco Connector、ElasticSearch Connectorなども Solr Plugin for Enterprise Searchとか
2012.05.29 Tuesday
場所:オリンピック記念青少年総合センター 日時:2012/05/28 10:00 - 19:00 ◎13:10 - 14:00 C-1 HotSpot vs JRockit 〜 HotRockit到来の前に予習しよう! 谷本 心 @cero_t ◯HotSpot from Sun ◯JRockit from BEA 今は、どちらもOracle ◯違いは? 1.歴史 2.プラットフォーム JRockitはMacではNG。Solarisは一部。 2.1Oracleさん曰く Solaris/Mac → HotSpot Windows/Linuxのサーバ → JRockit Windows/Linuxのクライアント → HotSpot 2.2谷本さんは? WebLogic → JRockit 1.4、5の時の開発環境はJRockit 当時はJRockitの解析ツールがカッコ良かった 3.解析ツール 3.1コマンドラインツール プロセス HotSpot : jps JRockit : jrcmd スレッドダンプ HotSpot :jstack JRockit : jjrcmdprint_threads ヒープ解析 HotSpot:jmap -histo JRocket:jrcmd heap_diagnostics HotSpot: JRockit:jrcmd 他にもJRockitは色いろある。 print_utf8poolとか(内部の文字列が出てくる) 3.2GUIツール HotSpot:jvisualvm NetBeansベース JRockit:Mission Control Eclipseベース メモリリークの解消をツールを使ってみてみましょうデモ。 ・hprofファイルを吐き出して、jvisualvmで読みこむのが楽な方法 ・jrmcはヒープダンプファイルを読み込む機能がない。 memleakというツールがある。アプリを起動してから、プロセスを右クリックして選択可能。 タイプグラフや割当てトレースみたいなものが使えるよ。 フライトレコーダーというのもあるよ。 4.HotRockitの紹介 まだいつ出るのかなぁという状態だけど、HotSpotにJRockitのツールも使えるようになるVMが出る模様。(2013?) ※デモ中に画面拡大した時に、赤線でラインを引いているのがすごく気になった。(便利なツールなのかな?そこだけ?) ◎14:15 - 15:05 C-2 Play! Framework - モダンで高速なWeb開発 池田尚史 @ikeike443 ◯自己紹介 Play!Frameworkコミッター 日本Playframeworkユーザ会 ◯アンケート メイン言語は?Java多数 触ったことある?半分くらい? Play1?Play2?半々くらい プロダクションで使ってる人?3人 ◯Playframeworkって? JEEではないよ。 Webだよ。 ServletとかXML使ってないよ。 ◯JEEは難しいよね。RailsとかDjangoから流れてくると。 ◯Webフレームワーク なので、Webアプリが作れればいいよね。 開発すべきものに注力して、抽象化とかを頑張らないようにと。 ◯ライブコーディング! Play2.0のScalaアプリみたい。 プロジェクト作成〜編集して起動まで。 エラーを起こして、エラーがどのように表示されるか。 エラーのリンクをクリックして、エディタを起動するということも可能みたい。 TODOとかで、まだ終わってないのも記述可能。 パラメータとControllerの関数の引数が勝手にひもづけられますよと。 ◯歴史 Servletとかもあった。 1.2からNetty、Websocket、Scalaサポート 2.0.1:Scalaで書き直し。Netty+Akkaで非同期 ◯1と2のちがいは? ・Play1 Javaで書かれたJavaのフレームワーク。Scalaはプラグインサポート ・Play2 Scalaで書かれたScala/Javaのフレームワーク ◯Playの特徴 ステートレスとかノンブロッキングとかリアクティブとか ・高生産性 XMLがないし、unzipするとすぐ使えるよ。 ホットスワップできるよ。 CoffeeScript、LESSサポートも。assetsに入れとくとコンパイルしてくれて静的コンテンツにしてくれる。(Railsにも似たようなのあったっけか?) ・ステートレス HttpSessionがない→必要ならMemcachedとかで管理してね。 「デプロイ→ニーズ・状況に応じて即時スケールアウトという時代じゃないか?」という主張 Playはステートレス養成ギブスであり、時代の要請にマッチ ・広範囲な型安全 コンパイルしてエラー検知 ・ノンブロッキングI/O 非同期処理が手軽に書けるように考えられている。 →リアルタイムWebの時代 NettyやAkkaにより実現されてるのがいい Akkaを使ったアプリを書くと、長い処理のActorを別サーバにするなども設定で変更が可能。 ◯テスタビリティ BDDフレームワーク(Specs2?) Viewもテストできるぞと。 ◯事例 Klout:ソーシャルスコアリング イギリスのガーディアン:コンテンツAPIの実装がPlay2 MinecraftのWebサイト ◎15:20 - 16:10 C-3 Grails/Groovyの開発活用術 〜Java EE資産を活かして開発を加速する〜(仮) 上原潤二 山本剛 ◯充電中のためお休み ◎16:25 - 17:15 C-4 Scala 最新状況報告 〜或いはScala Days 2012リポート〜 水島宏太 ◯自己紹介 言語を作るのが夢みたい。 ◯Scala最新状況報告 ScalaDaysの雰囲気を伝えるよと。(どっちかというと、旅行記かも) ◯Scala? ・オブジェクト指向関数型言語 ハイブリッドじゃなくて、統合したもの ・強力な静的型付け NullPointerExceptionなども起きにくい ・超強力なコレクションフレームワーク ・Javaと同等の実行速度 ・コードが簡潔(1/4くらい) ◯Scala採用企業 Twitter、Amazon.com(どこに使ってるかは不明)、Foursquare、LinkedIn、VMWare、Klout、Tumblrなど ◯Scalaのバージョンは? 2.10が開発版。2.9.2がステーブル版。 ◯開発体制 Typesafe+世界のContributor Typesafeメンバの議決でいろいろ決定 githubでオープンに開発 ◯ScalaDays2012の目玉 豪華ゲスト(私は、わからなかった) Scala2.10の新機能紹介 今後のScala、多数の応用例 ◯ScalaDays2012を見ての方向性 ・All-in-oneパッケージの提供 Typesafe Stackの提供 重要なツール sbt(Simple Build Tool) gitter8(プロジェクトテンプレート生成ツール。githubを元に色々取ってくる?) Akka Play 2.0 Framework ・学習コストの削減 言語機能のモジュール化 高度な開発者が使う昨日はデフォルトOff ・バイナリ互換性問題への対処 ・Minor Release間での互換性を維持 MIMAでジドウテキに非互換性を検出 ・Major Release間では互換性は保証しない。 No more java.util.Date ソース互換性は「概ね」保証される deprecatedは次期メジャーバージョン時に削除される。 ・Scala IDEへの注力 インクリメンタルにコンパイルしてくれるから、遅いのも気にならなくなるかも。 デバッガとか、できるよと。 ・さらなるパフォーマンス改善 Value classes AnyValを継承したクラスが作成可能 該クラスのオブジェクトがインライン化 Pimp my libraryによるヒープ使用料が0に! ◯2.10最新機能紹介 "1+2=#{1+2}"ができない s"1+2=${1+2}"ができるように String = 1 + 2 = 3 f"1=${1}%03d"もできるようにSring = 1 = 001 自分でStringコンテキストにメソッド追加できるらしい(聞き取った日本語が合ってるか?) とか。(かなり不安。。。まだまだわかってない。。。) ◎17:30 - 18:30 BOF-B-1 From Swing to JavaFX SwingからJavaFXへのマイグレーションガイド 櫻庭 祐一 ◯JavaFX 次世代のJava GUI Library Swing+Java2D+α JavaSE8から標準(JavaFX3.0) ◯サンプル クラス名がいろいろ変わってる。 ◯はまりそうなところ コンテナへの追加がちょっと違う イベントリスナは1種類のみになった。(Genericsを使うようになったよと。) ◯Bind 値が変わるとModelが勝手に検知して変わるみたい。 双方向もあり。これだとEventを書かなくても良くなりつつ有るよと。 ◯シナリオベースでマイグレーション考えましょう 1.JavaFX in Swing JavaFXにSwingを埋め込むことはできないぞと。 SwingでできないことをJavaFXでやりますよと。 おー、グラフが動く。JavaDocのHTMLも綺麗に出てる。 使い方:JFXPanelを使う シーングラフを記述可能 データのやり取りが大変。Threadが違うから。 パフォーマンスが落ちます。Java2Dで画像を書くので遅いですよと。 新規のものはJavaFXで書きましょうと。 2.Swing to JavaFX w/o FXML SwingをJavaFXに置き換える。 使い方が違うものはTableViewなど、◯Viewとついてるもの。 ちょっと考えるのはLayout Swing:コンテナ+レイアウトマネージャー JavaFX:コンテナがレイアウトを含む BorderPaneクラスとか。 問題はTableとか Swing:TableModel JavaFX:BeanをColumnにバインド 3.Swing to JavaFX w/ FXML ・FXML GUIの構造をXMLで表す。 シーングラフを表現。 スキーマレス クラス:要素 プロパティ:属性 or 要素 アノテーションバリバリです。これで、FXMLとJavaのバインディングができるよと。 ツール Java :NetBeans e(fx)clipseってのがあるかも。 FXML:Scene Builder
2012.04.21 Saturday
日時2012/04/20 19:00 to 21:00 会場:パソナグループ本部 呉服橋 ◎オープニング – Ayumu AIZAWA (Heroku Evangelist)
◎新入社員からの挨拶 – Koichi SASADA (Ruby Developer) 前職:大学教員 仕事:CRuby開発 Heroku使った事無いですwRailsもよく知らないですw RUby2.0のリリースがゴール。2013/Feb 性能アップのことやってます。
「メッセージキューは涼しいです。」 (Google翻訳による日本語訳付きのスライド) Aggregation、Distribution。。。 IronMQ Elastic、RESTful heroku addon ironmq:rust 簡単にheroku上にキューが用意できるアドオンです。 Q:メッセージがキューに到達したのを確認する方法か? A:ステータスコードが帰ってくる。 Q:データのサイズのリミットは? A:postのリミットはある。S3とかに巨大データをおいて、ポインタを渡すとかしてほしい。 Q:キューへの到達の成功の保証は? A:アプリケーション側で判断してください?
※ツイートしてて、メモとってなかったので、ツイートをコピペ。 次はWebsolrのお話 Bonsai.io? Bonsai by onemorecloud - http://bit.ly/JjCuaE SQLのLIKE検索はO(n)でおそいねぇと。 クエリのパースについての話。 今度は転置インデックスのお話。 Termへの分割ってどーすんの?というお話。Tokenizeのお話。 その1:N-GramというTokenizeの方法。N文字ずつ先頭からTermを切り出す。開始位置は1文字ずつずらしていくと。 N-Gramはノイズがのるし、多くのTermがでてきちゃうよと。 その2:そこで、次は形態素解析ですね。 先週、Lucene/Solr 3.6.0がリリースされて、Kuromojiという日本語向けの形態素解析器がでましたよ。 Kuromojiはこちら。(Lucene版とは少し違うけど。)http://atilika.org/ Kuromojiのサーチモードのお話。 通常は、「関西国際空港」という単語になってしまうのを、Kuromojiでは「関西」「国際」 「空港」という切り方の単語も出してくれると。 ちなみに、lucene-gosenでは、サーチモードはないんですねぇ。。。 「の」はどこに消えたんだ??そこの説明は? ElasticSearchやSolrのコアの部分でLuceneを使ってるよ。 ElasticSearch http://bit.ly/qjjvWp Kuromojiはユーザ辞書をサポートしてるよ。 Q:まだ、3.5.0では? A:もうすぐやります
◎Lightning Talks ◯Receibo ( @shu_0115 ) デザイナーxエンジニアハッカソンでの成果らしい。 Webベースの家計簿アプリ。 買ったものの名称と料金を入れるだけ。 ◯Heroku + Pusherで作る!リアルタイムアプリケーション ( @satococoa ) WebSocketみたいなことが、Pusherでできるらしい。 http://www.slideshare.net/satococoa/heroku-pusher ◯Herokuアドオンを作ってみてわかったこと ( @takkam ) ◯heroku client のちょっと進んだ使い方 ( @hsbt ) ◯love heroku? – we love herokuのご紹介 ( @ppworks )