Niigata.pm tech talk #2 がありました

teck talk #2 が開催されてから一週間が経ちました。
タイミング外してるとは言え、(発表しなかったとは言え&懇親会見送りとは言え)そのレポートです。
(内容に誤解があることがありますので、ツッコミよろしくお願いします)

概要はこちらから Niigata.pm tech talk #2 : ATND

今回のテーマは「データ処理」

データベース運用の話とかDB関係のモジュールの話が多いのかなと思っていましたが、全くなかったところが Niigata.pm なんでしょうか? しかし皆さんアルゴリズムの話がきちんとできるあたり日々勉強してるんだなと。
あと、neko_gata_s さんが単純ベイズ分類器をトークテーマに選んだ理由を話してるんですけど、すげーなとか。

Talk
  • 猫でもわかった気になれる!単純ベイズ分類器 40min @neko_gata_s
  • Enjoy! テキスト解析 30min @__papix__
  • はじめての文書検索と分類 40min Takashi Yukawa (長岡技術科学大学 知識システム研究室)
LT

トークに関するメモ

猫でもわかった気になれる!単純ベイズ分類器 40min @neko_gata_s 資料(PDF) レポート

  • ベイズ分類の概要 => 資料参照
  • 何故ベイズ分類器を選ぶのか? というテーマ
  • 単純ベイズ分類器は精密ではない
  • 計算式をそぎ落としているが、高い確率の近似値を出せる
  • リソースの限られた環境の中で現実的なエンジニアリング手法

Enjoy! テキスト解析 30min @__papix__

  • 全国行脚してる
  • 形態素解析エンジン KyTea (きゅーてぃー と読むらしい)推し
  • Text::KyTea Perlドライバ
  • デモ
    • KyTeaインストール
    • Text::KyTeaインストール
    • KyTeaでの解析デモ
  • Mecabなどより高速(らしい)
  • KyTeaのインストール時にprefixいじると Text::KyTeaのインストールはコケる
  • Acme::WriteNovel => ライトノベル自動生成

はじめての文書検索と分類 40min Takashi Yukawa (長岡技術科学大学 知識システム研究室)

類似文書検索
  • ex 「コンピュータ」で検索(問い合わせ)した際、「電子計算機」も検索対象としなくてはならない。
  • ex 「天ぷら」で検索した際、「天丼」も検索対象として欲しい
  • ベクトル空間モデル
    • 形態素解析 => 単語を切り分けて列に => ある文書に含まれている単語をカウントアップ
    • 対象文書と問い合わせ文書両方でベクトルを作る
    • 対象文書と問い合わせ文書のベクトルの角度差が小さいほど類似した文書とする
  • 概念ベース => ベクトル空間モデルの派生
    • 文書ではなく単語もとのベクトルで表す
    • ある文書の中で、お互いに近い場所に出てくる単語を数える
  • 形態素解析エンジン
  • また遊びに来て欲しい
文書分類

SVM(サポートベクターマシーン)

  • 二つに分ける => ex: メールを「スパム」か「スパムじゃないか」の2分類
  • 分類境界(ベクトル)を作る
  • 教師あり学習
  • Algoryithm::SVM CPANにある
事例(学生さん 3名の発表)
  • Twitterのツイート本分からの位置情報抽出
    • 大規模災害時に負傷者に関するツイートから位置情報をマップ等に表示したい
    • ツイートに地名を含むものから地名を「都道府県」「市町村」... など4つに分類(抽出) => 緯度、経度に直す
    • 省略される地名(ex 「大字」とか「〇〇郡」とか)で時間がかかる
  • 怒りを含むメッセージかを判別
    • 問い合わせメールに怒りを含んでいるものがあればそれを先に対応とか
    • 価格.comのレビューで「怒っているアイコン」「怒っていないアイコン」のついたレビューを学習データに用いる
    • 問い合わせメールを分類器にかける
  • Wikipediaから概念ベース作成
    • wikipediaのダンプデータを使った
    • wikipediaの記事名を「見出し語」に
    • 説明文を形態素解析した語彙を「属性語」に
    • ベクトル比較をして類似語辞書ができる => あいまい検索に
    • 主成分分析で30000程度の見出し語を100まで圧縮。見出し語 => 概念に


今回 ust配信されてました @aokcub++

Niigata.pm のステッカーもらいました