読者です 読者をやめる 読者になる 読者になる

CORDEA blog

Programming及びFedora21等のLinux OSのことが多めです。

RでGmailに来たメールデータを分析してみる

R

はじめに

今回はGmailのバックアップのローカルにとっている間に思いついたメールデータの簡単な分析を行ってみます。

前準備

まずはGmailのデータをCSV形式でローカルに落としてきます。
Gmailから直接でも出来るかもしれませんが、今回はMozilla ThunderbirdのAdd-onであるImportExportToolsを用いました。

f:id:CORDEA:20140526105847p:plain


大体2万件程度のデータで100MBくらいのCSVデータが出力されます。

 

結果

処理件数: 17,127件

 

Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 1.00 2.00 16.56 9.00 947.00

 

From Freq %
1 自分 947 5.5292813
2 rakuten-sec.co.jp 666 3.8885970
3 mynavi.jp 661 3.8594033
4 onamae.com 529 3.0886904
5 twave.co.jp 432 2.5223332
6 zozo.jp 378 2.2070415
7 itohkyuemon.co.jp 327 1.9092661
8 mail.rikunabi.com 299 1.7457815
9 nttxstore.jp 296 1.7282653
10 dev.twitter.com 296 1.7282653
11 amazon.co.jp 290 1.6932329
12 mail.rakuten-card.co.jp 287 1.6757167
13 boj.or.jp 273 1.5939744
14 nissen.co.jp 225 1.3137152
15 mail.rakuten-bank.co.jp 217 1.2670053
16 e-trend.co.jp 191 1.1151982
17 mail.rakuten-card.co.jp 188 1.0976820
18 lenovo-news.com 175 1.0217785
19 ezweb.ne.jp 159 0.9283587
20 amazon.co.jp 157 0.9166813


http://cordea.jp/material/plot/Rplot01.png
http://cordea.jp/material/plot/Rplot02.png



 

最後に

圧倒的に自分が上というのが正直驚き
絶対楽天だろうと思っていたら意外に自分宛のメールが多かったようです。

あと時間別のメール受信料で6時にピークがあるのは確実にお名前.comでしょうね・・・

メールデータはtitleで形態素解析したりと、いろいろ使い道が考えられますので、興味がある方はぜひやってみてください。