RでGmailに来たメールデータを分析してみる

今回はGmailのバックアップのローカルにとっている間に思いついたメールデータの簡単な分析を行ってみます。

まずはGmailのデータをCSV形式でローカルに落としてきます。
Gmailから直接でも出来るかもしれませんが、今回はMozilla ThunderbirdのAdd-onであるImportExportToolsを用いました。

f:id:CORDEA:20140526105847p:plain

大体2万件程度のデータで100MBくらいのCSVデータが出力されます。

処理件数: 17,127件

Min.	1st Qu.	Median	Mean	3rd Qu.	Max.
1.00	1.00	2.00	16.56	9.00	947.00

圧倒的に自分が上というのが正直驚き
絶対楽天だろうと思っていたら意外に自分宛のメールが多かったようです。

あと時間別のメール受信料で6時にピークがあるのは確実にお名前.comでしょうね･･･

メールデータはtitleで形態素解析したりと、いろいろ使い道が考えられますので、興味がある方はぜひやってみてください。

CORDEA blog