ツイッターアカウントの性別判定ができたら面白そうなので挑戦してみます。
先行事例調査
まず、既存の男女判別事例を探してみました。
性別判定の精度は90%以上
- ホットリンク、口コミの書き手を性別判定する技術を「電通バズリサーチ」に提供 2006/11/30
「男性は『かわいい』という言葉をあまり使わない、女性は『すごく』という言葉をあまり使わないといった法則がある」、「性別は90%以上の性別で判別できる」
- ブログの文体で書き手の性別を自動判別、リクルート子会社が広告配信に応用 2007/12/12
「ハンドル名、フォロー傾向を使う」、「グローバルで90%以上の精度」、「(広告配信は)性別が曖昧なユーザーを対象としません」
- Twitterプロモ商品で性別のターゲティングが可能になりました 2012/10/26 (英語版)
ハンドル名とフォロー傾向を使うってのはSNSならではですね。前述の2つとはここが大きく異なります。
女なら「(英語で)お腹が痛い」、男なら「(英語で)すげぇ!」という言葉をよく使う
- Twitterはどうやって男女を見分けるのか?:性別ターゲティング広告が可能に 2012/10/30
「何のトピックについての話題なのか」「どの企業に関するものか」「ポジティブな文脈、ネガティブな文脈のどちらか」「つぶやいている人の性別、年齢は」といった規則性を見つける
- 「つぶやき」は宝の山 データ即時解析が開く未来 ビッグデータを競争力に 2013/3/31
個人が作っているツイッター性別判定サイトも紹介します。
男女比判別がかなり正確です。口ぐせ分析もすごい。開発者がもうツイッターをやってないっぽいのが残念…。
こっちは全然あてにならないけど一応紹介。
英語のページも調べてみましたが、パッと見つかる情報は少なかったです。
「女は感情を表す顔文字を多く使う」、「男は汚い言葉(fuck)を使う」、「ドットやダッシュ(両方とも記号のこと)の使い方に差がある」
- An analysis of gender on Twitter 2013/2/12
ちなみに、今回やろうとしているのは「判別分析」にあたるようです。
「いくつかの群ごとに得られている過去のデータに基づき,新しい 1 つのサンプルが得られたとき,このサンプルがどの群に属すかを判別(判定, 予測)する手法を判別分析 (discriminant analysis) という」
- 判別分析とは(pdf)
ここまでで分かったことまとめ
先行事例調査から分かったこと、使えそうなこと、を抜粋。
- SNSアカウントからの性別判定は数年ごとに新しいものが発表されており、確立されたアルゴリズムはまだない
- 5、6年前までは投稿されたテキストからの判定が主流だったが、最近はフォロー関係(グラフ構造)からの判定が有力?である
- 女は顔文字や感情を表す言葉(かわいい、とか)をよく使う
浮かんだ疑問
プロフィール情報だけでも案外いい線いきそうだけど、そういう分析はあんまりやられてないみたい。たぶん精度がでないんだと思うけども。
まず、プロフィール情報だけで性別判定をするとどうなるかやってみる。
ツイッタープロフィールによくでてくる単語一覧
「女は顔文字をよく使う」という女の側の性質だけが分かっているので、顔文字を使ったツイートをたくさん集めて、それらのツイートをしたユーザーのプロフィールから女性っぽい単語をたくさん集めてみた。
女に見える単語一覧
JK1,JK2,JK3,中1,中2,中3,女子高
寂しがり
百合,恋愛,男装
ディズニー,ライオンキング,Disney
_(:3 」∠)_,(・(ェ)・),(≧∀≦*),(*´ω`*),♡,♀,らぶ,ラブ,リア友
米津玄師,ボカロ,黒バス,REBORN,うたプリ,銀魂,T&B
LUNA SEA,flumpool,ゆず,V6,NEWS,KAT-TUN,清水翔太,ジャニオタ,TOKIO
ダンス,だんす,チア,吹奏楽
BUMP,河村隆一,福山雅治,氷川きよし,神山智洋,関ジャニ∞,Hey!Say!JUMP,Mr.Children,ミスチル,嵐,K-POP
踊り手,歌い手,踊ってみた,生主,pixiv,お絵描き
腐女子,腐注意,腐ってる,雑食
短期,看護,短大,介護,福祉,栄養,歯科,管理栄養士,衛生,多摩美,芸大
アラサー,アラフォー
ついでに「女じゃなさそうな単語」も集めてみた。
女じゃなさそうに見える単語一覧
まどマギ,アイマス,けいおん,とある科学の,東方,車,バイク,鉄道,ラジオ,囲碁,将棋,声優,パチスロ,高専,電通
メモ:数字・カタカナの半角・全角は統一する必要がある
ツイッタープロフィール調査から分かったこと
- 女の方が趣味に関する単語を多く載せている
- 特徴的な単語さえあればわりとはっきり判定できそう
- このツイートの集め方だと、中高生女子と腐女子が多く集まる
女の方が趣味に関する単語を多く載せていて性別が分かりやすい。男女を判定するというより、「女」なのか「NOT 女」なのかを判定する方針でいくとよさそう。
このサンプリング方法だと中高生と腐女子に偏りすぎるので、女子大生や主婦も取り入れる仕組みが必要かも?
「女かどうか」を一括で判定するというよりは、「女子中高生 or 女子大生 or 腐女子 or 主婦、だったら女」みたいな判定でうまくいかないだろうか。
プロフィール情報だけってのはやっぱり難しいかも。フォロー構造とうまい具合に組み合わせたらいいかも。
みたいなことが分かった。
今後の課題
プロフィール情報だけでもなんとなくうまくいきそうだけど、単語の重み付けをどうするか考えなければいけない。
女の特徴的な単語を集めるのが大変。形態素解析と組み合わせてある程度自動化しよう。
続きはまた今度。