前日7時台〜29時台(29時台→本日の朝5時台)の各時間帯に,多くつぶやかれた新聞記事や,テレビ局を紹介します.
棒グラフは各時間帯のつぶやき率をあらわします.各局がその時間帯につぶやかれた割合をしめします.
散布図は,点線でつながれた数字が時間をあらわします(たとえば「10」であれば「10時台(10:00.〜10:59.)」をあらわします).各時間の数字の近くにある語が,その時間に多くつぶやかれていた言葉です.
データ取得
- TwitterのAPIを用いてつぶやきデータを取得.
- データは原則7時〜翌5時台(29時台)の間1分ごとに取得(1分あたり最大取得件数100件ほど).
- 取得したデータ間に重複(ツイートのidで判断)がある場合は,重複したデータは1件を残して削除.
- 取得するデータは以下の文字列を含むツイート(大文字/小文字は区別しない).
取得するデータが含むタグ
新聞 | | テレビ |
@Yomiuri_Online | | #nhk |
@asahi | | #etv |
@mainichijpnews | | #ntv |
@nikkeionline | | #tvasahi |
@SankeiShimbun | | #tbs |
@47news | | #tvtokyo |
@Jiji_newsRSS | | #fujitv |
@Reuters_co_jp | | #tokyomx |
@cnn_co_jp | | #wowow |
- 各時間にどのテレビ局がおおくつぶやかれたかをあらわす.
- 上の表「テレビ」の列に書かれた9つのテレビ放送各社のハッシュタグを含むツイートデータ全体のうち,それぞれのハッシュタグ文字列を含むツイートがどれだけあったかをあらわす.
- ひとつのツイートに複数件のハッシュタグが含まれている場合があるため,いずれの時間帯もそのすべてを足すと100%を超える場合がある(MA(多重回答)と同じ状態).
- つぶやき率は各時間帯ごと(ヨコ%).各時間帯にどれだけのツイートがあったのかは,それぞれの表の第2列「データ件数」の列を参照.
- 各時間帯でつぶやきの件数は違うため,各時間帯(「7時台」〜「29時台」の各行)を算術平均しても全体(「7-29時台」)には一致しない場合がある.
- 形態素解析には「茶筌」使用.辞書は標準辞書をそのまま使用.
- 形容詞と名詞(一般/固有名詞など)の出現頻度をカウント.なお,語は「基本形」ではなく「表層語」を使用.品詞は以下のみ採用.
- 形容詞-自立
- 形容詞-接尾
- 形容詞-非自立
- 名詞-サ変接続
- 名詞-ナイ形容詞語幹
- 名詞-一般
- 名詞-形容動詞語幹
- 名詞-固有名詞
- 上位30語のみ使用(ただし,1文字だけの語など,適宜使用しない場合がある.
- 未知語についても,出現頻度が上位30語に含まれる場合,内容確認のうえ適宜拾っている.
散布図
- 散布図は「新聞」のみ.
- 散布図上に布置する語は,前日1日間とおしての出現頻度が上位30位だった語のみ.これら30の語が,1時間ごとに何回つぶやかれたかを(出現ツイート数を)クロス集計.
- このクロス集計表に対して対応分析を実行.得られた最初の2次元のみを使用して散布図を作成.
- 言及数が多い順に赤・緑・青でラベルの色を分けて表示.また,散布図上にてラベル文字列のフォントサイズを変えている(赤→15pt,緑→12pt,青→9pt).
特定の時間に盛り上がったツイート
- 各時間帯でとくに言及が多かった記事を紹介(各時間帯ごとにおよそ3分の一以上のツイートで言及がされた記事).
- 絶対寄与あるいは相対寄与の高い語を含むツイートも適宜拾っている場合がある.
ご注意ください
- 当サイトの記述内容や公開資料などによってもたらされるいかなる結果に対しても,制作者は一切の責任を負いません.
- 引用はご自由にどうぞ.著作者表記は特に記載のない場合“データエクスプローリング”あるいは“DATAEXPLORING”としてください.
- ご連絡をいただきましても,返信をお約束するものではありません.ご了承をお願いいたします.
page top
(C)2012-2015 DATAEXPLORING