X(Twitter)センチメント分析

概要

X(旧Twitter)上の商品先物関連アカウントのポストデータからセンチメント指標を構築し、トレードシグナルの補強に活用する。テキストデータからの投資シグナル構築は先行研究でも有効性が示されており [1][2]、SNS センチメントの株式市場予測力も実証されている [3]。既存の NSN センチメント分析(NSNテキストセンチメント分析)が日本語の専門アナリスト記事を対象としているのに対し、本データソースは英語圏の複数の発信者による多角的な市場見解を収集する点が特徴である。

ソース品質基準との関係

プロジェクトのソース品質基準では SNS 投稿(X/Twitter, Reddit 等の個別投稿)を権威的出典として使用することを禁止しているが、本戦略は X 投稿を情報源として引用するのではなく、センチメント分析の生データ(入力信号)として定量的に処理する点で性質が異なる。

既存センチメント分析との位置づけ

データソース

言語

発信者

頻度

期間

特性

NSNバックナンバー

日本語

プロアナリスト1名

日次6本

7年

構造的分析・報道文体

ゴールドレポート

日本語

NSN編集部

週次

4年

金特化の方向性見通し

X ポストデータ

英語

複数アカウント

日次複数

収集中

速報性・多角的視点・暗示的表現

センチメント分析における課題

X データは NSN 記事と異なり、以下の特性を持つため分析手法の設計に注意が必要:

  • 暗示的・皮肉的表現: 「Nothing to see here…」「This is awkward」等、辞書ベースのキーワードマッチでは捕捉困難

  • 超短文: 絵文字のみ、価格通知のみなど、センチメント判定が困難な投稿が存在

  • バイアス: 各アカウントは固有の立場(Gold永久ブル等)を持ち、発信にバイアスがある

  • ニュースキュレーション: 独自分析よりもニュース引用+短評のスタイルが多い

これらの特性から、NSN 戦略1(ルールベース・キーワード分類)や戦略2〜5(TF-IDF、イベント検出、定量抽出等のML手法)のいずれもテキストの表層的特徴に依存しており、英語の暗示的表現の捕捉には限界がある。LLM ベースのセンチメント分類(NSN NSNテキストセンチメント分析 改良の方向性3)が推奨される。

データソース

格納場所・構造

x-data/timeline/
└── username={username}/
    └── year=YYYY/
        └── month=M/
            └── *.parquet

Hive-style パーティション(username, year, month)で格納。DuckDB で直接クエリ可能。

スキーマ(24カラム)

カラム

説明

post_id

VARCHAR

ポスト固有ID

user_id

VARCHAR

ユーザー固有ID

username

VARCHAR

ユーザー名

display_name

VARCHAR

表示名

text

VARCHAR

ポスト本文

created_at

TIMESTAMP WITH TIME ZONE

投稿日時

lang

VARCHAR

言語コード

like_count

UINTEGER

いいね数

retweet_count

UINTEGER

リツイート数

reply_count

UINTEGER

リプライ数

quote_count

UINTEGER

引用数

view_count

UBIGINT

閲覧数

bookmark_count

UINTEGER

ブックマーク数

is_retweet

BOOLEAN

リツイートフラグ

is_reply

BOOLEAN

リプライフラグ

is_quote

BOOLEAN

引用ツイートフラグ

reply_to_post_id

VARCHAR

リプライ先ポストID

quoted_post_id

VARCHAR

引用元ポストID

urls

VARCHAR[]

含まれるURL一覧

hashtags

VARCHAR[]

ハッシュタグ一覧

media_urls

VARCHAR[]

メディアURL一覧

fetched_at

TIMESTAMP WITH TIME ZONE

データ取得日時

year

BIGINT

年(パーティションキー)

month

BIGINT

月(パーティションキー)

クエリ例

SELECT created_at, text, like_count, view_count
FROM read_parquet('x-data/timeline/username=GoldTelegraph_/**/*.parquet',
                  hive_partitioning=true)
WHERE NOT is_retweet
ORDER BY created_at DESC
LIMIT 10;

収集対象アカウント

選定基準

センチメント分析のデータソースとして、以下の基準でアカウントを選定する:

  1. コモディティ関連性: 金・銀・原油・銅等の商品先物に関する投稿が主要コンテンツ

  2. 投稿頻度: 最低でも日次1件以上の安定した投稿(週次集計に十分なサンプル数)

  3. エンゲージメント: 一定のフォロワー数・いいね数を持ち、市場参加者に影響力がある

  4. 分析的内容: 単純な価格通知ではなく、見通し・解説・論評を含む投稿

  5. バイアスの多様性: 可能な限り異なる立場のアカウントを含め、一方向への偏りを回避する。ただし、コモディティ市場の X アカウントはブルバイアスが構造的に強く(金・銀の永久ブルが多数派)、一貫してベアリッシュなアカウントは希少である。この制約下では、中立的なデータプロバイダー・ジャーナリストアカウントでバイアスを緩和する

カテゴリ1: 貴金属特化

当面の金ミニトレードにおいて最も重要なカテゴリ。金・銀を中心とした貴金属市場の見通し・分析を発信するアカウント。

アカウント

username

専門

特性

バイアス

Gold Telegraph

GoldTelegraph_

金・銀・コモディティ全般

ニュースキュレーション+短評。速報性が高く、BRICS・脱ドル化・中央銀行の金購入を頻繁に取り上げる。フォロワー約41万人

金ブル(強い)

Peter Schiff

PeterSchiff

金・銀・マクロ

Euro Pacific Asset Management CEO。ドル安・インフレ・金上昇の論陣を長年張る。メディア露出が多く影響力大。フォロワー約100万人

金ブル / ドルベア(非常に強い)

Jan Nieuwenhuijs

JanGold_

金・中央銀行準備金・国際通貨制度

Money Metals アナリスト。中国の金保有量、COMEX、LBMA等の独自リサーチで国際的に認知。データドリブンな分析

金ブル(中程度、データ根拠あり)

Tavi Costa

TaviCosta

金・銅・コモディティスーパーサイクル

Crescat Capital マクロストラテジスト。マクロモデルに基づくコモディティサイクル分析。チャートとデータを多用

コモディティブル(中程度)

Wall Street Silver

WallStreetSilv

銀・金・貴金属

Reddit r/WallStreetSilver発のコミュニティアカウント。銀の実物需給・COMEX在庫に注目。投稿頻度が非常に高い

銀ブル(非常に強い)

Kitco News

KitcoNewsNOW

貴金属全般

貴金属ニュース専門メディア。スポット価格、アナリストインタビュー、市場レビューを提供。比較的中立的な報道姿勢

中立(メディア)

カテゴリ2: エネルギー・原油

原油・天然ガス等のエネルギーコモディティに特化。地政学リスク(中東情勢、OPEC動向)との連動が強い。

アカウント

username

専門

特性

バイアス

John Kemp

JKempEnergy

原油・天然ガス・エネルギー政策

元Reuters シニアマーケットアナリスト(2008〜2024)。2,700本以上のコラム実績。現在は独立コンサルタント。フォロワー6.8万人。データと政策の両面からの分析に定評

中立(分析的)

Eric Nuttall

ericnuttall

原油・エネルギー株

Ninepoint Partners ポートフォリオマネージャー。北米エネルギー株に特化。BNN Bloomberg, CNBC等でコメント多数

エネルギーブル

S&P Global Commodity Insights Oil

SPGCIOil

原油・石油製品

S&P Global Platts のオイル部門公式アカウント。ニュースとテクニカル指標の両方をカバー。投稿頻度が高い

中立(データプロバイダー)

Javier Blas

JavierBlas

原油・ガス・鉱業・コモディティ全般

Bloomberg News チーフエネルギー特派員。フォロワー4.4万人以上。経済指標とニュースを定期的に発信

中立(ジャーナリスト)

カテゴリ3: マクロ・クロスアセット

商品市場に直接影響するマクロ経済要因(金融政策、ドル動向、インフレ、地政学)を分析するアカウント。NSN センチメント分析の戦略3(イベント検出型)で最重要特徴量として特定された FOMC・金利政策・地政学イベントの先行検知に有用。

アカウント

username

専門

特性

バイアス

Luke Gromen

LukeGromen

マクロ・ドル基軸通貨体制・コモディティ

Forest for the Trees 創業者。公開データから経済ボトルネックを特定するマクロリサーチ。財政問題・ドル覇権の構造変化に着目

ドルベア / コモディティブル

Lyn Alden

LynAldenContact

マクロ・金融政策・金

Lyn Alden Investment Strategy 創業者。通貨制度・財政赤字・金の役割について体系的な分析を提供

マクロ分析的(やや金ブル)

Holger Zschaepitz

Schuldensuehner

債務・金融政策・コモディティ

Die Welt(独)ジャーナリスト。『Schulden ohne Sühne?(罰なき債務)』著者。欧州視点でのマクロ・コモディティ分析

中立(ジャーナリスト)

Charlie Bilello

charliebilello

マクロ・アセットクラス横断

Creative Planning チーフマーケットストラテジスト。長期アセットクラスリターン、セクターサイクル、コモディティの歴史的比較チャートを定期投稿

中立(データドリブン)

Jim Rickards

RealJimRickards

地政学・通貨戦争・金

『Currency Wars』『The New Case for Gold』著者。地政学と通貨制度の観点から金市場を分析。CIA・国防総省へのアドバイザー経験

金ブル(強い)

カテゴリ4: テクニカル・トレーディング

チャート分析・トレーディング手法に基づくコモディティ分析。NSN センチメント分析の戦略4で「移動平均線言及」が最強の予測因子となったように、テクニカル分析の密度は市場の注目度を反映する。

アカウント

username

専門

特性

バイアス

Peter Brandt

PeterLBrandt

コモディティ全般・クラシカルチャート

40年以上のトレーディング経験。クラシカルチャートパターン分析の第一人者。フォロワー76.8万人

中立(テクニカル)

Ole S Hansen

Ole_S_Hansen

コモディティ全般(金・銅・原油)

Saxo Bank コモディティ戦略部門長。ファンダメンタルズとテクニカルの両面からほぼ毎日分析を発信

中立(機関投資家視点)

SentimenTrader

sentimentrader

市場センチメント指標

独自のセンチメントモデルで投資家の楽観・悲観・リスクレベルを定量化。株式・セクター・コモディティ・債券をカバー

中立(定量分析)

カテゴリ5: データ・ニュースフィード

リアルタイムの価格データ、COTレポート、在庫データ等の定量情報を提供するアカウント。センチメント分析よりもイベント検知・アラート用途。

アカウント

username

専門

特性

バイアス

Barchart

Barchart

マーケットデータ全般

リアルタイム価格データ、チャート、トレーディングインサイト。株式・コモディティ・通貨をカバー

中立(データプロバイダー)

Lior Cohen

Tradingnrg

金・銀・原油

コモディティ全般の投資シグナルと分析を提供。タイムリーな更新

中立(分析的)

金ミニトレードへの活用方針

優先収集アカウント

金ミニ(ac=0318)のトレードに最も関連性の高いアカウントを優先的に収集する:

優先度

アカウント

理由

1

GoldTelegraph_

金関連39.6%、速報性高い、収集済みサンプルあり

1

JanGold_

金特化のデータドリブン分析、中央銀行動向

1

Ole_S_Hansen

機関投資家視点の金分析、ほぼ日次の発信

2

PeterSchiff

影響力大、金市場のセンチメント形成に寄与

2

TaviCosta

マクロ+コモディティの構造的分析

2

LukeGromen

FOMC・金利政策の先行分析(NSN戦略3の最重要特徴量)

3

KitcoNewsNOW

中立的なニュースソースとしてバイアス補正に利用

3

sentimentrader

定量的センチメント指標との照合

既存戦略との統合構想

CTA シグナル(SMA クロスオーバー)
    ↓ フィルタ1
ゴールドレポート全文センチメント(週次方向性)
    ↓ フィルタ2
NSN バックナンバー記事センチメント(日次確信度補強)
    ↓ フィルタ3(新規)
X ポストセンチメント(リアルタイム市場注目度)
トレード判断

分析手法の検討

手法

適合度

理由

キーワードベース(NSN戦略1方式)

英語の暗示的・皮肉的表現に対応困難

TF-IDF(NSN戦略2方式)

短文テキストでは特徴量が不安定

LLM ベース分類

文脈理解による正確なセンチメント判定。日次4〜5件/アカウントでコスト的にも現実的

エンゲージメント加重

いいね数・閲覧数で市場の関心度合いを反映。キーワード不要

投稿頻度分析

特定トピックの投稿増加をイベント検知として利用

必要データ量の目安

バックテスト検証に必要な最低データ量:

検証項目

必要期間

必要ポスト数(1アカウント)

週次センチメントの相関分析

1年

約1,500件

ウォークフォワード検証

2年(うち訓練52週)

約3,000件

イベント期の先行性検証

4年(主要イベント網羅)

約6,000件

上記の推定は GoldTelegraph_ のサンプルデータ(679件/5ヶ月、リツイート除外後4.3件/日 ≒ 約1,570件/年)に基づく。アカウントにより投稿頻度は大きく異なり(WallStreetSilv は高頻度、JanGold_ は低頻度)、実際の収集開始後にアカウント別の実測値で再評価する必要がある。

目標収集期間: 2022年〜現在(既存ゴールドレポート・NSNデータと重複する期間)

バイアス管理

単一アカウントのバイアスリスク

GoldTelegraph_ のサンプル分析から、以下のバイアスが確認された:

  • Gold 偏重: 全投稿の39.6%が金関連(銀10.9%、銅10.5%、原油5.3%)

  • ブルバイアス: 「record high」(19件) > 「crash」(2件)。強気表現が圧倒的に多い

  • 脱ドル化ナラティブ: BRICS・中国・中央銀行の金購入を頻繁に取り上げ、ドル覇権崩壊を示唆

バイアス緩和策

  1. 複数アカウントのアンサンブル: 異なる立場(ブル/ベア/中立)のアカウントを組み合わせ

  2. バイアス係数の導入: 各アカウントの過去的中率に基づく重み付け

  3. 中立ソースの基準化: KitcoNewsNOW、Barchart 等のニュースフィードを基準線として使用

  4. エンゲージメント正規化: アカウント間のフォロワー数差を補正

参考文献

  • [1] Tetlock, P.C. (2007). “Giving Content to Investor Sentiment: The Role of Media in the Stock Market.” The Journal of Finance, 62(3), 1139-1168. https://doi.org/10.1111/j.1540-6261.2007.01232.x

  • [2] Ke, Z.T., Kelly, B.T. and Xiu, D. (2019). “Predicting Returns with Text Data.” NBER Working Paper No. 26186. https://www.nber.org/papers/w26186

  • [3] Greyling, T. and Rossouw, S. (2022). “Sentiment, emotions and stock market predictability in developed and emerging markets.” Finance India, 36(3), 907-939. https://cepr.org/voxeu/columns/twitter-sentiment-and-stock-market-movements-predictive-power-social-media

データ参照