X(Twitter)センチメント分析¶
概要¶
X(旧Twitter)上の商品先物関連アカウントのポストデータからセンチメント指標を構築し、トレードシグナルの補強に活用する。テキストデータからの投資シグナル構築は先行研究でも有効性が示されており [1][2]、SNS センチメントの株式市場予測力も実証されている [3]。既存の NSN センチメント分析(NSNテキストセンチメント分析)が日本語の専門アナリスト記事を対象としているのに対し、本データソースは英語圏の複数の発信者による多角的な市場見解を収集する点が特徴である。
ソース品質基準との関係
プロジェクトのソース品質基準では SNS 投稿(X/Twitter, Reddit 等の個別投稿)を権威的出典として使用することを禁止しているが、本戦略は X 投稿を情報源として引用するのではなく、センチメント分析の生データ(入力信号)として定量的に処理する点で性質が異なる。
既存センチメント分析との位置づけ¶
データソース |
言語 |
発信者 |
頻度 |
期間 |
特性 |
|---|---|---|---|---|---|
NSNバックナンバー |
日本語 |
プロアナリスト1名 |
日次6本 |
7年 |
構造的分析・報道文体 |
ゴールドレポート |
日本語 |
NSN編集部 |
週次 |
4年 |
金特化の方向性見通し |
X ポストデータ |
英語 |
複数アカウント |
日次複数 |
収集中 |
速報性・多角的視点・暗示的表現 |
センチメント分析における課題¶
X データは NSN 記事と異なり、以下の特性を持つため分析手法の設計に注意が必要:
暗示的・皮肉的表現: 「Nothing to see here…」「This is awkward」等、辞書ベースのキーワードマッチでは捕捉困難
超短文: 絵文字のみ、価格通知のみなど、センチメント判定が困難な投稿が存在
バイアス: 各アカウントは固有の立場(Gold永久ブル等)を持ち、発信にバイアスがある
ニュースキュレーション: 独自分析よりもニュース引用+短評のスタイルが多い
これらの特性から、NSN 戦略1(ルールベース・キーワード分類)や戦略2〜5(TF-IDF、イベント検出、定量抽出等のML手法)のいずれもテキストの表層的特徴に依存しており、英語の暗示的表現の捕捉には限界がある。LLM ベースのセンチメント分類(NSN NSNテキストセンチメント分析 改良の方向性3)が推奨される。
データソース¶
格納場所・構造¶
x-data/timeline/
└── username={username}/
└── year=YYYY/
└── month=M/
└── *.parquet
Hive-style パーティション(username, year, month)で格納。DuckDB で直接クエリ可能。
スキーマ(24カラム)¶
カラム |
型 |
説明 |
|---|---|---|
post_id |
VARCHAR |
ポスト固有ID |
user_id |
VARCHAR |
ユーザー固有ID |
username |
VARCHAR |
ユーザー名 |
display_name |
VARCHAR |
表示名 |
text |
VARCHAR |
ポスト本文 |
created_at |
TIMESTAMP WITH TIME ZONE |
投稿日時 |
lang |
VARCHAR |
言語コード |
like_count |
UINTEGER |
いいね数 |
retweet_count |
UINTEGER |
リツイート数 |
reply_count |
UINTEGER |
リプライ数 |
quote_count |
UINTEGER |
引用数 |
view_count |
UBIGINT |
閲覧数 |
bookmark_count |
UINTEGER |
ブックマーク数 |
is_retweet |
BOOLEAN |
リツイートフラグ |
is_reply |
BOOLEAN |
リプライフラグ |
is_quote |
BOOLEAN |
引用ツイートフラグ |
reply_to_post_id |
VARCHAR |
リプライ先ポストID |
quoted_post_id |
VARCHAR |
引用元ポストID |
urls |
VARCHAR[] |
含まれるURL一覧 |
hashtags |
VARCHAR[] |
ハッシュタグ一覧 |
media_urls |
VARCHAR[] |
メディアURL一覧 |
fetched_at |
TIMESTAMP WITH TIME ZONE |
データ取得日時 |
year |
BIGINT |
年(パーティションキー) |
month |
BIGINT |
月(パーティションキー) |
クエリ例¶
SELECT created_at, text, like_count, view_count
FROM read_parquet('x-data/timeline/username=GoldTelegraph_/**/*.parquet',
hive_partitioning=true)
WHERE NOT is_retweet
ORDER BY created_at DESC
LIMIT 10;
収集対象アカウント¶
選定基準¶
センチメント分析のデータソースとして、以下の基準でアカウントを選定する:
コモディティ関連性: 金・銀・原油・銅等の商品先物に関する投稿が主要コンテンツ
投稿頻度: 最低でも日次1件以上の安定した投稿(週次集計に十分なサンプル数)
エンゲージメント: 一定のフォロワー数・いいね数を持ち、市場参加者に影響力がある
分析的内容: 単純な価格通知ではなく、見通し・解説・論評を含む投稿
バイアスの多様性: 可能な限り異なる立場のアカウントを含め、一方向への偏りを回避する。ただし、コモディティ市場の X アカウントはブルバイアスが構造的に強く(金・銀の永久ブルが多数派)、一貫してベアリッシュなアカウントは希少である。この制約下では、中立的なデータプロバイダー・ジャーナリストアカウントでバイアスを緩和する
カテゴリ1: 貴金属特化¶
当面の金ミニトレードにおいて最も重要なカテゴリ。金・銀を中心とした貴金属市場の見通し・分析を発信するアカウント。
アカウント |
username |
専門 |
特性 |
バイアス |
|---|---|---|---|---|
Gold Telegraph |
|
金・銀・コモディティ全般 |
ニュースキュレーション+短評。速報性が高く、BRICS・脱ドル化・中央銀行の金購入を頻繁に取り上げる。フォロワー約41万人 |
金ブル(強い) |
Peter Schiff |
|
金・銀・マクロ |
Euro Pacific Asset Management CEO。ドル安・インフレ・金上昇の論陣を長年張る。メディア露出が多く影響力大。フォロワー約100万人 |
金ブル / ドルベア(非常に強い) |
Jan Nieuwenhuijs |
|
金・中央銀行準備金・国際通貨制度 |
Money Metals アナリスト。中国の金保有量、COMEX、LBMA等の独自リサーチで国際的に認知。データドリブンな分析 |
金ブル(中程度、データ根拠あり) |
Tavi Costa |
|
金・銅・コモディティスーパーサイクル |
Crescat Capital マクロストラテジスト。マクロモデルに基づくコモディティサイクル分析。チャートとデータを多用 |
コモディティブル(中程度) |
Wall Street Silver |
|
銀・金・貴金属 |
Reddit r/WallStreetSilver発のコミュニティアカウント。銀の実物需給・COMEX在庫に注目。投稿頻度が非常に高い |
銀ブル(非常に強い) |
Kitco News |
|
貴金属全般 |
貴金属ニュース専門メディア。スポット価格、アナリストインタビュー、市場レビューを提供。比較的中立的な報道姿勢 |
中立(メディア) |
カテゴリ2: エネルギー・原油¶
原油・天然ガス等のエネルギーコモディティに特化。地政学リスク(中東情勢、OPEC動向)との連動が強い。
アカウント |
username |
専門 |
特性 |
バイアス |
|---|---|---|---|---|
John Kemp |
|
原油・天然ガス・エネルギー政策 |
元Reuters シニアマーケットアナリスト(2008〜2024)。2,700本以上のコラム実績。現在は独立コンサルタント。フォロワー6.8万人。データと政策の両面からの分析に定評 |
中立(分析的) |
Eric Nuttall |
|
原油・エネルギー株 |
Ninepoint Partners ポートフォリオマネージャー。北米エネルギー株に特化。BNN Bloomberg, CNBC等でコメント多数 |
エネルギーブル |
S&P Global Commodity Insights Oil |
|
原油・石油製品 |
S&P Global Platts のオイル部門公式アカウント。ニュースとテクニカル指標の両方をカバー。投稿頻度が高い |
中立(データプロバイダー) |
Javier Blas |
|
原油・ガス・鉱業・コモディティ全般 |
Bloomberg News チーフエネルギー特派員。フォロワー4.4万人以上。経済指標とニュースを定期的に発信 |
中立(ジャーナリスト) |
カテゴリ3: マクロ・クロスアセット¶
商品市場に直接影響するマクロ経済要因(金融政策、ドル動向、インフレ、地政学)を分析するアカウント。NSN センチメント分析の戦略3(イベント検出型)で最重要特徴量として特定された FOMC・金利政策・地政学イベントの先行検知に有用。
アカウント |
username |
専門 |
特性 |
バイアス |
|---|---|---|---|---|
Luke Gromen |
|
マクロ・ドル基軸通貨体制・コモディティ |
Forest for the Trees 創業者。公開データから経済ボトルネックを特定するマクロリサーチ。財政問題・ドル覇権の構造変化に着目 |
ドルベア / コモディティブル |
Lyn Alden |
|
マクロ・金融政策・金 |
Lyn Alden Investment Strategy 創業者。通貨制度・財政赤字・金の役割について体系的な分析を提供 |
マクロ分析的(やや金ブル) |
Holger Zschaepitz |
|
債務・金融政策・コモディティ |
Die Welt(独)ジャーナリスト。『Schulden ohne Sühne?(罰なき債務)』著者。欧州視点でのマクロ・コモディティ分析 |
中立(ジャーナリスト) |
Charlie Bilello |
|
マクロ・アセットクラス横断 |
Creative Planning チーフマーケットストラテジスト。長期アセットクラスリターン、セクターサイクル、コモディティの歴史的比較チャートを定期投稿 |
中立(データドリブン) |
Jim Rickards |
|
地政学・通貨戦争・金 |
『Currency Wars』『The New Case for Gold』著者。地政学と通貨制度の観点から金市場を分析。CIA・国防総省へのアドバイザー経験 |
金ブル(強い) |
カテゴリ4: テクニカル・トレーディング¶
チャート分析・トレーディング手法に基づくコモディティ分析。NSN センチメント分析の戦略4で「移動平均線言及」が最強の予測因子となったように、テクニカル分析の密度は市場の注目度を反映する。
アカウント |
username |
専門 |
特性 |
バイアス |
|---|---|---|---|---|
Peter Brandt |
|
コモディティ全般・クラシカルチャート |
40年以上のトレーディング経験。クラシカルチャートパターン分析の第一人者。フォロワー76.8万人 |
中立(テクニカル) |
Ole S Hansen |
|
コモディティ全般(金・銅・原油) |
Saxo Bank コモディティ戦略部門長。ファンダメンタルズとテクニカルの両面からほぼ毎日分析を発信 |
中立(機関投資家視点) |
SentimenTrader |
|
市場センチメント指標 |
独自のセンチメントモデルで投資家の楽観・悲観・リスクレベルを定量化。株式・セクター・コモディティ・債券をカバー |
中立(定量分析) |
カテゴリ5: データ・ニュースフィード¶
リアルタイムの価格データ、COTレポート、在庫データ等の定量情報を提供するアカウント。センチメント分析よりもイベント検知・アラート用途。
アカウント |
username |
専門 |
特性 |
バイアス |
|---|---|---|---|---|
Barchart |
|
マーケットデータ全般 |
リアルタイム価格データ、チャート、トレーディングインサイト。株式・コモディティ・通貨をカバー |
中立(データプロバイダー) |
Lior Cohen |
|
金・銀・原油 |
コモディティ全般の投資シグナルと分析を提供。タイムリーな更新 |
中立(分析的) |
金ミニトレードへの活用方針¶
優先収集アカウント¶
金ミニ(ac=0318)のトレードに最も関連性の高いアカウントを優先的に収集する:
優先度 |
アカウント |
理由 |
|---|---|---|
1 |
GoldTelegraph_ |
金関連39.6%、速報性高い、収集済みサンプルあり |
1 |
JanGold_ |
金特化のデータドリブン分析、中央銀行動向 |
1 |
Ole_S_Hansen |
機関投資家視点の金分析、ほぼ日次の発信 |
2 |
PeterSchiff |
影響力大、金市場のセンチメント形成に寄与 |
2 |
TaviCosta |
マクロ+コモディティの構造的分析 |
2 |
LukeGromen |
FOMC・金利政策の先行分析(NSN戦略3の最重要特徴量) |
3 |
KitcoNewsNOW |
中立的なニュースソースとしてバイアス補正に利用 |
3 |
sentimentrader |
定量的センチメント指標との照合 |
既存戦略との統合構想¶
CTA シグナル(SMA クロスオーバー)
↓ フィルタ1
ゴールドレポート全文センチメント(週次方向性)
↓ フィルタ2
NSN バックナンバー記事センチメント(日次確信度補強)
↓ フィルタ3(新規)
X ポストセンチメント(リアルタイム市場注目度)
↓
トレード判断
分析手法の検討¶
手法 |
適合度 |
理由 |
|---|---|---|
キーワードベース(NSN戦略1方式) |
低 |
英語の暗示的・皮肉的表現に対応困難 |
TF-IDF(NSN戦略2方式) |
低 |
短文テキストでは特徴量が不安定 |
LLM ベース分類 |
高 |
文脈理解による正確なセンチメント判定。日次4〜5件/アカウントでコスト的にも現実的 |
エンゲージメント加重 |
高 |
いいね数・閲覧数で市場の関心度合いを反映。キーワード不要 |
投稿頻度分析 |
中 |
特定トピックの投稿増加をイベント検知として利用 |
必要データ量の目安¶
バックテスト検証に必要な最低データ量:
検証項目 |
必要期間 |
必要ポスト数(1アカウント) |
|---|---|---|
週次センチメントの相関分析 |
1年 |
約1,500件 |
ウォークフォワード検証 |
2年(うち訓練52週) |
約3,000件 |
イベント期の先行性検証 |
4年(主要イベント網羅) |
約6,000件 |
上記の推定は GoldTelegraph_ のサンプルデータ(679件/5ヶ月、リツイート除外後4.3件/日 ≒ 約1,570件/年)に基づく。アカウントにより投稿頻度は大きく異なり(WallStreetSilv は高頻度、JanGold_ は低頻度)、実際の収集開始後にアカウント別の実測値で再評価する必要がある。
目標収集期間: 2022年〜現在(既存ゴールドレポート・NSNデータと重複する期間)
バイアス管理¶
単一アカウントのバイアスリスク¶
GoldTelegraph_ のサンプル分析から、以下のバイアスが確認された:
Gold 偏重: 全投稿の39.6%が金関連(銀10.9%、銅10.5%、原油5.3%)
ブルバイアス: 「record high」(19件) > 「crash」(2件)。強気表現が圧倒的に多い
脱ドル化ナラティブ: BRICS・中国・中央銀行の金購入を頻繁に取り上げ、ドル覇権崩壊を示唆
バイアス緩和策¶
複数アカウントのアンサンブル: 異なる立場(ブル/ベア/中立)のアカウントを組み合わせ
バイアス係数の導入: 各アカウントの過去的中率に基づく重み付け
中立ソースの基準化: KitcoNewsNOW、Barchart 等のニュースフィードを基準線として使用
エンゲージメント正規化: アカウント間のフォロワー数差を補正
参考文献¶
[1] Tetlock, P.C. (2007). “Giving Content to Investor Sentiment: The Role of Media in the Stock Market.” The Journal of Finance, 62(3), 1139-1168. https://doi.org/10.1111/j.1540-6261.2007.01232.x
[2] Ke, Z.T., Kelly, B.T. and Xiu, D. (2019). “Predicting Returns with Text Data.” NBER Working Paper No. 26186. https://www.nber.org/papers/w26186
[3] Greyling, T. and Rossouw, S. (2022). “Sentiment, emotions and stock market predictability in developed and emerging markets.” Finance India, 36(3), 907-939. https://cepr.org/voxeu/columns/twitter-sentiment-and-stock-market-movements-predictive-power-social-media
データ参照¶
X ポストデータ:
x-data/timeline/username={username}/既存センチメント分析: NSNテキストセンチメント分析
CTA+センチメント複合戦略: CTA + センチメント複合戦略
日足OHLCV: day_bars Parquet(
commodity_code = 'GOLD_MINI')