概要
-
エンティティ注釈(NER): エンティティには人物、場所、製品、組織が含まれ、
entity
ペイロードセクションで提供されます。Post テキスト内で明示的に言及されている内容(固有表現認識)に基づき、プログラムで割り当てられます。 - コンテキスト注釈: Post のテキスト分析に基づいて導出されるコンテキスト注釈には、ドメインとエンティティの組み合わせが含まれ、これまで可視化が難しかったトピックに関する Posts の発見に役立ちます。現在、Posts を分類するために 80 以上のドメインを使用しています。利用可能な context annotation エンティティの CSV ファイルは、当社の GitHub リポジトリ で入手できます。
Post アノテーションのタイプ
エンティティ
entities
フィールド内でプログラムによって定義されたエンティティで、ペイロードでは annotations として反映されます。各注釈には信頼度スコアが含まれ、Post のテキスト内でエンティティが検出された位置(start
と end
fields を使用)を示します。
エンティティ注釈のタイプには次が含まれます:
- Person - 例: Barack Obama、Daniel、George W. Bush
- Place - 例: Detroit、Cali、San Francisco
- Product - 例: Mountain Dew、Mozilla Firefox
- Organization - 例: Chicago White Sox、IBM
- Other - 例: Diabetes、Super Bowl 50
コンテキスト
context_annotations
フィールドで提供されます。これは、Post テキスト内のキーワード、ハッシュタグ、ハンドルなどの意味解析に基づいて推定され、ドメインやエンティティのラベルとして付与されます。現在、以下の表に示すとおり、80以上のドメインを使用しています。
ドメインカテゴリ | ドメインコード |
---|---|
3: テレビ番組 | 46: ブランドカテゴリ |
4: テレビエピソード | 47: ブランド |
6: スポーツイベント | 48: 製品 |
10: 人物 | 54: ミュージシャン |
11: スポーツ | 55: 音楽ジャンル |
12: スポーツチーム | 56: 俳優 |
13: 場所 | 58: エンターテインメント著名人 |
22: テレビジャンル | 60: アスリート |
23: テレビチャンネル | 65: 関心・趣味バーティカル |
26: スポーツリーグ | 66: 関心・趣味カテゴリ |
27: アメリカンフットボールの試合 | 67: 関心・趣味 |
28: NFLの試合 | 68: ホッケーの試合 |
29: イベント | 71: ビデオゲーム |
31: コミュニティ | 78: ビデオゲームパブリッシャー |
35: 政治家 | 79: ビデオゲームハードウェア |
38: 選挙戦 | 83: クリケットの試合 |
39: バスケットボールの試合 | 84: 書籍 |
40: スポーツシリーズ | 85: 書籍ジャンル |
43: サッカーの試合 | 86: 映画 |
44: 野球の試合 | 87: 映画ジャンル |
45: ブランドバーティカル | 88: 政治機関 |
46: ブランドカテゴリ | 89: 音楽アルバム |
47: ブランド | 90: ラジオ局 |
48: 製品 | 91: ポッドキャスト |
54: ミュージシャン | 92: スポーツ著名人 |
55: 音楽ジャンル | 93: コーチ |
56: 俳優 | 94: ジャーナリスト |
58: エンターテインメント著名人 | 95: テレビチャンネル[エンティティサービス] |
60: アスリート | 109: 定期的トレンド |
65: 関心・趣味バーティカル | 110: バイラルアカウント |
66: 関心・趣味カテゴリ | 114: コンサート |
67: 関心・趣味 | 115: ビデオゲームカンファレンス |
68: ホッケーの試合 | 116: ビデオゲームトーナメント |
71: ビデオゲーム | 117: 映画祭 |
78: ビデオゲームパブリッシャー | 118: 授賞式 |
79: ビデオゲームハードウェア | 119: 祝日 |
83: クリケットの試合 | 120: デジタルクリエイター |
84: 書籍 | 122: 架空のキャラクター |
85: 書籍ジャンル | 130: マルチメディアフランチャイズ |
86: 映画 | 131: 統合Twitter分類法 |
87: 映画ジャンル | 136: ビデオゲーム関連著名人 |
88: 政治機関 | 137: eスポーツチーム |
89: 音楽アルバム | 138: eスポーツ選手 |
90: ラジオ局 | 139: ファンコミュニティ |
91: ポッドキャスト | 149: eスポーツリーグ |
92: スポーツ著名人 | 152: 食品 |
93: コーチ | 155: 天気 |
94: ジャーナリスト | 156: 都市 |
95: テレビチャンネル[エンティティサービス] | 157: 大学 |
109: 定期的トレンド | 158: 名所・スポット |
110: バイラルアカウント | 159: 州 |
114: コンサート | 160: 国 |
115: ビデオゲームカンファレンス | 162: エクササイズ&フィットネス |
116: ビデオゲームトーナメント | 163: 旅行 |
117: 映画祭 | 164: 学問分野 |
118: 授賞式 | 165: テクノロジー |
119: 祝日 | 166: 株式 |
120: デジタルクリエイター | 167: 動物 |
122: 架空のキャラクター | 171: ローカルニュース |
130: マルチメディアフランチャイズ | 172: グローバルテレビ番組 |
131: 統合Twitter分類法 | 173: Google製品分類 |
136: ビデオゲーム関連著名人 | 174: デジタル資産と暗号資産 |
137: eスポーツチーム | 175: 緊急事態イベント |
138: eスポーツ選手 |
annotations のリクエスト方法
リクエスト例
サンプル応答
サンプル App
よくあるご質問
コンテキスト annotations
Twitter の context annotations はどのように機能しますか?
Twitter の context annotations はどのように機能しますか?
X では Tweet を意味ベースで分類します。つまり、特定のトピックに関連するキーワード、ハッシュタグ、@handles を選定・管理したリストを用意します。Tweet に当社が指定したテキストが含まれている場合、適切にラベル付けされます。これは、モデルに特定のテキスト(この場合は Tweet)の分類を学習させ、出力(分類)と併せて確率スコアを生成する機械学習アプローチとは異なります。
あなたたちのdataは完全で信頼できると、どのように判断できますか?
あなたたちのdataは完全で信頼できると、どのように判断できますか?
Xのannotationsは、ドメインの専門家が、数年にわたり洗練されてきた調査およびQAプロセスを用いて精選しています。このプロセスは、優れた適合率と再現率を維持できる範囲でdataの追跡を拡張するカスタムツール群によって支えられています。さらに、当社のdataは社内チームが定期的に監査しており、直近数四半期にわたり約80%の適合率スコアを維持しています。
どのようにして精度を担保しますか?
どのようにして精度を担保しますか?
チームメンバーは、精度と再現率を高水準に保つため、日々エンティティの品質確認を行っています。さらに、当社の取り組みは四半期ごとに社内チームの監査を受け、全ドメインにわたる10,000件のTweetを手作業でレビューして精度スコアを算出します。
何を追跡するかはどのように決定しますか?
何を追跡するかはどのように決定しますか?
スポーツやテレビといった一部のドメインでは、自動インジェストによりグラフを構築しています。ニュースのドメインでは、Twitter Moments チームが公開したストーリーに関するdataを追跡しています。それ以外については、チームがさまざまなリサーチ手法を用いて、プラットフォーム上で活発な議論を生む追跡対象トピックを特定します。
Tweet annotations に関する過去データのサポートはどの程度利用できますか?
Tweet annotations に関する過去データのサポートはどの程度利用できますか?
エンティティが公開された時点からデータの追跡が開始されます。したがって、特定のエンティティが追跡対象になる前に公開されたTweetに注釈を付与することはありません。たとえば、新興のブランド/企業がタクソノミーに追加された場合、その注釈が追加される前に当該ブランドに関して投稿されたTweetを遡って注釈付けすることはありません。
Twitterは英語以外の言語のTweetに注釈を付与できますか? 可能な場合、対応言語はどれですか。また、注釈が付与されるTweetのカバレッジは変わりますか?
Twitterは英語以外の言語のTweetに注釈を付与できますか? 可能な場合、対応言語はどれですか。また、注釈が付与されるTweetのカバレッジは変わりますか?
はい。言語の対応範囲はドメインや市場によって異なる場合があります。英語と日本語は、主要なエンティティの大半でサポートされています。以下に、現時点で対応している言語と主要市場の一覧を示します。
- English (US, UK)
- Japanese (Japan)
- Portuguese (Brazil)
- Spanish (Argentina, Mexico, Spain)
- Hindi (India)
- Arabic (Saudi Arabia)
- Turkish (Turkey)
- Indonesian (Indonesia)
- Russian (Russia)
- French (France)
- German (Germany)
- Tamil (India)
Rank | Country code | Country | % of Tweets annotated |
---|---|---|---|
1 | IN | India | 41% |
2 | VN | Vietnam | 36% |
3 | GB | Great Britain | 36% |
4 | EC | Ecuador | 35% |
5 | PE | Peru | 33% |
6 | US | United States | 32% |
7 | CA | Canada | 32% |
8 | AU | Australia | 31% |
9 | JP | Japan | 31% |
10 | PH | Philippines | 30% |
11 | SG | Singapore | 30% |
12 | MY | Malaysia | 30% |
13 | MX | Mexico | 30% |
14 | GB | Great Britain | 29% |
15 | NG | Nigeria | 29% |
Twitterは、Tweetに注釈を付与する際に、どのような基盤となる「セマンティクス」に依拠していますか?
Twitterは、Tweetに注釈を付与する際に、どのような基盤となる「セマンティクス」に依拠していますか?
Tweet の annotations は、Tweet に注釈を付与するために次のセマンティクスで構成されます:
- アカウント — 特定のハンドルからの tweets、またはそのハンドルへの言及を含む tweets に注釈を付与できます
- ハッシュタグ
- キーワード/フレーズ
一部のTweetにのみエンティティが関連付けられているのはなぜですか?
一部のTweetにのみエンティティが関連付けられているのはなぜですか?
目標は可能な限り多くの Tweet に注釈を付与することですが、いくつかの理由により注釈が付与されない場合があります。
- 一部の Tweet は意味情報が十分でなく、現行の注釈ルールではラベル付けやタグ付けができません
- 一部の Tweet は特定のトピックに属しません
- その Tweet は当社のグラフに含まれていない、ごく短命なトピックに関するものです
- 当社が対応していない言語/市場です
- 言語/市場には対応しているものの、すでに追跡中のトピックに関連するトピックや特定の用語/アカウント/ハッシュタグのカバレッジが不足しています
複数のドメイン(例:[3,30])がある場合、Entity IDは同一のままですか?
複数のドメイン(例:[3,30])がある場合、Entity IDは同一のままですか?
エンティティは複数のドメインに属する場合があります。ドメインのidは変わりますが、エンティティのidは同じままです。Donald Gloverは人物(ドメイン 10)、俳優(ドメイン 56)、ミュージシャン(ドメイン 54)ですが、彼のエンティティのidは 875072662527029248 のままです。
番組や映画のトラッキングに関して、あらかじめ定められたタイムラインはありますか?言い換えると、公開の前後で、番組/映画はどのくらいの期間トラッキングされますか?
番組や映画のトラッキングに関して、あらかじめ定められたタイムラインはありますか?言い換えると、公開の前後で、番組/映画はどのくらいの期間トラッキングされますか?
トラッキングはリリースの1か月前から開始します。Marvel作品のような人気の大作の場合は、公開の予告が始まり次第、すぐにトラッキングを始められます。
映画にも、テレビ番組用と同様のロケールフィルターはありますか?
映画にも、テレビ番組用と同様のロケールフィルターはありますか?
いいえ、違います。