概要
-
エンティティ注釈(NER): 人物、場所、製品、組織などのエンティティが含まれ、
entityペイロードセクションで提供されます。Post テキスト内で明示的に言及された内容(固有表現認識)に基づき、プログラムによって付与されます。 - コンテキスト注釈: Post のテキスト分析に基づいて導出されるもので、コンテキスト注釈には、従来は見つけにくかったトピックに関する Post を発見しやすくするためのドメインとエンティティの組み合わせが含まれます。現在、Post を分類するために 80 以上のドメインを使用しています。利用可能なコンテキスト注釈エンティティの CSV ファイルは、GitHub リポジトリで提供しています。
Post のアノテーションの種類
エンティティ
entities フィールド内でプログラム的に定義されたエンティティで、ペイロード内では注釈として反映されます。各注釈には信頼度スコアがあり、Post テキスト内のどこにエンティティが検出されたか(start と end フィールドを使用)を示します。
エンティティ注釈のタイプには以下が含まれます:
- 人物 - 例: Barack Obama、Daniel、George W. Bush
- 場所 - 例: Detroit、Cali、San Francisco
- 製品 - 例: Mountain Dew、Mozilla Firefox
- 組織 - 例: Chicago White Sox、IBM
- その他 - 例: Diabetes、Super Bowl 50
コンテキスト
context_annotations フィールドで提供されます。これは、Post テキスト内のキーワード、ハッシュタグ、ハンドルなどのセマンティック解析に基づいて推定され、ドメインおよび/またはエンティティのラベルとして付与されます。現在、以下の表に示すとおり、80以上のドメインを使用しています。
| ドメインカテゴリ | ドメインコード |
|---|---|
| 3: テレビ番組 | 46: ブランドカテゴリ |
| 4: テレビエピソード | 47: ブランド |
| 6: スポーツイベント | 48: 製品 |
| 10: 人物 | 54: ミュージシャン |
| 11: スポーツ | 55: 音楽ジャンル |
| 12: スポーツチーム | 56: 俳優 |
| 13: 場所 | 58: エンタメ著名人 |
| 22: テレビジャンル | 60: アスリート |
| 23: テレビチャンネル | 65: 関心・趣味のバーティカル |
| 26: スポーツリーグ | 66: 関心・趣味のカテゴリ |
| 27: アメリカンフットボールの試合 | 67: 関心・趣味 |
| 28: NFLの試合 | 68: ホッケーの試合 |
| 29: イベント | 71: ビデオゲーム |
| 31: コミュニティ | 78: ビデオゲームパブリッシャー |
| 35: 政治家 | 79: ビデオゲームハードウェア |
| 38: 選挙戦 | 83: クリケットの試合 |
| 39: バスケットボールの試合 | 84: 書籍 |
| 40: スポーツシリーズ | 85: 書籍ジャンル |
| 43: サッカーの試合 | 86: 映画 |
| 44: 野球の試合 | 87: 映画ジャンル |
| 45: ブランドのバーティカル | 88: 政治機関 |
| 46: ブランドカテゴリ | 89: 音楽アルバム |
| 47: ブランド | 90: ラジオ局 |
| 48: 製品 | 91: ポッドキャスト |
| 54: ミュージシャン | 92: スポーツ著名人 |
| 55: 音楽ジャンル | 93: コーチ |
| 56: 俳優 | 94: ジャーナリスト |
| 58: エンタメ著名人 | 95: テレビチャンネル [Entity Service] |
| 60: アスリート | 109: 定期的なトレンド |
| 65: 関心・趣味のバーティカル | 110: バイラルアカウント |
| 66: 関心・趣味のカテゴリ | 114: コンサート |
| 67: 関心・趣味 | 115: ビデオゲームカンファレンス |
| 68: ホッケーの試合 | 116: ビデオゲームトーナメント |
| 71: ビデオゲーム | 117: 映画祭 |
| 78: ビデオゲームパブリッシャー | 118: 授賞式 |
| 79: ビデオゲームハードウェア | 119: 祝日・記念日 |
| 83: クリケットの試合 | 120: デジタルクリエイター |
| 84: 書籍 | 122: 架空のキャラクター |
| 85: 書籍ジャンル | 130: マルチメディアフランチャイズ |
| 86: 映画 | 131: Unified Twitter Taxonomy |
| 87: 映画ジャンル | 136: ビデオゲーム分野の著名人 |
| 88: 政治機関 | 137: eスポーツチーム |
| 89: 音楽アルバム | 138: eスポーツ選手 |
| 90: ラジオ局 | 139: ファンコミュニティ |
| 91: ポッドキャスト | 149: eスポーツリーグ |
| 92: スポーツ著名人 | 152: 食品 |
| 93: コーチ | 155: 天気 |
| 94: ジャーナリスト | 156: 都市 |
| 95: テレビチャンネル [Entity Service] | 157: 短期大学・大学 |
| 109: 定期的なトレンド | 158: 名所・スポット |
| 110: バイラルアカウント | 159: 州 |
| 114: コンサート | 160: 国 |
| 115: ビデオゲームカンファレンス | 162: エクササイズ&フィットネス |
| 116: ビデオゲームトーナメント | 163: 旅行 |
| 117: 映画祭 | 164: 学問分野 |
| 118: 授賞式 | 165: テクノロジー |
| 119: 祝日・記念日 | 166: 株式 |
| 120: デジタルクリエイター | 167: 動物 |
| 122: 架空のキャラクター | 171: ローカルニュース |
| 130: マルチメディアフランチャイズ | 172: 世界的なテレビ番組 |
| 131: Unified Twitter Taxonomy | 173: Google Product Taxonomy |
| 136: ビデオゲーム分野の著名人 | 174: デジタル資産&暗号資産 |
| 137: eスポーツチーム | 175: 緊急事態イベント |
| 138: eスポーツ選手 |
アノテーションの要求
リクエストの例
サンプル応答
サンプルアプリ
よくあるご質問
コンテキスト注釈
Twitter のコンテキスト注釈はどのように機能しますか?
Twitter のコンテキスト注釈はどのように機能しますか?
X では Tweet をセマンティックに分類します。これは、特定のトピックに関連するキーワード、ハッシュタグ、@ハンドルのリストを選定することを意味します。Tweet に指定したテキストが含まれていれば、適切にラベル付けされます。これは、モデルを特定のテキスト(この場合は Tweet)を分類するように学習させ、出力/分類とあわせて確率スコアを生成する機械学習アプローチとは異なります。
御社のdataが完全で信頼できることは、どのように確認できますか?
御社のdataが完全で信頼できることは、どのように確認できますか?
Xのアノテーションは、ドメインの専門家が、数年にわたり洗練してきたリサーチおよびQAプロセスを用いて作成・管理しています。このプロセスは、精度と再現率の高水準を維持できる範囲でdataトラッキングを拡張するためのカスタムツールによって支えられています。さらに、当社のdataは内部チームが定期的に監査しており、直近の数四半期にわたり約80%の精度スコアを維持しています。
どのように正確性を担保していますか?
どのように正確性を担保していますか?
チームメンバーは、精度と再現率を高水準に保つため、日々エンティティの品質確認(QA)を実施しています。さらに、四半期ごとに内部チームが監査を行い、全ドメイン横断で10,000件のTweetを手作業でレビューして精度スコアを算出します。
何を追跡対象にするか、どのように決めますか?
何を追跡対象にするか、どのように決めますか?
スポーツやテレビなどの一部のドメインでは、グラフを構築するために自動インジェストに依存しています。ニュース領域では、Twitter Moments チームが公開したストーリーに関するデータを追跡しています。それ以外では、プラットフォーム上で会話量の多いトピックを特定するために、チームはさまざまなリサーチ手法を用いています。
Tweet Annotations では、どの範囲まで過去データがサポートされていますか?
Tweet Annotations では、どの範囲まで過去データがサポートされていますか?
エンティティが公開された時点からデータ追跡が始まります。したがって、特定のエンティティの追跡開始前に公開されたTweetに注釈を付与することはありません。たとえば、新興のブランド/企業がタクソノミーに追加された場合、その注釈が追加される前に当該ブランドについて投稿されたTweetに対して、遡って注釈を付与することはありません。
Twitterは英語以外の言語のTweetに注釈を付けられますか? 可能な場合、対応している言語はどれで、注釈が付与されるTweetのカバレッジは変わりますか?
Twitterは英語以外の言語のTweetに注釈を付けられますか? 可能な場合、対応している言語はどれで、注釈が付与されるTweetのカバレッジは変わりますか?
はい。対応言語はドメインや市場によって異なる場合があります。英語と日本語は、主要な大規模エンティティの大半で対象に含まれます。以下は、現在対象となっている言語と主な市場の一覧です:
- 英語(米国、英国)
- 日本語(日本)
- ポルトガル語(ブラジル)
- スペイン語(アルゼンチン、メキシコ、スペイン)
- ヒンディー語(インド)
- アラビア語(サウジアラビア)
- トルコ語(トルコ)
- インドネシア語(インドネシア)
- ロシア語(ロシア)
- フランス語(フランス)
- ドイツ語(ドイツ)
- タミル語(インド)
| 順位 | 国コード | 国名 | 注釈付きTweetの割合 |
|---|---|---|---|
| 1 | IN | インド | 41% |
| 2 | VN | ベトナム | 36% |
| 3 | GB | 英国 | 36% |
| 4 | EC | エクアドル | 35% |
| 5 | PE | ペルー | 33% |
| 6 | US | 米国 | 32% |
| 7 | CA | カナダ | 32% |
| 8 | AU | オーストラリア | 31% |
| 9 | JP | 日本 | 31% |
| 10 | PH | フィリピン | 30% |
| 11 | SG | シンガポール | 30% |
| 12 | MY | マレーシア | 30% |
| 13 | MX | メキシコ | 30% |
| 14 | GB | 英国 | 29% |
| 15 | NG | ナイジェリア | 29% |
Twitter は、Tweet に注釈を付ける際、どのような基盤的な「セマンティクス」に基づいていますか?
Twitter は、Tweet に注釈を付ける際、どのような基盤的な「セマンティクス」に基づいていますか?
Tweet のアノテーションは、Tweet に注釈を付けるために次のセマンティクスで構成されます:
- アカウント — 特定のハンドルからのツイート、またはそのハンドルへの言及を含むツイートに注釈を付けられます
- ハッシュタグ
- キーワード/フレーズ
一部のTweetにエンティティが関連付けられているのに、ほかのTweetには関連付けられていないのはなぜですか?
一部のTweetにエンティティが関連付けられているのに、ほかのTweetには関連付けられていないのはなぜですか?
目標はできる限り多くの Tweet に注釈を付与することですが、いくつかの理由で注釈が付与されない Tweet もあります:
- 一部の Tweet は意味的な情報量が十分でなく、現在の注釈ルールではラベリングやタグ付けができません
- 一部の Tweet はトピック性がありません
- 非常に短命なトピックを扱っており、当社のグラフに含まれていない場合があります
- 当社がその言語/市場をカバーしていません
- 言語/市場はカバーしているものの、既に追跡しているトピックに関連するトピックや特定の用語/アカウント/ハッシュタグが不足しています
複数のドメインがある場合(例:[3,30])、Entity ID は同じままですか?
複数のドメインがある場合(例:[3,30])、Entity ID は同じままですか?
エンティティは複数のドメインに属する場合があります。ドメインのidは変わりますが、エンティティのidは変わりません。Donald Gloverは人物(ドメイン 10)、俳優(ドメイン 56)、音楽家(ドメイン 54)ですが、彼のエンティティのidは 875072662527029248 のままです。
番組や映画のトラッキングに、あらかじめ定められた期間はありますか?つまり、リリースの前後でどのくらいの期間トラッキングしますか?
番組や映画のトラッキングに、あらかじめ定められた期間はありますか?つまり、リリースの前後でどのくらいの期間トラッキングしますか?
追跡はリリースの1か月前から開始します。Marvel作品のような人気の大作については、公開の予告が始まり次第、追跡を開始できます。
映画にも、テレビ番組と同様のロケールフィルターはありますか?
映画にも、テレビ番組と同様のロケールフィルターはありますか?
いいえ、違います。