Zum Hauptinhalt springen

Übersicht

Annotations wurden dem Post-Objekt in allen v2 endpoint zurückgegeben. Post-Annotations bieten eine Möglichkeit, kontextbezogene Informationen über den Post selbst zu verstehen. Obwohl 100 % der Posts geprüft werden, wird aufgrund des Inhalts des Post-Texts nur ein Teil annotiert.
  1. Entity-Annotations (NER): Entities umfassen Personen, Orte, Produkte und Organisationen und werden im entity-Payload-Abschnitt bereitgestellt. Sie werden programmatisch basierend auf dem, was im Post-Text ausdrücklich erwähnt wird (Named-Entity Recognition), zugewiesen.
  2. Context-Annotations: Abgeleitet aus der Analyse des Textes eines Posts enthalten Context-Annotations eine Kombination aus Domain und Entity, um Posts zu Themen zu entdecken, die zuvor möglicherweise schwer auffindbar waren. Wir verwenden derzeit über 80 Domains, um Posts zu kategorisieren. Eine CSV-Datei der verfügbaren Context-Annotation-Entities ist in unserem GitHub-Repository verfügbar.

Post-Annotationstypen

Entities

Entitätsannotationen sind programmatisch definierte Entitäten innerhalb des entities-Felds und werden im Payload als Annotations wiedergegeben. Jede Annotation hat einen Konfidenzwert und gibt an, wo im Post-Text die Entitäten identifiziert wurden (mithilfe der Felder start und end). Die Typen von Entitätsannotationen umfassen:
  • Person - Beispiele: Barack Obama, Daniel, George W. Bush
  • Ort - Beispiele: Detroit, Cali, San Francisco
  • Produkt - Beispiele: Mountain Dew, Mozilla Firefox
  • Organisation - Beispiele: Chicago White Sox, IBM
  • Sonstiges - Beispiele: Diabetes, Super Bowl 50

Kontext

Zuletzt aktualisiert: Juni 2022 Kontext-Annotations werden im Feld context_annotations der Nutzlast bereitgestellt. Sie werden auf Grundlage einer semantischen Analyse von Schlüsselwörtern, Hashtags, Handles usw. im Post-Text abgeleitet und führen zu Domänen- und/oder Entitätslabels. Derzeit verwenden wir über 80 Domänen, wie in der Tabelle unten gezeigt.
DomänenkategorienDomänencodes
3: TV-Sendungen46: Markenkategorie
4: TV-Episoden47: Marke
6: Sportereignisse48: Produkt
10: Person54: Musiker
11: Sport55: Musikgenre
12: Sportteam56: Schauspieler
13: Ort58: Unterhaltungspersönlichkeit
22: TV-Genres60: Athlet
23: TV-Kanäle65: Interessen- und Hobby-Vertical
26: Sportliga66: Interessen- und Hobby-Kategorie
27: American-Football-Spiel67: Interessen und Hobbys
28: NFL-Spiel68: Hockeyspiel
29: Ereignisse71: Videospiel
31: Community78: Videospiel-Publisher
35: Politiker79: Videospiel-Hardware
38: Wahlkampf83: Cricket-Spiel
39: Basketballspiel84: Buch
40: Sportserie85: Buchgenre
43: Fußballspiel86: Film
44: Baseballspiel87: Filmgenre
45: Marken-Vertical88: Politisches Gremium
46: Markenkategorie89: Musikalbum
47: Marke90: Radiosender
48: Produkt91: Podcast
54: Musiker92: Sportpersönlichkeit
55: Musikgenre93: Trainer
56: Schauspieler94: Journalist
58: Unterhaltungspersönlichkeit95: TV-Kanal [Entity Service]
60: Athlet109: Wiederkehrende Trends
65: Interessen- und Hobby-Vertical110: Virale Accounts
66: Interessen- und Hobby-Kategorie114: Konzert
67: Interessen und Hobbys115: Videospielkonferenz
68: Hockeyspiel116: Videospielturnier
71: Videospiel117: Filmfestival
78: Videospiel-Publisher118: Preisverleihung
79: Videospiel-Hardware119: Feiertag
83: Cricket-Spiel120: Digitaler Creator
84: Buch122: Fiktive Figur
85: Buchgenre130: Multimedia-Franchise
86: Film131: Vereinheitlichte Twitter-Taxonomie
87: Filmgenre136: Videospielpersönlichkeit
88: Politisches Gremium137: Esports-Team
89: Musikalbum138: Esports-Spieler
90: Radiosender139: Fan-Community
91: Podcast149: Esports-Liga
92: Sportpersönlichkeit152: Lebensmittel
93: Trainer155: Wetter
94: Journalist156: Städte
95: TV-Kanal [Entity Service]157: Hochschulen & Universitäten
109: Wiederkehrende Trends158: Sehenswürdigkeiten
110: Virale Accounts159: Bundesstaaten
114: Konzert160: Länder
115: Videospielkonferenz162: Bewegung & Fitness
116: Videospielturnier163: Reisen
117: Filmfestival164: Studienfächer
118: Preisverleihung165: Technologie
119: Feiertag166: Aktien
120: Digitaler Creator167: Tiere
122: Fiktive Figur171: Lokale Nachrichten
130: Multimedia-Franchise172: Globale TV-Sendung
131: Vereinheitlichte Twitter-Taxonomie173: Google-Produkt-Taxonomie
136: Videospielpersönlichkeit174: Digitale Vermögenswerte & Krypto
137: Esports-Team175: Notfallereignisse
138: Esports-Spieler
Hinweis: Domain 131 (Unified Twitter Taxonomy) bezieht sich auf die nutzerorientierte Interessen-Taxonomie von X. Diese Taxonomie unterstützt Funktionen auf der Plattform wie Topics.

Annotations anfordern

Beispielanfrage

curl --location --request GET 'https://api.x.com/2/tweets/1212092628029698048?tweet.fields=context_annotations,entities' --header 'Authorization: Bearer $BEARER_TOKEN'

Beispielantwort

{
    "data": {
        "context_annotations": [
            {
                "domain": {
                    "id": "119",
                    "name": "Feiertag",
                    "description": "Feiertage wie Weihnachten oder Halloween"
                },
                "entity": {
                    "id": "1186637514896920576",
                    "name": "Silvester"
                }
            },
            {
                "domain": {
                    "id": "119",
                    "name": "Feiertag",
                    "description": "Feiertage wie Weihnachten oder Halloween"
                },
                "entity": {
                    "id": "1206982436287963136",
                    "name": "Frohes neues Jahr: Endlich ist überall 2020!",
                    "description": "Erleben Sie Feuerwerke und andere Feierlichkeiten, während Menschen auf der ganzen Welt das neue Jahr begrüßen.\nFoto über @GettyImages"
                }
            },
            {
                "domain": {
                    "id": "45",
                    "name": "Markenbereich",
                    "description": "Übergeordnete Entitäten, die die Branche einer Marke beschreiben"
                }
            },
            {
                "domain": {
                    "id": "46",
                    "name": "Markenkategorie",
                    "description": "Kategorien innerhalb von Markenbereichen, die den Umfang von Marken eingrenzen"
                },
                "entity": {
                    "id": "781974596752842752",
                    "name": "Dienstleistungen"
                }
            },
            {
                "domain": {
                    "id": "47",
                    "name": "Marke",
                    "description": "Marken und Unternehmen"
                },
                "entity": {
                    "id": "10045225402",
                    "name": "Twitter"
                }
            }
        ],
        "entities": {
            "annotations": [
                {
                    "start": 144,
                    "end": 150,
                    "probability": 0.626,
                    "type": "Product",
                    "normalized_text": "Twitter"
                }
            ],
            "urls": [
                {
                    "start": 222,
                    "end": 245,
                    "url": "https://t.co/yvxdK6aOo2",
                    "expanded_url": "https://x.com/LovesNandos/status/1211797914437259264/photo/1",
                    "display_url": "pic.x.com/yvxdK6aOo2"
                }
            ]
        },
        "id": "1212092628029698048",
        "text": "Wir sind überzeugt, dass die beste zukünftige Version unserer API entstehen wird, indem wir sie gemeinsam mit IHNEN entwickeln. Auf ein weiteres großartiges Jahr mit allen, die auf der Twitter-Plattform entwickeln. Wir freuen uns darauf, im neuen Jahr weiter mit Ihnen zu arbeiten. https://t.co/yvxdK6aOo2"
    }
}

Beispiel-App

Sehen Sie sich den Post Entity Extractor auf Glitch an, um Kontext-Annotations in Posts leicht zu entdecken und zu sehen, wie diese Funktion arbeitet.

Häufige Fragen

Kontext-Annotations

Die folgenden Fragen beziehen sich speziell auf das Kontext-Element der Tweet-Annotations. Weitere Details finden Sie auf der Seite Übersicht.
X klassifiziert Tweets semantisch. Das bedeutet, dass wir Listen von Schlüsselwörtern, Hashtags und @Handles zusammenstellen, die für ein bestimmtes Thema relevant sind. Enthält ein Tweet den von uns festgelegten Text, wird er entsprechend gekennzeichnet. Dies unterscheidet sich von einem Machine‑Learning‑Ansatz, bei dem ein Modell speziell darauf trainiert wird, Text (in diesem Fall Tweets) zu klassifizieren und zusammen mit dem Ergebnis bzw. der Klassifizierung eine Wahrscheinlichkeitsbewertung auszugeben.
Die Annotations von X werden von Fachexpertinnen und -experten kuratiert und basieren auf Forschungs- und QA-Prozessen, die über mehrere Jahre hinweg verfeinert wurden. Der Prozess wird durch maßgeschneiderte Tools unterstützt, um das Tracking von data so weit zu skalieren, wie wir eine hervorragende Präzision und einen hohen Recall aufrechterhalten können. Darüber hinaus werden unsere data regelmäßig von einem internen Team geprüft und haben in den vergangenen Quartalen eine Präzisionsbewertung von ca. 80 % erhalten.
Teammitglieder prüfen unsere Entities täglich, um hohe Präzision und Recall sicherzustellen. Zusätzlich wird unsere Arbeit vierteljährlich von einem internen Team geprüft, das manuell 10.000 Tweets aus all unseren Domänen überprüft, um einen Präzisionswert zu berechnen.
Für einige Bereiche wie Sport und TV setzen wir auf automatisierte Erfassung, um unseren Graphen aufzubauen. Im Bereich Nachrichten verfolgen wir data zu Stories, die vom Twitter-Moments-Team veröffentlicht wurden. Ansonsten nutzt das Team verschiedene Forschungsmethoden, um Themen zu identifizieren, die auf der Plattform besonders viele Gespräche auslösen.
Die Datenerfassung beginnt in dem Moment, in dem eine Entität veröffentlicht wird; daher versehen wir keine Tweets mit Annotationen, die vor Beginn der Erfassung einer bestimmten Entität veröffentlicht wurden. Wenn beispielsweise eine aufstrebende Marke oder ein aufstrebendes Unternehmen zur Taxonomie hinzugefügt wird, versehen wir Tweets über diese Marke nicht rückwirkend mit Annotationen, die vor dem Zeitpunkt der Hinzufügung erstellt wurden.
Ja. Die Sprachabdeckung kann je nach Domäne und Markt variieren. Englisch und Japanisch sind in der Mehrzahl der größten Entitäten enthalten. Nachfolgend finden Sie eine Liste der Sprachen und Hauptmärkte, die derzeit abgedeckt sind:
  1. Englisch (USA, UK)
  2. Japanisch (Japan)
  3. Portugiesisch (Brasilien)
  4. Spanisch (Argentinien, Mexiko, Spanien)
  5. Hindi (Indien)
  6. Arabisch (Saudi-Arabien)
  7. Türkisch (Türkei)
  8. Indonesisch (Indonesien)
  9. Russisch (Russland)
  10. Französisch (Frankreich)
Demnächst verfügbar (~H2 2021):
  1. Deutsch (Deutschland)
  2. Tamil (Indien)
Nachfolgend finden Sie eine Tabelle der Top-15-Länder, geordnet nach dem höchsten Anteil annotierter Tweets:
RangLändercodeLand% der annotierten Tweets
1INIndien41%
2VNVietnam36%
3GBGroßbritannien36%
4ECEcuador35%
5PEPeru33%
6USVereinigte Staaten32%
7CAKanada32%
8AUAustralien31%
9JPJapan31%
10PHPhilippinen30%
11SGSingapur30%
12MYMalaysia30%
13MXMexiko30%
14GBGroßbritannien29%
15NGNigeria29%
Tweet-Annotations bestehen aus folgenden Semantiken zur Anreicherung eines Tweets:
  • Accounts – wir können tweets eines bestimmten Handles oder mit Erwähnung dieses Handles annotieren
  • Hashtags
  • Schlüsselwörter/Phrasen
Für Kunden, die mit gefilterten Streaming-APIs wie PowerTrack vertraut sind, ähneln die von Annotations verwendeten Semantiken grundsätzlich den booleschen Regeln, die zum Filtern eines Streams von Tweets definiert sind. Wenn ein Tweet die zugrunde liegenden semantischen Bedingungen erfüllt, wird er entsprechend gekennzeichnet.
Das Ziel ist, so viele Tweets wie möglich zu annotieren; es gibt jedoch mehrere Gründe, warum einige Tweets nicht annotiert werden:
  • Einige Tweets sind semantisch nicht aussagekräftig genug, um gekennzeichnet zu werden, und können mit unseren aktuellen Annotierungsregeln nicht getaggt werden
  • Einige Tweets sind thematisch nicht relevant
  • Der Tweet bezieht sich auf ein sehr kurzlebiges Thema, das nicht in unserem Graph enthalten ist
  • Wir decken die Sprache/den Markt nicht ab
  • Wir decken die Sprache/den Markt ab, es fehlt uns jedoch ein Thema oder ein spezifischer Begriff/Account/Hashtag, der mit einem Thema zusammenhängt, das wir bereits tracken
Eine Entität kann mehreren Domains angehören. Die Domain-IDs können variieren, aber die Entitäts-id bleibt gleich. Donald Glover ist eine Person (Domain 10), ein Schauspieler (Domain 56) und ein Musiker (Domain 54), aber seine Entitäts-id ist weiterhin 875072662527029248.
Das Tracking beginnt einen Monat vor der Veröffentlichung. Bei beliebten Blockbustern, etwa einem Marvel-Film, können wir mit dem Tracking beginnen, sobald erste Hinweise auf einen bevorstehenden Start erscheinen.
Nein, tun sie das nicht.
I