Aperçu
-
Annotations d’entités (NER) : Les entités incluent des personnes, des lieux, des produits et des organisations et sont fournies dans la section de payload
entity
. Elles sont attribuées automatiquement en fonction de ce qui est explicitement mentionné (reconnaissance d’entités nommées) dans le texte du Post. - Annotations de contexte : Issues de l’analyse du texte d’un Post, les annotations de contexte incluent un appariement domaine‑entité pour aider à découvrir des Posts sur des sujets qui étaient auparavant difficiles à mettre en évidence. Nous utilisons actuellement plus de 80 domaines pour catégoriser les Posts. Un fichier CSV des entités d’annotation de contexte disponibles est proposé dans notre GitHub repository.
Types d’annotation de Post
Entités
entities
et sont restituées comme des annotations dans la charge utile. Chaque annotation comporte un score de confiance et indique où, dans le texte du Post, les entités ont été identifiées (à l’aide des champs start
et end
).
Les types d’annotations d’entités comprennent :
- Personne - Exemples : Barack Obama, Daniel, George W. Bush
- Lieu - Exemples : Detroit, Cali, San Francisco
- Produit - Exemples : Mountain Dew, Mozilla Firefox
- Organisation - Exemples : Chicago White Sox, IBM
- Autre - Exemples : diabète, Super Bowl 50
Context
context_annotations
de la charge utile. Elles sont inférées à partir d’une analyse sémantique des mots-clés, hashtags, handles, etc., dans le texte du Post et produisent des libellés de domaine et/ou d’entité. Actuellement, nous utilisons plus de 80 domaines, comme indiqué dans le tableau ci-dessous.
Catégories de domaine | Codes de domaine |
---|---|
3: Émissions TV | 46: Catégorie de marque |
4: Épisodes TV | 47: Marque |
6: Événements sportifs | 48: Produit |
10: Personne | 54: Musicien |
11: Sport | 55: Genre musical |
12: Équipe sportive | 56: Acteur |
13: Lieu | 58: Personnalité du divertissement |
22: Genres TV | 60: Athlète |
23: Chaînes TV | 65: Vertical Centres d’intérêt et loisirs |
26: Ligue sportive | 66: Catégorie Centres d’intérêt et loisirs |
27: Match de football américain | 67: Centres d’intérêt et loisirs |
28: Match de NFL | 68: Match de hockey |
29: Événements | 71: Jeu vidéo |
31: Communauté | 78: Éditeur de jeux vidéo |
35: Politiques | 79: Matériel de jeu vidéo |
38: Course électorale | 83: Match de cricket |
39: Match de basket | 84: Livre |
40: Série sportive | 85: Genre littéraire |
43: Match de football | 86: Film |
44: Match de baseball | 87: Genre cinématographique |
45: Vertical de marque | 88: Organe politique |
46: Catégorie de marque | 89: Album musical |
47: Marque | 90: Station de radio |
48: Produit | 91: Podcast |
54: Musicien | 92: Personnalité sportive |
55: Genre musical | 93: Entraîneur |
56: Acteur | 94: Journaliste |
58: Personnalité du divertissement | 95: Chaîne TV [Entity Service] |
60: Athlète | 109: Tendances récurrentes |
65: Vertical Centres d’intérêt et loisirs | 110: Comptes viraux |
66: Catégorie Centres d’intérêt et loisirs | 114: Concert |
67: Centres d’intérêt et loisirs | 115: Conférence de jeux vidéo |
68: Match de hockey | 116: Tournoi de jeux vidéo |
71: Jeu vidéo | 117: Festival de cinéma |
78: Éditeur de jeux vidéo | 118: Cérémonie de remise de prix |
79: Matériel de jeu vidéo | 119: Jour férié |
83: Match de cricket | 120: Créateur numérique |
84: Livre | 122: Personnage fictif |
85: Genre littéraire | 130: Franchise multimédia |
86: Film | 131: Taxonomie Twitter unifiée |
87: Genre cinématographique | 136: Personnalité du jeu vidéo |
88: Organe politique | 137: Équipe d’eSports |
89: Album musical | 138: Joueur d’eSports |
90: Station de radio | 139: Communauté de fans |
91: Podcast | 149: Ligue d’eSports |
92: Personnalité sportive | 152: Alimentation |
93: Entraîneur | 155: Météo |
94: Journaliste | 156: Villes |
95: Chaîne TV [Entity Service] | 157: Écoles et universités |
109: Tendances récurrentes | 158: Points d’intérêt |
110: Comptes viraux | 159: États |
114: Concert | 160: Pays |
115: Conférence de jeux vidéo | 162: Exercice et fitness |
116: Tournoi de jeux vidéo | 163: Voyage |
117: Festival de cinéma | 164: Domaines d’étude |
118: Cérémonie de remise de prix | 165: Technologie |
119: Jour férié | 166: Actions |
120: Créateur numérique | 167: Animaux |
122: Personnage fictif | 171: Actualités locales |
130: Franchise multimédia | 172: Émission TV mondiale |
131: Taxonomie Twitter unifiée | 173: Taxonomie des produits Google |
136: Personnalité du jeu vidéo | 174: Actifs numériques et cryptomonnaies |
137: Équipe d’eSports | 175: Événements d’urgence |
138: Joueur d’eSports |
Demande d’annotations
Exemple de requête
Exemple de réponse
App d’exemple
Foire aux questions
Annotations de contexte
Comment fonctionnent les annotations de context sur Twitter ?
Comment fonctionnent les annotations de context sur Twitter ?
Comment savoir si vos data sont complètes et fiables ?
Comment savoir si vos data sont complètes et fiables ?
Comment garantissez-vous la précision ?
Comment garantissez-vous la précision ?
Comment décidez-vous quoi suivre ?
Comment décidez-vous quoi suivre ?
Quel support historique est disponible avec les annotations de Tweet ?
Quel support historique est disponible avec les annotations de Tweet ?
Twitter est-il en mesure d’annoter des Tweets dans des langues autres que l’anglais ? Si oui, lesquelles, et la couverture des Tweets annotés varie-t-elle ?
Twitter est-il en mesure d’annoter des Tweets dans des langues autres que l’anglais ? Si oui, lesquelles, et la couverture des Tweets annotés varie-t-elle ?
- Anglais (États-Unis, Royaume-Uni)
- Japonais (Japon)
- Portugais (Brésil)
- Espagnol (Argentine, Mexique, Espagne)
- Hindi (Inde)
- Arabe (Arabie saoudite)
- Turc (Turquie)
- Indonésien (Indonésie)
- Russe (Russie)
- Français (France)
- Allemand (Allemagne)
- Tamoul (Inde)
Rang | Code pays | Pays | % de Tweets annotés |
---|---|---|---|
1 | IN | Inde | 41% |
2 | VN | Viêt Nam | 36% |
3 | GB | Grande-Bretagne | 36% |
4 | EC | Équateur | 35% |
5 | PE | Pérou | 33% |
6 | US | États-Unis | 32% |
7 | CA | Canada | 32% |
8 | AU | Australie | 31% |
9 | JP | Japon | 31% |
10 | PH | Philippines | 30% |
11 | SG | Singapour | 30% |
12 | MY | Malaisie | 30% |
13 | MX | Mexique | 30% |
14 | GB | Grande-Bretagne | 29% |
15 | NG | Nigeria | 29% |
Sur quelles « sémantiques » sous-jacentes Twitter s’appuie-t-il pour annoter un Tweet ?
Sur quelles « sémantiques » sous-jacentes Twitter s’appuie-t-il pour annoter un Tweet ?
- Comptes — nous pouvons annoter des tweets provenant d’un handle donné ou mentionnant ce handle
- Hashtags
- Mots-clés/expressions
Pourquoi certains Tweets ont-ils des entités qui leur sont associées tandis que d’autres n’en ont pas ?
Pourquoi certains Tweets ont-ils des entités qui leur sont associées tandis que d’autres n’en ont pas ?
- Certains Tweets ne sont pas suffisamment riches sur le plan sémantique pour être libellés et ne peuvent pas être tagués selon nos règles d’annotation actuelles
- Certains Tweets ne sont pas thématiques
- Le Tweet porte sur un sujet très éphémère qui n’est pas présent dans notre graphe
- Nous ne couvrons pas la langue/le marché
- Nous couvrons la langue/le marché, mais il nous manque un sujet ou un terme/compte/hashtag spécifique lié à un sujet que nous suivons déjà
Lorsqu’il y a plusieurs domaines (par exemple, [3,30]), l’ID d’entité reste-t-il le même ?
Lorsqu’il y a plusieurs domaines (par exemple, [3,30]), l’ID d’entité reste-t-il le même ?
Avez-vous un calendrier établi pour le suivi des séries/films ? En d’autres termes, pendant combien de temps une série/un film est-il suivi avant/après sa sortie ?
Avez-vous un calendrier établi pour le suivi des séries/films ? En d’autres termes, pendant combien de temps une série/un film est-il suivi avant/après sa sortie ?
Les films disposent-ils d’un filtre de paramètres régionaux similaire à celui des séries télévisées ?
Les films disposent-ils d’un filtre de paramètres régionaux similaire à celui des séries télévisées ?