Descripción general
-
Entity annotations (NER): Las entidades incluyen personas, lugares, productos y organizaciones, y se entregan en la sección de payload
entity
. Se asignan de forma programática en función de lo que se menciona explícitamente (reconocimiento de entidades con nombre) en el texto del Post. - Context annotations: Derivadas del análisis del texto de un Post, las context annotations incluyen una pareja dominio–entidad para ayudar a descubrir Posts sobre temas que anteriormente podían ser difíciles de mostrar. Actualmente usamos más de 80 dominios para categorizar Posts. Un archivo CSV con las entidades disponibles de context annotation está en nuestro GitHub repository.
Tipos de anotaciones de Post
Entidades
entities
y se reflejan como anotaciones en la carga útil. Cada anotación tiene una puntuación de confianza e indica en qué parte del texto del Post se identificaron las entidades (usando los campos start
y end
).
Los tipos de anotaciones de entidad incluyen:
- Persona - Ejemplos: Barack Obama, Daniel, George W. Bush
- Lugar - Ejemplos: Detroit, Cali, San Francisco
- Producto - Ejemplos: Mountain Dew, Mozilla Firefox
- Organización - Ejemplos: Chicago White Sox, IBM
- Otro - Ejemplos: Diabetes, Super Bowl 50
Contexto
context_annotations
del payload. Se infieren a partir del análisis semántico de palabras clave, hashtags, handles, etc., en el texto del Post y dan como resultado etiquetas de dominio y/o de entidad. Actualmente, usamos más de 80 dominios, como se muestra en la tabla a continuación.
Categorías de dominio | Códigos de dominio |
---|---|
3: Programas de TV | 46: Categoría de marca |
4: Episodios de TV | 47: Marca |
6: Eventos deportivos | 48: Producto |
10: Persona | 54: Músico |
11: Deporte | 55: Género musical |
12: Equipo deportivo | 56: Actor |
13: Lugar | 58: Personalidad del entretenimiento |
22: Géneros de TV | 60: Atleta |
23: Canales de TV | 65: Vertical de intereses y pasatiempos |
26: Liga deportiva | 66: Categoría de intereses y pasatiempos |
27: Partido de fútbol americano | 67: Intereses y pasatiempos |
28: Partido de la NFL | 68: Partido de hockey |
29: Eventos | 71: Videojuego |
31: Comunidad | 78: Editora de videojuegos |
35: Políticos | 79: Hardware de videojuegos |
38: Contienda política | 83: Partido de críquet |
39: Partido de baloncesto | 84: Libro |
40: Serie deportiva | 85: Género literario |
43: Partido de fútbol | 86: Película |
44: Partido de béisbol | 87: Género cinematográfico |
45: Vertical de marca | 88: Órgano político |
46: Categoría de marca | 89: Álbum musical |
47: Marca | 90: Emisora de radio |
48: Producto | 91: Podcast |
54: Músico | 92: Personalidad deportiva |
55: Género musical | 93: Entrenador |
56: Actor | 94: Periodista |
58: Personalidad del entretenimiento | 95: Canal de TV [Entity Service] |
60: Atleta | 109: Tendencias recurrentes |
65: Vertical de intereses y pasatiempos | 110: Cuentas virales |
66: Categoría de intereses y pasatiempos | 114: Concierto |
67: Intereses y pasatiempos | 115: Conferencia de videojuegos |
68: Partido de hockey | 116: Torneo de videojuegos |
71: Videojuego | 117: Festival de cine |
78: Editora de videojuegos | 118: Gala de premios |
79: Hardware de videojuegos | 119: Festividad |
83: Partido de críquet | 120: Creador digital |
84: Libro | 122: Personaje ficticio |
85: Género literario | 130: Franquicia multimedia |
86: Película | 131: Taxonomía unificada de Twitter |
87: Género cinematográfico | 136: Personalidad de videojuegos |
88: Órgano político | 137: Equipo de eSports |
89: Álbum musical | 138: Jugador de eSports |
90: Emisora de radio | 139: Comunidad de fans |
91: Podcast | 149: Liga de eSports |
92: Personalidad deportiva | 152: Comida |
93: Entrenador | 155: Clima |
94: Periodista | 156: Ciudades |
95: Canal de TV [Entity Service] | 157: Facultades y universidades |
109: Tendencias recurrentes | 158: Puntos de interés |
110: Cuentas virales | 159: Estados |
114: Concierto | 160: Países |
115: Conferencia de videojuegos | 162: Ejercicio y fitness |
116: Torneo de videojuegos | 163: Viajes |
117: Festival de cine | 164: Campos de estudio |
118: Gala de premios | 165: Tecnología |
119: Festividad | 166: Acciones |
120: Creador digital | 167: Animales |
122: Personaje ficticio | 171: Noticias locales |
130: Franquicia multimedia | 172: Programa de TV global |
131: Taxonomía unificada de Twitter | 173: Taxonomía de productos de Google |
136: Personalidad de videojuegos | 174: Activos digitales y cripto |
137: Equipo de eSports | 175: Eventos de emergencia |
138: Jugador de eSports |
Solicitud de annotations
Solicitud de ejemplo
Respuesta de muestra
App de ejemplo
Preguntas frecuentes
Anotaciones de contexto
¿Cómo funcionan las annotations de context de Twitter?
¿Cómo funcionan las annotations de context de Twitter?
¿Cómo sé que sus data es completa y confiable?
¿Cómo sé que sus data es completa y confiable?
¿Cómo garantizan la precisión?
¿Cómo garantizan la precisión?
¿Cómo deciden qué monitorear?
¿Cómo deciden qué monitorear?
¿Qué soporte histórico está disponible con las annotations de Tweets?
¿Qué soporte histórico está disponible con las annotations de Tweets?
¿Puede Twitter anotar Tweets en idiomas que no sean inglés? De ser así, ¿en qué idiomas y cambia la cobertura de los Tweets anotados?
¿Puede Twitter anotar Tweets en idiomas que no sean inglés? De ser así, ¿en qué idiomas y cambia la cobertura de los Tweets anotados?
- Inglés (EE. UU., Reino Unido)
- Japonés (Japón)
- Portugués (Brasil)
- Español (Argentina, México, España)
- Hindi (India)
- Árabe (Arabia Saudita)
- Turco (Turquía)
- Indonesio (Indonesia)
- Ruso (Rusia)
- Francés (Francia)
- Alemán (Alemania)
- Tamil (India)
Rango | Código de país | País | % de Tweets anotados |
---|---|---|---|
1 | IN | India | 41% |
2 | VN | Vietnam | 36% |
3 | GB | Gran Bretaña | 36% |
4 | EC | Ecuador | 35% |
5 | PE | Perú | 33% |
6 | US | Estados Unidos | 32% |
7 | CA | Canadá | 32% |
8 | AU | Australia | 31% |
9 | JP | Japón | 31% |
10 | PH | Filipinas | 30% |
11 | SG | Singapur | 30% |
12 | MY | Malasia | 30% |
13 | MX | México | 30% |
14 | GB | Gran Bretaña | 29% |
15 | NG | Nigeria | 29% |
¿En qué “semántica” subyacente se basa Twitter para anotar un Tweet?
¿En qué “semántica” subyacente se basa Twitter para anotar un Tweet?
- Cuentas: podemos anotar tweets de un determinado handle o que mencionen ese handle
- Hashtags
- Palabras clave/frases
¿Por qué algunos Tweets tienen entidades asociadas a ellos mientras que otros no?
¿Por qué algunos Tweets tienen entidades asociadas a ellos mientras que otros no?
- Algunos Tweets no tienen suficiente riqueza semántica para ser etiquetados y no pueden marcarse con nuestras reglas de anotación actuales
- Algunos Tweets no son de carácter temático
- El Tweet trata sobre un tema muy efímero que no está en nuestro grafo
- No cubrimos el idioma o el mercado
- Cubrimos el idioma o el mercado, pero nos falta un tema o un término/cuenta/hashtag específico relacionado con un tema que ya seguimos
Cuando hay varios dominios (por ejemplo, [3,30]), ¿el Entity ID permanece igual?
Cuando hay varios dominios (por ejemplo, [3,30]), ¿el Entity ID permanece igual?
¿Tienen un cronograma establecido para el seguimiento de programas/películas? En otras palabras, ¿durante cuánto tiempo se realiza el seguimiento de un programa/una película antes y después del lanzamiento?
¿Tienen un cronograma establecido para el seguimiento de programas/películas? En otras palabras, ¿durante cuánto tiempo se realiza el seguimiento de un programa/una película antes y después del lanzamiento?
¿Las películas tienen un filtro de configuración regional similar al de los programas de TV?
¿Las películas tienen un filtro de configuración regional similar al de los programas de TV?