Descripción general
-
Anotaciones de entidades (NER): Las entidades incluyen personas, lugares, productos y organizaciones, y se entregan en la sección de carga
entity. Se asignan de forma programática según lo que se menciona explícitamente (reconocimiento de entidades con nombre) en el texto del Post. - Anotaciones de contexto: Derivadas del análisis del texto de un Post, las anotaciones de contexto incluyen un emparejamiento de dominio y entidad para ayudar a descubrir Posts sobre temas que antes podían ser difíciles de detectar. Actualmente usamos más de 80 dominios para categorizar Posts. Hay un archivo CSV con las entidades de anotaciones de contexto disponibles en nuestro repositorio de GitHub.
Tipos de anotaciones de Post
Entidades
entities y se reflejan como anotaciones en el payload. Cada anotación tiene una puntuación de confianza e indica en qué parte del texto del Post se identificaron las entidades (mediante los campos start y end).
Los tipos de anotaciones de entidades incluyen:
- Persona - Ejemplos: Barack Obama, Daniel, George W. Bush
- Lugar - Ejemplos: Detroit, Cali, San Francisco
- Producto - Ejemplos: Mountain Dew, Mozilla Firefox
- Organización - Ejemplos: Chicago White Sox, IBM
- Otro - Ejemplos: Diabetes, Super Bowl 50
Contexto
context_annotations del payload. Se infieren a partir del análisis semántico de palabras clave, hashtags, handles, etc., en el texto del Post y producen etiquetas de dominio y/o entidad. Actualmente, usamos más de 80 dominios, como se muestra en la tabla siguiente.
| Categorías de dominio | Códigos de dominio |
|---|---|
| 3: Programas de TV | 46: Categoría de marca |
| 4: Episodios de TV | 47: Marca |
| 6: Eventos deportivos | 48: Producto |
| 10: Persona | 54: Músico |
| 11: Deporte | 55: Género musical |
| 12: Equipo deportivo | 56: Actor |
| 13: Lugar | 58: Personalidad del entretenimiento |
| 22: Géneros de TV | 60: Atleta |
| 23: Canales de TV | 65: Vertical de intereses y aficiones |
| 26: Liga deportiva | 66: Categoría de intereses y aficiones |
| 27: Partido de fútbol americano | 67: Intereses y aficiones |
| 28: Partido de la NFL | 68: Partido de hockey |
| 29: Eventos | 71: Videojuego |
| 31: Comunidad | 78: Editor de videojuegos |
| 35: Políticos | 79: Hardware de videojuegos |
| 38: Contienda política | 83: Partido de críquet |
| 39: Partido de baloncesto | 84: Libro |
| 40: Serie deportiva | 85: Género literario |
| 43: Partido de fútbol | 86: Película |
| 44: Partido de béisbol | 87: Género cinematográfico |
| 45: Vertical de marca | 88: Órgano político |
| 46: Categoría de marca | 89: Álbum musical |
| 47: Marca | 90: Emisora de radio |
| 48: Producto | 91: Podcast |
| 54: Músico | 92: Personalidad deportiva |
| 55: Género musical | 93: Director técnico |
| 56: Actor | 94: Periodista |
| 58: Personalidad del entretenimiento | 95: Canal de TV [Entity Service] |
| 60: Atleta | 109: Tendencias recurrentes |
| 65: Vertical de intereses y aficiones | 110: Cuentas virales |
| 66: Categoría de intereses y aficiones | 114: Concierto |
| 67: Intereses y aficiones | 115: Conferencia de videojuegos |
| 68: Partido de hockey | 116: Torneo de videojuegos |
| 71: Videojuego | 117: Festival de cine |
| 78: Editor de videojuegos | 118: Entrega de premios |
| 79: Hardware de videojuegos | 119: Festividad |
| 83: Partido de críquet | 120: Creador digital |
| 84: Libro | 122: Personaje ficticio |
| 85: Género literario | 130: Franquicia multimedia |
| 86: Película | 131: Taxonomía unificada de Twitter |
| 87: Género cinematográfico | 136: Personalidad de videojuegos |
| 88: Órgano político | 137: Equipo de eSports |
| 89: Álbum musical | 138: Jugador de eSports |
| 90: Emisora de radio | 139: Comunidad de fans |
| 91: Podcast | 149: Liga de eSports |
| 92: Personalidad deportiva | 152: Comida |
| 93: Director técnico | 155: Clima |
| 94: Periodista | 156: Ciudades |
| 95: Canal de TV [Entity Service] | 157: Facultades y universidades |
| 109: Tendencias recurrentes | 158: Puntos de interés |
| 110: Cuentas virales | 159: Estados |
| 114: Concierto | 160: Países |
| 115: Conferencia de videojuegos | 162: Ejercicio y fitness |
| 116: Torneo de videojuegos | 163: Viajes |
| 117: Festival de cine | 164: Campos de estudio |
| 118: Entrega de premios | 165: Tecnología |
| 119: Festividad | 166: Acciones |
| 120: Creador digital | 167: Animales |
| 122: Personaje ficticio | 171: Noticias locales |
| 130: Franquicia multimedia | 172: Programa de TV global |
| 131: Taxonomía unificada de Twitter | 173: Taxonomía de productos de Google |
| 136: Personalidad de videojuegos | 174: Activos digitales y cripto |
| 137: Equipo de eSports | 175: Eventos de emergencia |
| 138: Jugador de eSports |
Solicitud de anotaciones
Ejemplo de solicitud
Respuesta de muestra
App de ejemplo
Preguntas frecuentes
Anotaciones de contexto
¿Cómo funcionan las anotaciones de contexto de X?
¿Cómo funcionan las anotaciones de contexto de X?
¿Cómo sé que sus datos son completos y confiables?
¿Cómo sé que sus datos son completos y confiables?
¿Cómo garantizan la exactitud?
¿Cómo garantizan la exactitud?
¿Cómo deciden qué rastrear?
¿Cómo deciden qué rastrear?
¿Qué historial está disponible con las anotaciones de Tweet?
¿Qué historial está disponible con las anotaciones de Tweet?
¿Twitter puede anotar Tweets en idiomas que no sean inglés? Si es así, ¿en qué idiomas y cambia la cobertura de los Tweets anotados?
¿Twitter puede anotar Tweets en idiomas que no sean inglés? Si es así, ¿en qué idiomas y cambia la cobertura de los Tweets anotados?
- Inglés (EE. UU., Reino Unido)
- Japonés (Japón)
- Portugués (Brasil)
- Español (Argentina, México, España)
- Hindi (India)
- Árabe (Arabia Saudí)
- Turco (Turquía)
- Indonesio (Indonesia)
- Ruso (Rusia)
- Francés (Francia)
- Alemán (Alemania)
- Tamil (India)
| Rango | Código de país | País | % de Tweets anotados |
|---|---|---|---|
| 1 | IN | India | 41% |
| 2 | VN | Vietnam | 36% |
| 3 | GB | Gran Bretaña | 36% |
| 4 | EC | Ecuador | 35% |
| 5 | PE | Perú | 33% |
| 6 | US | Estados Unidos | 32% |
| 7 | CA | Canadá | 32% |
| 8 | AU | Australia | 31% |
| 9 | JP | Japón | 31% |
| 10 | PH | Filipinas | 30% |
| 11 | SG | Singapur | 30% |
| 12 | MY | Malasia | 30% |
| 13 | MX | México | 30% |
| 14 | GB | Gran Bretaña | 29% |
| 15 | NG | Nigeria | 29% |
¿En qué “semántica” subyacente se basa X para anotar un Tweet?
¿En qué “semántica” subyacente se basa X para anotar un Tweet?
- Cuentas: podemos anotar tweets de un determinado handle o que mencionen ese handle
- Hashtags
- Palabras clave/frases
¿Por qué algunos Tweets tienen entidades asociadas y otros no?
¿Por qué algunos Tweets tienen entidades asociadas y otros no?
- Algunos Tweets no son lo suficientemente ricos en contenido semántico como para etiquetarlos y no pueden marcarse con nuestras reglas de anotación actuales
- Algunos Tweets no son relevantes para ningún tema
- El Tweet trata un tema muy efímero que no está en nuestro grafo
- No cubrimos el idioma o el mercado
- Cubrimos el idioma o el mercado, pero nos falta un tema o un término/cuenta/hashtag específico relacionado con un tema que ya seguimos
Cuando hay varios dominios (por ejemplo, [3,30]), ¿el id de la entidad se mantiene igual?
Cuando hay varios dominios (por ejemplo, [3,30]), ¿el id de la entidad se mantiene igual?
¿Tienen un cronograma establecido para el seguimiento de series y películas? En otras palabras, ¿por cuánto tiempo se realiza el seguimiento de una serie o película antes y después del lanzamiento?
¿Tienen un cronograma establecido para el seguimiento de series y películas? En otras palabras, ¿por cuánto tiempo se realiza el seguimiento de una serie o película antes y después del lanzamiento?
¿Las películas tienen un filtro de idioma o región similar al de las series de TV?
¿Las películas tienen un filtro de idioma o región similar al de las series de TV?