Saltar al contenido principal

Descripción general

Se han añadido anotaciones al objeto Post en todos los endpoints de v2 que devuelven un objeto Post. Las anotaciones de Post ofrecen una forma de comprender información contextual sobre el propio Post. Aunque se revisa el 100% de los Posts, debido al contenido del texto del Post, solo una parte se anota.
  1. Anotaciones de entidades (NER): Las entidades incluyen personas, lugares, productos y organizaciones, y se entregan en la sección de carga entity. Se asignan de forma programática según lo que se menciona explícitamente (reconocimiento de entidades con nombre) en el texto del Post.
  2. Anotaciones de contexto: Derivadas del análisis del texto de un Post, las anotaciones de contexto incluyen un emparejamiento de dominio y entidad para ayudar a descubrir Posts sobre temas que antes podían ser difíciles de detectar. Actualmente usamos más de 80 dominios para categorizar Posts. Hay un archivo CSV con las entidades de anotaciones de contexto disponibles en nuestro repositorio de GitHub.

Tipos de anotaciones de Post

Entidades

Las anotaciones de entidades son entidades definidas de forma programática dentro del campo entities y se reflejan como anotaciones en el payload. Cada anotación tiene una puntuación de confianza e indica en qué parte del texto del Post se identificaron las entidades (mediante los campos start y end). Los tipos de anotaciones de entidades incluyen:
  • Persona - Ejemplos: Barack Obama, Daniel, George W. Bush
  • Lugar - Ejemplos: Detroit, Cali, San Francisco
  • Producto - Ejemplos: Mountain Dew, Mozilla Firefox
  • Organización - Ejemplos: Chicago White Sox, IBM
  • Otro - Ejemplos: Diabetes, Super Bowl 50

Contexto

Última actualización: junio de 2022 Las anotaciones de contexto se proporcionan en el campo context_annotations del payload. Se infieren a partir del análisis semántico de palabras clave, hashtags, handles, etc., en el texto del Post y producen etiquetas de dominio y/o entidad. Actualmente, usamos más de 80 dominios, como se muestra en la tabla siguiente.
Categorías de dominioCódigos de dominio
3: Programas de TV46: Categoría de marca
4: Episodios de TV47: Marca
6: Eventos deportivos48: Producto
10: Persona54: Músico
11: Deporte55: Género musical
12: Equipo deportivo56: Actor
13: Lugar58: Personalidad del entretenimiento
22: Géneros de TV60: Atleta
23: Canales de TV65: Vertical de intereses y aficiones
26: Liga deportiva66: Categoría de intereses y aficiones
27: Partido de fútbol americano67: Intereses y aficiones
28: Partido de la NFL68: Partido de hockey
29: Eventos71: Videojuego
31: Comunidad78: Editor de videojuegos
35: Políticos79: Hardware de videojuegos
38: Contienda política83: Partido de críquet
39: Partido de baloncesto84: Libro
40: Serie deportiva85: Género literario
43: Partido de fútbol86: Película
44: Partido de béisbol87: Género cinematográfico
45: Vertical de marca88: Órgano político
46: Categoría de marca89: Álbum musical
47: Marca90: Emisora de radio
48: Producto91: Podcast
54: Músico92: Personalidad deportiva
55: Género musical93: Director técnico
56: Actor94: Periodista
58: Personalidad del entretenimiento95: Canal de TV [Entity Service]
60: Atleta109: Tendencias recurrentes
65: Vertical de intereses y aficiones110: Cuentas virales
66: Categoría de intereses y aficiones114: Concierto
67: Intereses y aficiones115: Conferencia de videojuegos
68: Partido de hockey116: Torneo de videojuegos
71: Videojuego117: Festival de cine
78: Editor de videojuegos118: Entrega de premios
79: Hardware de videojuegos119: Festividad
83: Partido de críquet120: Creador digital
84: Libro122: Personaje ficticio
85: Género literario130: Franquicia multimedia
86: Película131: Taxonomía unificada de Twitter
87: Género cinematográfico136: Personalidad de videojuegos
88: Órgano político137: Equipo de eSports
89: Álbum musical138: Jugador de eSports
90: Emisora de radio139: Comunidad de fans
91: Podcast149: Liga de eSports
92: Personalidad deportiva152: Comida
93: Director técnico155: Clima
94: Periodista156: Ciudades
95: Canal de TV [Entity Service]157: Facultades y universidades
109: Tendencias recurrentes158: Puntos de interés
110: Cuentas virales159: Estados
114: Concierto160: Países
115: Conferencia de videojuegos162: Ejercicio y fitness
116: Torneo de videojuegos163: Viajes
117: Festival de cine164: Campos de estudio
118: Entrega de premios165: Tecnología
119: Festividad166: Acciones
120: Creador digital167: Animales
122: Personaje ficticio171: Noticias locales
130: Franquicia multimedia172: Programa de TV global
131: Taxonomía unificada de Twitter173: Taxonomía de productos de Google
136: Personalidad de videojuegos174: Activos digitales y cripto
137: Equipo de eSports175: Eventos de emergencia
138: Jugador de eSports
Nota: El dominio 131 (Unified Twitter Taxonomy) se refiere a la taxonomía de intereses orientada al usuario de X. Esta taxonomía ayuda a habilitar funciones de la plataforma como Temas.

Solicitud de anotaciones

Ejemplo de solicitud

curl --location --request GET 'https://api.x.com/2/tweets/1212092628029698048?tweet.fields=context_annotations,entities' --header 'Authorization: Bearer $BEARER_TOKEN'

Respuesta de muestra

{
    "data": {
        "context_annotations": [
            {
                "domain": {
                    "id": "119",
                    "name": "Festividad",
                    "description": "Festividades como Navidad o Halloween"
                },
                "entity": {
                    "id": "1186637514896920576",
                    "name": "Nochevieja"
                }
            },
            {
                "domain": {
                    "id": "119",
                    "name": "Festividad",
                    "description": "Festividades como Navidad o Halloween"
                },
                "entity": {
                    "id": "1206982436287963136",
                    "name": "Feliz Año Nuevo: ¡por fin es 2020 en todo el mundo!",
                    "description": "Disfruta de los fuegos artificiales y otras celebraciones mientras personas de todo el mundo reciben el Año Nuevo.\nFoto: @GettyImages"
                }
            },
            {
                "domain": {
                    "id": "45",
                    "name": "Vertical de marca",
                    "description": "Entidades de nivel superior que describen el sector de una marca"
                }
            },
            {
                "domain": {
                    "id": "46",
                    "name": "Categoría de marca",
                    "description": "Categorías dentro de los verticales de marca que acotan el alcance de las marcas"
                },
                "entity": {
                    "id": "781974596752842752",
                    "name": "Servicios"
                }
            },
            {
                "domain": {
                    "id": "47",
                    "name": "Marca",
                    "description": "Marcas y empresas"
                },
                "entity": {
                    "id": "10045225402",
                    "name": "Twitter"
                }
            }
        ],
        "entities": {
            "annotations": [
                {
                    "start": 144,
                    "end": 150,
                    "probability": 0.626,
                    "type": "Producto",
                    "normalized_text": "Twitter"
                }
            ],
            "urls": [
                {
                    "start": 222,
                    "end": 245,
                    "url": "https://t.co/yvxdK6aOo2",
                    "expanded_url": "https://x.com/LovesNandos/status/1211797914437259264/photo/1",
                    "display_url": "pic.x.com/yvxdK6aOo2"
                }
            ]
        },
        "id": "1212092628029698048",
        "text": "Creemos que la mejor versión futura de nuestra API vendrá de construirla con USTEDES. Por otro gran año junto a todos los que desarrollan sobre la plataforma de X. Estamos deseando seguir trabajando con ustedes en el nuevo año. https://t.co/yvxdK6aOo2"
    }
}

App de ejemplo

Consulta el Post Entity Extractor en Glitch para descubrir fácilmente anotaciones de contexto en Posts y ver cómo funciona esta característica.

Preguntas frecuentes

Anotaciones de contexto

Las siguientes preguntas se refieren específicamente al elemento de anotaciones de contexto dentro de las anotaciones de Tweet. Para obtener más información, consulta la página de Descripción general.
X clasifica los Tweets de forma semántica, lo que significa que seleccionamos listas de palabras clave, hashtags y @handles relevantes para un tema determinado. Si un Tweet contiene el texto que hemos definido, se etiquetará en consecuencia. Esto difiere de un enfoque de aprendizaje automático, en el que se entrena un modelo específicamente para clasificar texto (en este caso, Tweets) y generar una puntuación de probabilidad junto con la salida/clasificación.
Las anotaciones de X son elaboradas por expertos en la materia mediante procesos de investigación y control de calidad que se han perfeccionado a lo largo de varios años. El proceso está respaldado por herramientas personalizadas para escalar el seguimiento de datos tanto como nos permite mantener una excelente precisión y exhaustividad. Además, nuestros datos son auditados regularmente por un equipo interno y han recibido una puntuación de precisión de aproximadamente un 80% durante los últimos trimestres.
Los miembros del equipo realizan controles de calidad de nuestras entidades a diario para garantizar una alta precisión y exhaustividad. Además, nuestro trabajo es auditado trimestralmente por un equipo interno, que revisa manualmente 10.000 Tweets en todos nuestros dominios para calcular una puntuación de precisión.
Para algunos dominios, como deportes y televisión, recurrimos a la ingesta automatizada para construir nuestro grafo. En el dominio de Noticias, hacemos seguimiento de data sobre historias publicadas por el equipo de Twitter Moments. En los demás casos, el equipo emplea diversos métodos de investigación para identificar temas a seguir que generen un alto volumen de conversación en la plataforma.
El seguimiento de datos comienza en el momento en que se publica una entidad; por lo tanto, no anotamos Tweets publicados antes de que comenzara el seguimiento de una entidad determinada. Por ejemplo, si se agrega una marca o empresa emergente a la taxonomía, no anotaremos retroactivamente los Tweets sobre esa marca anteriores al momento en que se añadió la anotación.
Sí. La cobertura por idioma puede variar según el dominio y el mercado. El inglés y el japonés están incluidos en la mayoría de las entidades más grandes. A continuación, se muestra una lista de los idiomas y los principales mercados cubiertos actualmente:
  1. Inglés (EE. UU., Reino Unido)
  2. Japonés (Japón)
  3. Portugués (Brasil)
  4. Español (Argentina, México, España)
  5. Hindi (India)
  6. Árabe (Arabia Saudí)
  7. Turco (Turquía)
  8. Indonesio (Indonesia)
  9. Ruso (Rusia)
  10. Francés (Francia)
Próximamente (~S2 2021):
  1. Alemán (Alemania)
  2. Tamil (India)
A continuación, se muestra una tabla de los 15 países principales ordenados por mayor cobertura de Tweets anotados:
RangoCódigo de paísPaís% de Tweets anotados
1INIndia41%
2VNVietnam36%
3GBGran Bretaña36%
4ECEcuador35%
5PEPerú33%
6USEstados Unidos32%
7CACanadá32%
8AUAustralia31%
9JPJapón31%
10PHFilipinas30%
11SGSingapur30%
12MYMalasia30%
13MXMéxico30%
14GBGran Bretaña29%
15NGNigeria29%
Las anotaciones de Tweet constan de las siguientes semánticas para anotar un Tweet:
  • Cuentas: podemos anotar tweets de un determinado handle o que mencionen ese handle
  • Hashtags
  • Palabras clave/frases
Para los clientes familiarizados con las API de transmisión filtrada, como PowerTrack, las semánticas utilizadas por las anotaciones son, en esencia, similares a las reglas booleanas definidas para filtrar un flujo de Tweets. Si un Tweet cumple las condiciones semánticas subyacentes, se etiquetará en consecuencia.
El objetivo es anotar la mayor cantidad posible de Tweets; sin embargo, hay varias razones por las que algunos Tweets no se anotan:
  • Algunos Tweets no son lo suficientemente ricos en contenido semántico como para etiquetarlos y no pueden marcarse con nuestras reglas de anotación actuales
  • Algunos Tweets no son relevantes para ningún tema
  • El Tweet trata un tema muy efímero que no está en nuestro grafo
  • No cubrimos el idioma o el mercado
  • Cubrimos el idioma o el mercado, pero nos falta un tema o un término/cuenta/hashtag específico relacionado con un tema que ya seguimos
Una entidad puede pertenecer a varios dominios. Los id de dominio cambiarán, pero el id de la entidad seguirá siendo el mismo. Donald Glover es una persona (dominio 10), un actor (dominio 56) y un músico (dominio 54), pero su id de entidad sigue siendo 875072662527029248.
El seguimiento comienza un mes antes del lanzamiento. En el caso de grandes éxitos, como una película de Marvel, podemos empezar a realizar el seguimiento en cuanto empiecen a adelantar su próximo estreno.
No.