Saltar al contenido principal

Descripción general

Se han añadido annotations al Objeto de Post en todos los endpoint de v2 que devuelven un Objeto de Post. Las annotations de Post ofrecen una forma de comprender información contextual sobre el propio Post. Aunque se revisa el 100% de los Posts, debido al contenido del texto del Post, solo una parte se anota.
  1. Entity annotations (NER): Las entidades incluyen personas, lugares, productos y organizaciones, y se entregan en la sección de payload entity. Se asignan de forma programática en función de lo que se menciona explícitamente (reconocimiento de entidades con nombre) en el texto del Post.
  2. Context annotations: Derivadas del análisis del texto de un Post, las context annotations incluyen una pareja dominio–entidad para ayudar a descubrir Posts sobre temas que anteriormente podían ser difíciles de mostrar. Actualmente usamos más de 80 dominios para categorizar Posts. Un archivo CSV con las entidades disponibles de context annotation está en nuestro GitHub repository.

Tipos de anotaciones de Post

Entidades

Las anotaciones de entidad son entidades definidas mediante programación dentro del campo entities y se reflejan como anotaciones en la carga útil. Cada anotación tiene una puntuación de confianza e indica en qué parte del texto del Post se identificaron las entidades (usando los campos start y end). Los tipos de anotaciones de entidad incluyen:
  • Persona - Ejemplos: Barack Obama, Daniel, George W. Bush
  • Lugar - Ejemplos: Detroit, Cali, San Francisco
  • Producto - Ejemplos: Mountain Dew, Mozilla Firefox
  • Organización - Ejemplos: Chicago White Sox, IBM
  • Otro - Ejemplos: Diabetes, Super Bowl 50

Contexto

Última actualización: junio de 2022 Las annotations de contexto se entregan en el campo context_annotations del payload. Se infieren a partir del análisis semántico de palabras clave, hashtags, handles, etc., en el texto del Post y dan como resultado etiquetas de dominio y/o de entidad. Actualmente, usamos más de 80 dominios, como se muestra en la tabla a continuación.
Categorías de dominioCódigos de dominio
3: Programas de TV46: Categoría de marca
4: Episodios de TV47: Marca
6: Eventos deportivos48: Producto
10: Persona54: Músico
11: Deporte55: Género musical
12: Equipo deportivo56: Actor
13: Lugar58: Personalidad del entretenimiento
22: Géneros de TV60: Atleta
23: Canales de TV65: Vertical de intereses y pasatiempos
26: Liga deportiva66: Categoría de intereses y pasatiempos
27: Partido de fútbol americano67: Intereses y pasatiempos
28: Partido de la NFL68: Partido de hockey
29: Eventos71: Videojuego
31: Comunidad78: Editora de videojuegos
35: Políticos79: Hardware de videojuegos
38: Contienda política83: Partido de críquet
39: Partido de baloncesto84: Libro
40: Serie deportiva85: Género literario
43: Partido de fútbol86: Película
44: Partido de béisbol87: Género cinematográfico
45: Vertical de marca88: Órgano político
46: Categoría de marca89: Álbum musical
47: Marca90: Emisora de radio
48: Producto91: Podcast
54: Músico92: Personalidad deportiva
55: Género musical93: Entrenador
56: Actor94: Periodista
58: Personalidad del entretenimiento95: Canal de TV [Entity Service]
60: Atleta109: Tendencias recurrentes
65: Vertical de intereses y pasatiempos110: Cuentas virales
66: Categoría de intereses y pasatiempos114: Concierto
67: Intereses y pasatiempos115: Conferencia de videojuegos
68: Partido de hockey116: Torneo de videojuegos
71: Videojuego117: Festival de cine
78: Editora de videojuegos118: Gala de premios
79: Hardware de videojuegos119: Festividad
83: Partido de críquet120: Creador digital
84: Libro122: Personaje ficticio
85: Género literario130: Franquicia multimedia
86: Película131: Taxonomía unificada de Twitter
87: Género cinematográfico136: Personalidad de videojuegos
88: Órgano político137: Equipo de eSports
89: Álbum musical138: Jugador de eSports
90: Emisora de radio139: Comunidad de fans
91: Podcast149: Liga de eSports
92: Personalidad deportiva152: Comida
93: Entrenador155: Clima
94: Periodista156: Ciudades
95: Canal de TV [Entity Service]157: Facultades y universidades
109: Tendencias recurrentes158: Puntos de interés
110: Cuentas virales159: Estados
114: Concierto160: Países
115: Conferencia de videojuegos162: Ejercicio y fitness
116: Torneo de videojuegos163: Viajes
117: Festival de cine164: Campos de estudio
118: Gala de premios165: Tecnología
119: Festividad166: Acciones
120: Creador digital167: Animales
122: Personaje ficticio171: Noticias locales
130: Franquicia multimedia172: Programa de TV global
131: Taxonomía unificada de Twitter173: Taxonomía de productos de Google
136: Personalidad de videojuegos174: Activos digitales y cripto
137: Equipo de eSports175: Eventos de emergencia
138: Jugador de eSports
Nota: El dominio 131 (Unified Twitter Taxonomy) se refiere a la taxonomía de intereses de cara al usuario de X. Esta taxonomía ayuda a habilitar funciones en la plataforma como Topics.

Solicitud de annotations

Solicitud de ejemplo

curl --location --request GET 'https://api.x.com/2/tweets/1212092628029698048?tweet.fields=context_annotations,entities' --header 'Authorization: Bearer $BEARER_TOKEN'

Respuesta de muestra

{
    "data": {
        "context_annotations": [
            {
                "domain": {
                    "id": "119",
                    "name": "Festividad",
                    "description": "Festividades como Navidad o Halloween"
                },
                "entity": {
                    "id": "1186637514896920576",
                    "name": "Nochevieja"
                }
            },
            {
                "domain": {
                    "id": "119",
                    "name": "Festividad",
                    "description": "Festividades como Navidad o Halloween"
                },
                "entity": {
                    "id": "1206982436287963136",
                    "name": "Feliz Año Nuevo: ¡Por fin es 2020 en todas partes!",
                    "description": "Mira fuegos artificiales y otras celebraciones mientras personas de todo el mundo reciben el nuevo año.\nFoto vía @GettyImages"
                }
            },
            {
                "domain": {
                    "id": "45",
                    "name": "Vertical de Marca",
                    "description": "Entidades de nivel superior que describen la industria de una Marca"
                }
            },
            {
                "domain": {
                    "id": "46",
                    "name": "Categoría de Marca",
                    "description": "Categorías dentro de las Verticales de Marca que reducen el alcance de las Marcas"
                },
                "entity": {
                    "id": "781974596752842752",
                    "name": "Servicios"
                }
            },
            {
                "domain": {
                    "id": "47",
                    "name": "Marca",
                    "description": "Marcas y Empresas"
                },
                "entity": {
                    "id": "10045225402",
                    "name": "Twitter"
                }
            }
        ],
        "entities": {
            "annotations": [
                {
                    "start": 144,
                    "end": 150,
                    "probability": 0.626,
                    "type": "Product",
                    "normalized_text": "Twitter"
                }
            ],
            "urls": [
                {
                    "start": 222,
                    "end": 245,
                    "url": "https://t.co/yvxdK6aOo2",
                    "expanded_url": "https://x.com/LovesNandos/status/1211797914437259264/photo/1",
                    "display_url": "pic.x.com/yvxdK6aOo2"
                }
            ]
        },
        "id": "1212092628029698048",
        "text": "Creemos que la mejor versión futura de nuestra API surgirá de construirla CONTIGO. Brindemos por otro gran año con todos los que desarrollan en la plataforma de Twitter. Esperamos con ansias continuar trabajando contigo en el nuevo año. https://t.co/yvxdK6aOo2"
    }
}

App de ejemplo

Consulta el Post Entity Extractor en Glitch para descubrir fácilmente las context annotations en los Posts y ver cómo funciona esta característica.

Preguntas frecuentes

Anotaciones de contexto

Las preguntas siguientes se refieren específicamente al elemento de anotaciones de contexto dentro de las anotaciones de Tweet. Para obtener más información, consulta la página Descripción general.
X clasifica los Tweets de manera semántica, lo que significa que seleccionamos listas de palabras clave, hashtags y @handles relevantes para un tema determinado. Si un Tweet contiene el texto que hemos especificado, se etiquetará en consecuencia. Esto difiere de un enfoque de aprendizaje automático, en el que se entrena un modelo específicamente para clasificar texto (en este caso, Tweets) y producir una puntuación de probabilidad junto con la salida/clasificación.
Las annotations de Twitter están curadas por expertos del dominio mediante procesos de investigación y control de calidad perfeccionados a lo largo de varios años. El proceso está respaldado por herramientas personalizadas para escalar el seguimiento de data en la medida en que podamos mantener una excelente precisión y exhaustividad. Además, nuestra data es auditada periódicamente por un equipo interno y ha obtenido una puntuación de precisión de ~80% durante los últimos trimestres.
Los miembros del equipo realizan controles de calidad de nuestras entidades a diario para garantizar una alta precisión y exhaustividad. Además, nuestro trabajo es auditado trimestralmente por un equipo interno, que revisa manualmente 10.000 Tweets en todos nuestros dominios para calcular una puntuación de precisión.
Para algunos dominios, como deportes y televisión, recurrimos a la ingesta automatizada para construir nuestro grafo. En el dominio de Noticias, rastreamos data sobre historias publicadas por el equipo de Twitter Moments. En los demás casos, el equipo utiliza diversos métodos de investigación para identificar temas que vale la pena seguir y que generan un alto volumen de conversación en la plataforma.
El seguimiento de datos comienza en el momento en que se publica una entidad; por lo tanto, no anotamos Tweets que se hayan publicado antes de comenzar a rastrear una entidad determinada. Por ejemplo, si se incorpora una marca o empresa emergente a la taxonomía, no anotaremos de forma retroactiva los Tweets sobre esa marca anteriores a la fecha en que se añadió la anotación.
Sí. La cobertura por idioma puede variar según el dominio y el mercado. El inglés y el japonés están incluidos en la mayoría de las entidades más grandes. A continuación se muestra una lista de los idiomas y principales mercados que están cubiertos hoy:
  1. Inglés (EE. UU., Reino Unido)
  2. Japonés (Japón)
  3. Portugués (Brasil)
  4. Español (Argentina, México, España)
  5. Hindi (India)
  6. Árabe (Arabia Saudita)
  7. Turco (Turquía)
  8. Indonesio (Indonesia)
  9. Ruso (Rusia)
  10. Francés (Francia)
Próximamente (~H2 2021):
  1. Alemán (Alemania)
  2. Tamil (India)
A continuación se muestra una tabla de los 15 principales países ordenados por el mayor porcentaje de Tweets anotados:
RangoCódigo de paísPaís% de Tweets anotados
1INIndia41%
2VNVietnam36%
3GBGran Bretaña36%
4ECEcuador35%
5PEPerú33%
6USEstados Unidos32%
7CACanadá32%
8AUAustralia31%
9JPJapón31%
10PHFilipinas30%
11SGSingapur30%
12MYMalasia30%
13MXMéxico30%
14GBGran Bretaña29%
15NGNigeria29%
Las annotations de Tweet abarcan las siguientes categorías semánticas para anotar un Tweet:
  • Cuentas: podemos anotar tweets de un determinado handle o que mencionen ese handle
  • Hashtags
  • Palabras clave/frases
Para los clientes familiarizados con las API de stream filtrado como PowerTrack, las semánticas usadas por las annotations son, en principio, similares a las reglas booleanas definidas para filtrar un stream de Tweets. Si un Tweet cumple las condiciones semánticas subyacentes, se etiquetará en consecuencia.
El objetivo es anotar la mayor cantidad posible de Tweets; sin embargo, hay varias razones por las que algunos Tweets no se anotan:
  • Algunos Tweets no tienen suficiente riqueza semántica para ser etiquetados y no pueden marcarse con nuestras reglas de anotación actuales
  • Algunos Tweets no son de carácter temático
  • El Tweet trata sobre un tema muy efímero que no está en nuestro grafo
  • No cubrimos el idioma o el mercado
  • Cubrimos el idioma o el mercado, pero nos falta un tema o un término/cuenta/hashtag específico relacionado con un tema que ya seguimos
Una entidad puede pertenecer a varios dominios. Los id de dominio pueden cambiar, pero el id de la entidad permanece igual. Donald Glover es una persona (dominio 10), un actor (dominio 56) y un músico (dominio 54), pero su id de entidad sigue siendo 875072662527029248.
El seguimiento comienza un mes antes del lanzamiento. En el caso de los grandes éxitos de taquilla, como una película de Marvel, podemos empezar a hacer seguimiento en cuanto comienzan a adelantar el próximo estreno.
No, no.
I