概览
-
实体注释(NER): 实体包括人物、地点、产品和组织,并在
entity负载部分提供。它们会根据 Post 文本中明确提及的内容(命名实体识别)以编程方式分配。 - 上下文注释: 基于对某个 Post 文本的分析生成,上下文注释包含域与实体的配对,有助于发现此前可能难以呈现的话题下的 Post。我们目前使用 80+ 个域对 Post 进行分类。可用的上下文注释实体的 CSV 文件可在我们的 GitHub 仓库中获取。
Post 标注类型
实体
entities 字段中以编程方式定义的实体,并会在有效负载中呈现为注释。每个标注都带有置信度分数,并指示在 Post 文本中识别到实体的位置(使用 start 和 end 字段)。
实体标注类型包括:
- Person(人物) - 示例:Barack Obama、Daniel、George W. Bush
- Place(地点) - 示例:Detroit、Cali、San Francisco
- Product(产品) - 示例:Mountain Dew、Mozilla Firefox
- Organization(组织) - 示例:Chicago White Sox、IBM
- Other(其他) - 示例:Diabetes、Super Bowl 50
上下文
context_annotations 字段提供。它们基于对 Post 文本中关键词、话题标签、账号等的语义分析推断而来,并生成领域和/或实体标签。目前我们使用 80 多个领域,如下表所示。
| 域类别 | 域代码 |
|---|---|
| 3: 电视节目 | 46: 品牌类别 |
| 4: 电视剧集 | 47: 品牌 |
| 6: 体育赛事 | 48: 产品 |
| 10: 人物 | 54: 音乐家 |
| 11: 体育 | 55: 音乐流派 |
| 12: 运动队 | 56: 演员 |
| 13: 地点 | 58: 娱乐人物 |
| 22: 电视类型 | 60: 运动员 |
| 23: 电视台 | 65: 兴趣与爱好垂直领域 |
| 26: 体育联盟 | 66: 兴趣与爱好类别 |
| 27: 美式橄榄球比赛 | 67: 兴趣与爱好 |
| 28: NFL 橄榄球比赛 | 68: 冰球比赛 |
| 29: 事件 | 71: 电子游戏 |
| 31: 社区 | 78: 游戏发行商 |
| 35: 政治人物 | 79: 游戏硬件 |
| 38: 选举活动 | 83: 板球比赛 |
| 39: 篮球比赛 | 84: 书籍 |
| 40: 体育系列 | 85: 书籍类型 |
| 43: 足球比赛 | 86: 电影 |
| 44: 棒球比赛 | 87: 电影类型 |
| 45: 品牌垂直领域 | 88: 政治机构 |
| 46: 品牌类别 | 89: 音乐专辑 |
| 47: 品牌 | 90: 电台 |
| 48: 产品 | 91: 播客 |
| 54: 音乐家 | 92: 体育人物 |
| 55: 音乐流派 | 93: 教练 |
| 56: 演员 | 94: 记者 |
| 58: 娱乐人物 | 95: 电视频道 [实体服务] |
| 60: 运动员 | 109: 经常性趋势 |
| 65: 兴趣与爱好垂直领域 | 110: 爆红账号 |
| 66: 兴趣与爱好类别 | 114: 音乐会 |
| 67: 兴趣与爱好 | 115: 游戏大会 |
| 68: 冰球比赛 | 116: 游戏锦标赛 |
| 71: 电子游戏 | 117: 电影节 |
| 78: 游戏发行商 | 118: 颁奖典礼 |
| 79: 游戏硬件 | 119: 节日 |
| 83: 板球比赛 | 120: 数字创作者 |
| 84: 书籍 | 122: 虚构角色 |
| 85: 书籍类型 | 130: 多媒体特许经营 |
| 86: 电影 | 131: 统一 Twitter 分类法 |
| 87: 电影类型 | 136: 游戏界人物 |
| 88: 政治机构 | 137: 电子竞技战队 |
| 89: 音乐专辑 | 138: 电子竞技选手 |
| 90: 电台 | 139: 粉丝社区 |
| 91: 播客 | 149: 电子竞技联盟 |
| 92: 体育人物 | 152: 美食 |
| 93: 教练 | 155: 天气 |
| 94: 记者 | 156: 城市 |
| 95: 电视频道 [实体服务] | 157: 学院与大学 |
| 109: 经常性趋势 | 158: 兴趣点 |
| 110: 爆红账号 | 159: 州 |
| 114: 音乐会 | 160: 国家 |
| 115: 游戏大会 | 162: 运动与健身 |
| 116: 游戏锦标赛 | 163: 旅行 |
| 117: 电影节 | 164: 学科领域 |
| 118: 颁奖典礼 | 165: 科技 |
| 119: 节日 | 166: 股票 |
| 120: 数字创作者 | 167: 动物 |
| 122: 虚构角色 | 171: 本地新闻 |
| 130: 多媒体特许经营 | 172: 全球电视节目 |
| 131: 统一 Twitter 分类法 | 173: Google 产品分类法 |
| 136: 游戏界人物 | 174: 数字资产与加密货币 |
| 137: 电子竞技战队 | 175: 紧急事件 |
| 138: 电子竞技选手 |
请求注解
示例请求
示例回复
示例应用
常见问题
上下文标注
Twitter 的上下文标注是如何运作的?
Twitter 的上下文标注是如何运作的?
X 会对 Tweet 进行语义分类,这意味着我们会整理与特定主题相关的关键词、话题标签(hashtag)以及 @handle 列表。若某条 Tweet 包含我们指定的文本,它将被相应标注。这不同于机器学习的方法:后者会专门训练一个模型来对文本(在此为 Tweet)进行分类,并为输出/分类结果提供相应的概率分数。
我如何判断你们的 data 是否完整且可信?
我如何判断你们的 data 是否完整且可信?
Twitter 的注释由领域专家基于多年打磨的研究与质量保障(QA)流程精心整理。我们使用定制化工具,在尽可能保持高精度和高召回的前提下,将 data 跟踪扩展到可行的最大规模。此外,我们的 data 由内部团队定期审计,过去多个季度的精度评分约为 80%。
你们如何确保精确性?
你们如何确保精确性?
我们的团队成员每天对我们的实体进行质量评测,确保高精度和高召回率。此外,我们的工作每季度还会由内部团队审计,该团队会覆盖我们所有领域,人工审查 10,000 条 Tweet,以计算精度得分。
你们如何确定要跟踪哪些内容?
你们如何确定要跟踪哪些内容?
对于某些领域(如体育和电视),我们依靠自动化摄取来构建我们的图谱。在新闻领域,我们跟踪由 Twitter Moments 团队发布的报道相关的 data。除此之外,团队还采用多种研究方法来识别需要跟踪、并能在平台上引发大量讨论的主题。
Tweet Annotations 提供哪些历史记录支持?
Tweet Annotations 提供哪些历史记录支持?
数据跟踪自某个实体发布之时开始;因此,我们不会为在该实体开始被跟踪之前发布的 Tweets 添加标注。举例来说,如果有一家新兴品牌或公司被加入到分类体系中,我们不会对添加该标注之前发布的与该品牌相关的 Tweets 进行追溯标注。
Twitter 是否支持为非英语的 Tweet 添加注释?如果支持,具体支持哪些语言?被注释的 Tweet 的覆盖范围是否会发生变化?
Twitter 是否支持为非英语的 Tweet 添加注释?如果支持,具体支持哪些语言?被注释的 Tweet 的覆盖范围是否会发生变化?
是的。语言覆盖范围会因领域和市场而异。英语和日语在多数大型实体中均有覆盖。以下为目前覆盖的语言及其主要市场:
- 英语(美国、英国)
- 日语(日本)
- 葡萄牙语(巴西)
- 西班牙语(阿根廷、墨西哥、西班牙)
- 印地语(印度)
- 阿拉伯语(沙特阿拉伯)
- 土耳其语(土耳其)
- 印度尼西亚语(印度尼西亚)
- 俄语(俄罗斯)
- 法语(法国)
- 德语(德国)
- 泰米尔语(印度)
| 排名 | 国家代码 | 国家 | 已标注 Tweet 的占比 |
|---|---|---|---|
| 1 | IN | 印度 | 41% |
| 2 | VN | 越南 | 36% |
| 3 | GB | 英国 | 36% |
| 4 | EC | 厄瓜多尔 | 35% |
| 5 | PE | 秘鲁 | 33% |
| 6 | US | 美国 | 32% |
| 7 | CA | 加拿大 | 32% |
| 8 | AU | 澳大利亚 | 31% |
| 9 | JP | 日本 | 31% |
| 10 | PH | 菲律宾 | 30% |
| 11 | SG | 新加坡 | 30% |
| 12 | MY | 马来西亚 | 30% |
| 13 | MX | 墨西哥 | 30% |
| 14 | GB | 英国 | 29% |
| 15 | NG | 尼日利亚 | 29% |
Twitter 依赖哪些底层“语义”来为 Tweet 添加注释?
Twitter 依赖哪些底层“语义”来为 Tweet 添加注释?
Tweet 注解由以下语义组成,用于为一条 Tweet 添加注解:
- 账号——我们可以为来自特定 handle 的 Tweet,或提及该 handle 的 Tweet 添加注解
- Hashtag(话题标签)
- 关键词/短语
为什么有些 Tweet 关联了实体,而有些没有?
为什么有些 Tweet 关联了实体,而有些没有?
我们的目标是为尽可能多的 Tweet 添加注解;但仍有若干原因会导致部分 Tweet 未被注解:
- 某些 Tweet 语义信息不足,无法依据当前注解规则进行标注
- 某些 Tweet 不具备明确的主题相关性
- 该 Tweet 所涉话题高度短暂,且未纳入我们的图谱
- 我们尚未覆盖该语言/市场
- 虽已覆盖该语言/市场,但我们缺少与现有跟踪主题相关的某个话题或特定术语/账号/话题标签
当存在多个域(例如 [3,30])时,实体 ID 是否保持不变?
当存在多个域(例如 [3,30])时,实体 ID 是否保持不变?
一个实体可以归属多个域。域的 id 可能变化,但实体的 id 保持不变。Donald Glover 既是人(域 10)、也是演员(域 56)和音乐人(域 54),但他的实体 id 仍为 875072662527029248。
你们是否有既定的剧集/电影跟踪时间表?换言之,剧集/电影在上线前后会被跟踪多长时间?
你们是否有既定的剧集/电影跟踪时间表?换言之,剧集/电影在上线前后会被跟踪多长时间?
跟踪会在上映前一个月开始。对于热门大片(例如一部漫威电影),一旦开始发布上映预告,我们就可以开始跟踪。
电影是否也有类似于电视剧的地域/语言筛选器?
电影是否也有类似于电视剧的地域/语言筛选器?
不,不会。