安大互联
  • 1
  • 2
  • 3
  • 4
  • 5
商业热点 > 商业洞察 > 热搜上线第十年,为何算法争议仍不止不休? - 算法风暴

【王茜】 热搜上线第十年,为何算法争议仍不止不休? - 算法风暴

查看信息来源】   发布日期:11-29 11:58:46    文章分类:商业洞察   
专题:王茜

K图 WB_0]

K图 09898_0]

  21世纪经济报道记者肖潇北京报道

  热搜再次成为目光焦点。

  11月24日,四部门联合开展“清朗·网络平台算法典型问题治理”专项行动,重点整治热搜榜单、信息茧房、陷溺上瘾、 大数据 杀熟、算法侵蚀新就业形态劳动者权益五类问题。

  在热搜问题上,专项行动的《算法专项治理清单指引》明确提出了三点要求:第壹,算法规则公示。平台需要公示榜单排序机制机理,包含一般原理和排序依据;第贰,日志留存核验。平台应留存榜单相关网络日志,日志内容包含时间、榜单排名、热度值等信息;第叁,水军账号识别。平台应健全异常账号监测机制,防范违规操作榜单、控制热搜等现象。

  其实,国内社交平台上线热搜功能不过十年,已经经历了两次大型整改。微博公布过算法规则,引入了编辑人工审核,可信账号的识别模型每年都在更新,但买榜单、流量做假、娱乐导向过重……纷纷扰扰的争议始终未停。

  热搜是怎样被算法塑造的,底层问题到底出在哪里?当我们讨论热搜时,还存在哪些误解和盲区?

  两次下线,两次升级

  微博拥有热搜功能,其实刚到十年。

  2014年,热搜在微博手机端正式上线。当时热搜的唯一指标就是“实时搜索次数”,榜单每十分钟更新一次。《微博搜索白皮书》显示,热搜上线的第贰年,日均曝光量达到2.5亿。

  2018年1月,热搜被网信办启动为期一周的下线整改。因PG One粉丝刷榜的“紫光阁地沟油”热搜,微博相关责任人被 北京市 网信办约谈,被指“用户发布非法信息未尽到审查义务,持续流传炒作导向错误、恶俗色情等非法有害信息。”

  通过这次整改,热搜算法迎来了第壹次升级——一个话题要成为热搜,除了单纯的搜索次数,还需考虑流传热度、互动率、话题率。

  当时微博副总裁曹增辉还对界面新闻表示,热搜不再是纯粹的算法排序,开始引入编辑人工干预,整治虚假信息和谣言。

  2020年6月,热搜再次被启动为期一周的下线整改。据国家网信办对外发布的公告,微博被指在阿里蒋凡舆论事件中,干扰网上传言秩序、流传非法信息。当年开始实施的《网络信息内容生态治理规定》将热搜列为网络信息内容的关键展示环节,指出要应当防范和抵制不良信息。

  热搜算法因此有了第贰次升级,并且进行了公开说明。这一大体规则尔后没有更新,其计算公式是:(搜索热度+流传热度 +讨论热度) x互动率。

  在官方公式中,互动数是一个很关键的衡量指标,也就是通常所说的转发、点赞、评论。不难看出,比起一次搜索,在热搜页面进行的一次互动能造成的分数更高,话题因此登上热搜的机率也更大。

  郑州大学新闻与流传学院副教授王茜长期研究热搜,她的论文《批判算法研究视角下微博“热搜”的把关标准考察》被引用超过六千次。王茜在采访中告诉21记者,2018年算法升级后,“热搜”仍然是之前的排行榜,但对“热门”的定义发生了根本改变,互动性成为更重要的价值因子,而且近年来在平台中的份量越来越重。

  “热搜依据用户的真实行为发生,这么说当然没有错。但哪些行为更重要?是一次搜索更能说明用户的关注度,还是一次评论?”王茜说。

  决定这一答案的,是算法公式。学者米歇尔·威尔森 (Michele Willson) 用一个更生动的案例说明了算法的权力,他把用户的原始行为、原始数据比喻为食材,把算法比喻为食谱,不同算法能烹饪出不同 的菜肴,直接影响了最终显现的内容。王茜表示,算法正是以这种不可见的、隐蔽的形式进行价值判断。

  算法的设计和偏见

  在王茜看来,热搜的“搜索”是一种私下的表现,具有隐蔽性;而转发点赞评论是公开互动,往往有公开表演的成分。公开“转赞评”的内容和私下“搜索”的内容,其实可能有着很大不同。

  从心理学的视角来看,人类为了生存,有需要感知要挟、逃避危险的天性,这种“人性弱点”体现在社交平台上,便是暗含危险、愤怒的负性信息更容易获得公开互动。很多社会研究已经证明了这一点,先进网络分析研究小组(GANA)曾对约7000万条微博数据进行情绪分析,结果表明,愤怒是网络上相关性最强、最易流传的情感,远超过喜悦和低落。

  另一方面,强调互动数的热搜算法,也放大了意见领袖(KOL)的影响力。“如果把热搜看成一个话题投票箱,原本大伙是一人一票,普通人搜索一次和名人搜索一次贡献是同样的。现在拥有更多粉丝和资源的人,比普通个体的权重更高。”王茜解释。

  根据互动数划分不同权重的理论,直观体现在热搜的页面里。点进热搜词条,除了热搜主持人置顶的微博,用户首先能看到的便是10~20条左右,互动量高,它们左右着用户对热搜内容的初印象。

  有明星后援会的粉丝告诉21记者,这几年算法机制变得越来越复杂,一条评论要在热评区被优先展示,除了需要有高赞数和高评论数,账号本身还需要大概650分的“信用分”,上热门转发则需要690分左右的“信用分”。决定信用分的,是账号发微博的活跃度、社交关系、举报扣分情况等一系列指标。

  换句话说,不是所有微博用户都会被并入热搜考量范围,算法会筛选出“可信用户”。“普通账号的信用较低的话,怎么评论都上不了热门,微博也上不了热搜广场,甚至可能被屏蔽。所以平时就要多发原创微博,多带话题跟大V互动,提高账号的权重。”前述粉丝说。

  这也许能解释为啥能吸引更多回复的,或来自大V的评论总能被“顶”上前排,获得更多曝光。

  王茜说,微博最初发布这一规则时,起点是识别水军、确保热搜的可靠性。“但 大数据 一定会抹除一些细节。如果要定义哪些是僵尸号水军、哪些是活跃用户,那些只看不常发微博的人就会被判定不可信,筛选出来的就是一批最活跃用户的思路。”

  算法抹除的不止用户痕迹。海外社交平台X(前Twitter)同样具有热搜功能,不过显示的是词语,而微博热搜通常是由热搜主持人提前设定好的一句主、谓、宾语完整的句子。王茜指出,虽然这样看起来提供了更多事实,但仍然抹除了细节和语境,属于一种印象式的消息,有时误导性可能更强。

  举例而言,2021年的一个热搜#大学教授说娶到大才女李清照是倒八辈子霉#看起来在批判李清照,其实原视频中大学教授是在戏谑对照,但假如不点进视频,或没有点进完整的热搜页面,很可能就会先留下先入为主的印象。

  通过对内容和用户的一系列筛选,热搜能显现的往往就是一部分活跃用户的、青年群体的、更有争议性的内容。

  不应一味追求热搜KPI

  如今各大互联网平台都采用流量主导的热搜算法,对商业发展而言是一定选择。

  苏州大学传媒学院执行院长陈龙认为,Web2.0技术的普及解决了社交媒体互动性问题。从“转赞评”到“一键三连”,本质都是流量优先的理论。通过增加用户粘性,最终将注意力作为商业化的条件,实现自身的发展与扩张。

  陈龙告诉21记者,在多个社交平台的竞争下,争夺用户有限的注意力是一场零和博弈。越来越多用户流向短视频平台,原本属于微博的的时间被吞噬。从2018年初开始,新浪股票价格一路下行,当2021年新浪宣布退出美股时,市值已经萎缩了近五分之一。2023年第叁季度最新财报显示,微博营业收入32.07亿元人民币,同比下滑了3%。如何保用户、保营业收入是经营者不得不思考的问题。

  这时,微博是为数不多的公共讨论场地,在社会事件的流传上有着难以替代的影响力。中国政法大学数据法治研究院教授张凌寒提醒,在缺乏监管的情景下,冲突性的内容泛滥是一定结果。而很多冷讥热嘲、煽风点火、古里古怪等言论一旦高强度聚集,会对社会事件的当事人造成极大的伤害。

  好比,在此前的粉红头发女孩被网暴事件、收件人被快递员诽谤出轨事件中,一条评论单看也许只是玩笑话,但海量的负面评论叠加,可能就会形成一场网暴。热搜在网络暴力的生成、流传、聚合中,起着“放大镜”的关键作用。

  去年《关于依法惩办网络暴力违法犯罪的指导意见(征求建议稿)》出台,严厉责罚基于蹭炒热度、推广引流等目的,对于网暴信息不履行安全管理义务的表现。2022年《互联网信息服务算法推荐管理规定》要求,要建立完善人工干预和用户自主选择机制,“在首页首屏、热搜、精选、榜单类、弹窗等重点环节积极显现符合主流价值导向的信息内容。”

  尽管有了人工干预,但难题仍然很多。张凌寒指出,治理最大的困惑仍是在保障言论自由和维护秩序之间找到平衡。古里古怪、冷讥热嘲的互联网信息难以根治,一禁了之既无益于实现有效的公共讨论,长远而言也无益于文明社会的建设。

  张凌寒认为,关键在于通过智能识别等技术对热搜进行及时、全面、准确的分析研判,实现灵活有效的舆论治理。陈龙则建议,语言暴力的界限难以界定,针对具体问题建立人工管理员或投票机制,也是一种方法。

  多位受访学者还不约而同地表示,平台热搜的商业性和公共性存在悖论。当下亟需提高算法素养,剥除算法客观性的光环。社会各界也不以热搜当作流传标准,并一味追求上热搜的KPI指标。

  “需要认识到的是,尽管热搜在大家心中饰演了民意风向标的角色,但其实它没法显现完全的客观性。每种算法都存在一定的缺陷和偏见,要理性看待热搜的性质。”王茜说。

手机扫码浏览该文章
 ● 相关商业动态
 ● 相关商业热点
中央网信办】  【金融信息】  【投资者】  【分类管理】  【赵维久】  【网站平台】  【教育部】 
  • 客服与业务咨询

   【网络建设服务报价】