(WWW2023)论文阅读-Detecting Social Media Manipulation in Low-ResourceLanguages

news/2024/4/19 19:37:00/

论文链接:https://arxiv.org/pdf/2011.05367.pdf

摘要

        社交媒体被故意用于恶意目的,包括政治操纵和虚假信息。大多数研究都集中在高资源语言上。然而,恶意行为者会跨国家/地区和语言共享内容,包括资源匮乏的语言。

        在这里,我们调查是否以及在何种程度上可以在低资源语言设置中检测到恶意行为者。我们发现,2016 年美国总统大选后,Twitter 打击干扰行动的一部分是,大量用他加禄语发布的账户被暂停。

        通过结合文本嵌入和迁移学习,我们的框架可以准确地检测到用他加禄语发布的恶意用户,而无需事先了解该语言的恶意内容或对其进行训练

        我们首先独立学习每种语言的嵌入模型,即高资源语言(英语)和低资源语言(他加禄语)。

        然后,我们学习两个潜在空间之间的映射来传输检测模型

        我们证明,所提出的方法显着优于包括 BERT 在内的最先进模型,并且在训练数据非常有限的环境中产生显着优势——这是处理在线平台中检测恶意活动时的常态。

引言

        虚假信息和政治操纵由来已久:例如,早在社交媒体时代到来之前的 1984 年,一个声称艾滋病毒是美国政府作为生物武器制造的故事在全世界疯传。如今,社交媒体以前所未有的速度放大和加速信息传播。 Twitter 和 Facebook 等在线社交网络 (OSN) 一直面临恶意内容的大量增长,这破坏了在线话语的真实性和真实性 [1, 21, 24, 32, 74, 77]。

        各种研究表明,OSN 已被用于恶意目的,损害了我们社会的多个组成部分 [42, 75],从地缘政治事件 [22, 27, 44, 58, 63] 到公共卫生 [14, 25, 28、52、78]。机器人和巨魔是社交媒体操纵和虚假信息活动的主要参与者 [3, 11, 26, 45, 62],通常以协调一致的方式 [29, 51, 53, 64, 67, 76]。

        人们特别关注政治背景下大规模舆论操纵的风险,最好的例子就是2016年美国总统讨论选举中的网络干扰[4, 6]。从那时起,OSN 一直在努力打击滥用行为,并在其平台上保持信任和健康的对话。尽管付出了努力,巨魔和机器人的活动似乎仍然存在[36,43,72]。例如,Twitter 识别并暂停了来自不同国家(包括俄罗斯、伊朗、孟加拉国和委内瑞拉)的恶意帐户[71],这表明存在协调一致的努力来操纵跨国家和跨语言的在线言论。最近,皮埃里等人[58] 在乌克兰和俄罗斯之间持续冲突的背景下记录了平台滥用和随后的 Twitter 干预的证据 [57]。虽然其他人已经探索了高资源语言中恶意用户的各种策略[41,43,69,70]以实现他们的检测[12,13,33,49],但在这里我们提出了一种使用迁移学习来检测恶意用户的新方法能够自动识别低资源语言中的行为不当帐户。

这项工作的贡献

        我们的目的是调查文本内容是否可以以及在多大程度上可以用作代理来检测社交媒体上的恶意活动,特别关注以低资源语言共享消息的帐户。总的来说,我们的目标是回答两个主要研究问题:

        RQ1:我们可以仅根据帐户共享的内容将其归类为恶意帐户吗?我们探索从推文中学习单词表示以识别暂停帐户的有效性。

        RQ2:我们可以从高资源语言(英语)学习模型并将知识转移到低资源语言(他加禄语)来检测暂停帐户吗?我们研究学习两个独立训练的词嵌入之间的映射是否有利于识别行为不当的帐户。

数据:美国2016年总统选举

        在本研究中,我们使用 Twitter 作为测试平台来检测关注 2016 年美国总统大选的恶意账户的活动。该数据集由近 600 万不同用户发布了约 4200 万条推文,由 [6] 首次发布。通过 Twitter Streaming API 使用 23 个选举关键词收集推文(唐纳德·特朗普 5 个、希拉里·克林顿 4 个、第三方候选人 3 个,大选任期11)。该收集是在 2016 年 9 月 16 日至 2016 年 10 月 21 日期间进行的。从收集的推文集中,删除了重复的推文,这些重复的推文可能是通过对 Twitter API 的意外冗余查询捕获的。表 1 列出了最流行的关键词和相关推文数量。虽然所有关键词都是英文,但也收集了其他语言的推文。

        我们确定了 60 多种不同的语言,其中用欧洲语言编写的推文数量最多。其中,近 500 万用户发布了超过 3760 万条英文推文。我们发现大量他加禄语的推文,他加禄语是一种南岛语,是菲律宾四分之一人口的第一语言,也是菲律宾一半以上人口的第二语言。按使用人数计算,他加禄语是美国第四大常用语言 [73],仅次于英语、西班牙语和中文,按推文数量计算,他加禄语是我们数据中排名第一的低资源语言。美国也是菲律宾境外菲律宾移民人口最多的国家之一。此外,对其维基百科规模的分析进一步证实了他加禄语的资源匮乏状况——维基百科是估计一种语言的数字资源量的常用指标。他加禄语的维基百科目前按文章数量排名第 101 位,与其在我们数据集中的流行程度形成鲜明对比。因此,我们将注意力集中在他加禄语作为这项工作的目标语言。

4 方法论

4.1 词表示

        为了学习词嵌入和训练分类模型,我们使用 FastText 框架。 FastText 没有将单词视为文本的原子单元,而是将单词表示为一袋字符 n-gram [8],其中每个 n-gram 都有自己的向量表示,并且单词表示为其组成字符 n-gram 的总和。这使得模型能够适应形态丰富、词汇量大的语言,并能更好地从较小的训练语料库中进行泛化。

        尽管基于神经网络的模型在文本分类任务中取得了相当大的成功,但它们的训练和部署成本仍然相当昂贵。 FastText 利用分层 softmax 来服务作为 softmax 分类器的快速近似,用于计算给定类别的概率分布 [38]。使用特征修剪、量化、散列和再训练来显着减小模型大小而不牺牲准确性或速度,这种方法允许在大型文本语料库上训练模型比基于神经网络的方法快得多[37]。

4.2 迁移学习

        用于自然语言处理的传统机器学习方法侧重于为特定任务训练专用模型。然而,这需要大量数据,而对于资源匮乏的语言来说,这是很难获取的。历史上,这引发了对高资源语言(主要是欧洲语言)的更多研究,从而为这些语言创建了更多资源,从而促进了这一循环。迁移学习最近兴起,作为一种利用从源语言(或源任务)学到的知识并利用它来提高目标语言(或目标任务)性能的方法。

        为了解决本工作中分析的目标语言数据稀缺的问题,我们使用 MUSE,这是一个框架,用于在同一空间中对齐来自不同语言的单语词嵌入,并允许它们之间的知识转移。 MUSE 使用 Procrustes 对齐来学习从源空间到目标空间的映射,以最小化两种语言中相似单词之间的距离 [40]。它接受两组预训练的单语言单词嵌入(例如 FastText 学习的单词嵌入)作为输入,每种语言一组,并且可以以监督或无监督的方式学习它们之间的映射。监督方法需要使用双语词典,通过识别在共享空间中应该靠近的相似单词对来帮助将两个嵌入对齐在一起。在没有这样的字典的情况下,无监督替代方案利用逆向训练来初始化源空间和目标空间之间的线性映射并生成合成并行字典。 [15]表明,这种方法可以用于执行无监督单词翻译,而无需使用任何并行数据,其结果在某些情况下甚至优于先前的监督方法。

4.3 学习任务

        单语文本分类。在第一种方法中,我们使用每种语言各自的数据集从头开始训练独立的文本分类模型。出于分类目的,我们使用 FastText 框架,它将文本表示为词袋(BoW),并将它们的单独表示平均化为组合文本表示。然后,将该文本表示形式用作具有 softmax 函数的线性分类器的输入,该函数计算标签类的概率分布以进行预测。


http://www.ppmy.cn/news/1025761.html

相关文章

一文读懂Python生成器和迭代器

在python中,我们经常会遇到需要对一系列的元素进行遍历或处理的情况,例如对列表中的每个元素进行求和或排序,或者对文件中的每一行进行读取或写入。为了实现这样的功能,我们通常会使用for循环或while循环来逐个获取元素&#xff0…

Grafana展示k8s中pod的jvm监控面板/actuator/prometheus

场景 为保障java服务正常运行,对服务的jvm进行监控,通过使用actuator组件监控jvm情况,使用prometheus对数据进行采集,并在Grafana展现。 基于k8s场景 prometheus数据收集 配置service的lable,便于prometheus使用labl…

前端笔试题1

HTML/CSS 题1&#xff1a; 1&#xff0e;使用CSS 让该节点不可见&#xff0c;方法越多越好。 <div class"hidden">Hi</div> 使用CSS 让节点不可见的方法有以下几种&#xff1a; 把 visibility 属性设置为 hidden&#xff0c;这样元素框不会被绘制&…

vuex的实现原理?(vue2)

通常我们使用vuex&#xff0c;都是通过下载vuex插件&#xff0c;自己创建一个store目录&#xff0c;在里面创建一个js文件&#xff0c;在文件中引入vuex&#xff0c;vue.use我们的vuex从而通过实例化一个vuex&#xff0c;定义五大核心从而实现一个基本的vuex。 那我们如何不下…

react学习笔记——4. 虚拟dom中处理动态数据

如下需求 方式1&#xff1a; 直接在ul中使用{data}&#xff0c;是可以遍历数据的&#xff0c;然后如果将data改成下面形式&#xff0c;也是可以实现的。但是如果data是一个对象&#xff0c;则不能便利。 const data [<li>Angular</li>, <li>React</li&g…

第9届Python编程挑战赛北京赛区复赛真题剖析-2023年全国青少年信息素养大赛

[导读]&#xff1a;超平老师计划推出《全国青少年信息素养大赛Python编程真题解析》50讲&#xff0c;这是超平老师解读Python编程挑战赛系列的第16讲。 全国青少年信息素养大赛&#xff08;原全国青少年电子信息智能创新大赛&#xff09;是“世界机器人大会青少年机器人设计与…

今天我花了一个通宵的时间安装Windows11系统居然失败,忍不住哭了!

&#x1f680; 个人主页 极客小俊 ✍&#x1f3fb; 作者简介&#xff1a;web开发者、设计师、技术分享博主 &#x1f40b; 希望大家多多支持一下, 我们一起进步&#xff01;&#x1f604; &#x1f3c5; 如果文章对你有帮助的话&#xff0c;欢迎评论 &#x1f4ac;点赞&#x1…

安装使用IDEA,修改样式,配置服务,构建Maven项目(超级详细版)

目录 前言&#xff1a; 一&#xff0c;安装 1.1打开官网JetBrains: Essential tools for software developers and teams点击 Developer Tools&#xff0c;再点击 Intellij IDEA 2.点击下载​编辑 3.选择对应的版本&#xff0c;左边的 Ultimate 版本为旗舰版&#xff0c;需要…

WordPress中手动返回404的优雅方式

这篇文章也可以在我的博客中查看 关于本文 WordPress虽然有比较完善的404处理机制&#xff0c;但有时候我们需要手动返回404&#xff0c;这篇文章就来探讨一下这个问题。 何时返回404 根据mdn&#xff0c;404用作示意客户端找不到相应的资源&#xff0c;这可能是&#xff1…

Java课题笔记~ JSP内置对象

(1)九个内置对象 jsp的内置对象&#xff1a;JSP内置对象是不需要声明和创建就可以在JSP页面脚本中使用的成员变量。 九个内置对象&#xff1a; 1.out对象 在JSP页面中&#xff0c;经常需要向客户端发送文本内容&#xff0c;这时&#xff0c;可以使用out对象来实现。out对象…

第八章 SpringBoot @ConfigurationProperties配置绑定

原始做法&#xff1a;读取到文件内容&#xff0c;再进行bean的绑定 public static void readProperties(String propertiesPath) throws IOException {Properties pps new Properties();pps.load(MainApplication.class.getClassLoader().getResourceAsStream("applicat…

Linux中无法忘记mysql密码处理办法

找到/etc/my.cnf或者/etc/mysql/my.cnf文件 添加下面两行代码&#xff0c;取消密码验证 [mysqld] skip-grant-table使用命令登录&#xff1a;mysql -u root -p&#xff0c;回车&#xff0c;回车使用sql语句来修改密码 mysql>use mysql; mysql>update user set password…

基于ipad协议的GEWE框架进行微信收藏夹管理(一)

友情链接 GEWE框架 geweapi.com 点击即可访问&#xff01; 获取收藏信息 小提示&#xff1a; 获取收藏相关信息注意&#xff1a;该接口作用不大 请求URL&#xff1a; http://域名地址/api/favor/getinfo 请求方式&#xff1a; POST 请求头&#xff1a; Content-Type&a…

Martin_DHCP_V3.0 (DHCP自动化泛洪攻击GUI)

Github>https://github.com/MartinxMax/Martin_DHCP_V3.0 首页 Martin_DHCP_V3.0 自动化DHCP洪泛攻击 Martin_DHCP_V3.0 使用方法 安装三方库 #python3 1.RunMe_Install_Packet.py 攻击路由器 #python3 Martin_DHCP_Attack.py 填写网卡 填写攻击次数 开始运行

【正点原子STM32连载】第三章 开发环境搭建摘自【正点原子】APM32F407最小系统板使用指南

1&#xff09;实验平台&#xff1a;正点原子stm32f103战舰开发板V4 2&#xff09;平台购买地址&#xff1a;https://detail.tmall.com/item.htm?id609294757420 3&#xff09;全套实验源码手册视频下载地址&#xff1a; http://www.openedv.com/thread-340252-1-1.html# 第三…

【Fegin技术专题】「原生态」打开Fegin之RPC技术的开端,你会使用原生态的Fegin吗?(上)

前提介绍 Feign是SpringCloud中服务消费端的调用框架&#xff0c;通常与ribbon&#xff0c;hystrix等组合使用。由于遗留原因&#xff0c;某些项目中&#xff0c;整个系统并不是SpringCloud项目&#xff0c;甚至不是Spring项目&#xff0c;而使用者关注的重点仅仅是简化http调…

数据库--数据类型

数据库相关链接&#xff1a; 数据库基础操作--增删改查&#xff1a;http://t.csdn.cn/189CF 数据库--三大范式、多表查询、函数sql&#xff1a;http://t.csdn.cn/udJSG 数据类型 创建表的时候&#xff0c;我们在类型这里给出了不同的选项&#xff0c;比如有int &#xff0c;…

【Python】Python的六大基本数据类型及其API详解(超全超详细)

文章目录 1. 基本数据类型2. 数字类型2.1 数字运算2.2 数学函数2.3 随机数函数2.4 三角函数2.5 数字类型转换 3. 字符串类型3.1 访问字符串3.2 截取字符串3.3 转义字符3.4 字符串运算符3.5 字符串格式化3.5.1 格式化符号3.5.2 format3.5.3 f-string 3.6 字符串方法3.6.1 字符串…

变形金刚在图像识别方面比CNN更好吗?

链接到文 — https://arxiv.org/pdf/2010.11929.pdf 一、说明 如今&#xff0c;在自然语言处理&#xff08;NLP&#xff09;任务中&#xff0c;转换器已成为goto架构&#xff08;例如BERT&#xff0c;GPT-3等&#xff09;。另一方面&#xff0c;变压器在计算机视觉任务中的使用…

java spring websocket

1.简介&#xff1a;WebSocket协议是基于TCP的一种新的网络协议。它实现了浏览器与服务器实现持久连接的全双工双向通信&#xff0c;客户端可以主动的向服务器发起请求以获取数据&#xff0c;服务器也可以主动向客户端返回响应以传输数据。 在JS中创建WebSocket后&#xff0c;会…