本科毕设主题是「网络谣言识别」,完全没有思路,有没有大神可以指点一下迷津,感激不尽

2019-03-09 09:14:58 +08:00
 yx1100

导师比较坑爹,只给了个这么个方向就了无音讯了。

目前的背景情况是:平时的课程「几乎没有」学习过相关的技术,大概只知道可能要用到 Python、机器学习相关的知识,但具体再细分的就不清楚了。

有个学长大概给了个思路:

  1. 拿一些现成的句子
  2. 使用机器学习中的 svm knn 还有优化后的算法进行训练
  3. 拿其他的句子进行比较分析准确率、召回率就好了

  1. 取一些常用的网络谣言
  2. 提取谣言的特征(语义的理解)对谣言进行分类(机器学习中较为常见的 svm 等)
  3. 使用你的优化的特征算法与传统的特征算法进行比较得出结论:你最好

然而我承认比较学渣,也没看的懂他说的意思。。。

所以想问的是,有没有大神指点一下,我这个学长他说的这个每个阶段,具体指的是什么?该做的是什么?比如他说谣言分类用 SVM,这个「分类」和「 SVM 」之间怎么联系起来?有没有什么「相关的推荐的书、视频、课程、论文之类的」可以阅读学习参考的?

说到底就是,我现在到底应该干什么😂,越具体越好。现在完全无从下手

如有帮助,万分感谢🙏

12827 次点击
所在节点    程序员
135 条回复
siyemiaokube
2019-03-09 12:15:03 +08:00
赶紧换题目吧,这题目做好卖给 Facebook 一辈子不用愁了。多少人想打击 fake news,轮得上一个本科生搞?
LU35
2019-03-09 12:26:50 +08:00
@yx1100
你这是要打脸嘛?

原创译文 | 为什么 AI 不能解决 Facebook 的虚假新闻问题
https://cloud.tencent.com/developer/article/1100933

原文
https://www.theverge.com/2018/4/5/17202886/facebook-fake-news-moderation-ai-challenges
1648820920
2019-03-09 12:31:41 +08:00
感觉选这种题目是想延迟毕业。。
crab
2019-03-09 12:32:18 +08:00
@wobushizhangsan 背书还是会翻车的。某年亚视报道某人挂了,最后还活着。
yx1100
2019-03-09 12:33:24 +08:00
@LU35 请问,怎么打脸了?我不是很懂你这个语气。

况且这只是我的一个毕设题目而已,主动权并不在我的手上。

如果你想说是我主动选的,确实是,但我之前是缺乏了解。现实情况是当时我也不会和我的导师去理论说,这个到底能不能做出,我只能是被动的去选择它。
mscb
2019-03-09 12:35:37 +08:00
如果是想应用机器学习,那么可以先好好考虑如何提取特征,但是单纯从文章本身很难看出来是否为谣言,需要从其他方面寻找特征。所以我认为这个课题应该是偏信息聚合方面的,机器学习方面的技术可以成为信息聚合的辅助。可以从人如何验证某个观点是否为谣言的角度出发来实现。
所以大概可以分为这么几步:
1 文章关键信息提取,信息蒸馏。可以看看相关 paper,如果不太会的话就用“主题模型”等这些算法提取一下文章关键词。
2 爬虫,爬去相关比较专业的网站。比如一些期刊一些国际医疗组织的文章等等。这个比较麻烦,这些数据直接决定了最终效果。
3 想办法对这些专业网站的关键信息进行提取,以能准确提取出一个“专业观点”为目的。这个是最难的,这些文章很专业,和网络上的流水文不一样。
4 如果能完成第 3 步,接下来就是文章关键词和专业观点匹配了,这个相对来说简单一点。
5 得到观点匹配数据以后,就能把这个作为特征(关键词匹配度,相关专业文章的权重,时效性等等),搞个神经网络、SVM、决策树什么的进行二分类。

我认为做这个课题难度太大了😂,建议选点简单的。
largecat
2019-03-09 12:38:19 +08:00
在商言商,在计算机圈只能想到编程,
我觉得这个问题可以脱离编程,人工智能也更加遥远
可以考虑一些社会学工程类的想法啊。


比如有一个纯公益平台,非盈利性,就像维基百科,大家想找什么东西真伪都会去这个平台,
而且提供一个通用接口,和几大互联网大平台合作比如百度腾讯(你这个是论文,尽管放开想象,百度腾讯不一定会给你机会合作,反正就是假设嘛,), 和他们合作并在一些比较偏僻的角落或者聊天创建偶尔甚至一天只一次,闪现一个真伪短句按钮,用户只需要是还是否给予反馈。


平台根据全国用户的反馈来做一些分析,但是简单多了,
LU35
2019-03-09 12:39:36 +08:00
@yx1100
我的意思是你选题前连花 5 分钟时间 google 一下的时间都没有吗?还是说毕设对你来说无所谓。
关于打脸的意思,众多大佬说做不了,你是要打脸他们说能做吗?
lxy42
2019-03-09 12:44:30 +08:00
可能这个毕设的目的还是侧重理论分析,然后写一个 demo 级别的程序去验证。实现 100%功能是不太可能的。
ayase252
2019-03-09 12:51:55 +08:00
首先先明确一下问题,是识别句子“看起来像”谣言还是识别句子“是”谣言。这两个问题的难度可是天差地别的。
yx1100
2019-03-09 12:54:30 +08:00
@LU35 首先,我承认我没有第一时间去查证。但是,即使你发的那篇文章也只是一家之词,如果真的毫无希望,为什么国内外还有那么多人在研究?其次,题目是老师出的让我们选的,我不会想着说老师会出个根本做不出来的东西来刁难我的。然后,我觉得大多数人都在给我提供帮助,其他人也只是说难,并没有所谓的「众多大佬说做不了」。最后,我很清楚的说了,我只是来求个思路的,我也没要有人直接给我一个或者我要一个现成的东西,我觉得大家都是在平等的交流而已,我也不觉得就算我真的有本事做出来,就是打谁的脸了。

完毕。

我希望还是说技术的多,不要再有这些情绪方面的争论了。再有我也不想回复了。仁者见仁,智者见智吧。
yx1100
2019-03-09 12:55:38 +08:00
@lxy42 是的,我问了我以前的学长,差不多到这个程度,毕设就可以通过了。其实我就是想安心毕业,也不是要真的做出个啥东西来😂
xxgirl2
2019-03-09 12:55:39 +08:00
https://medium.com/@sheseee/6c71bf4e347
确实存在这么个机器人,大概就是你的题目要求吧。

本科做这种东西是真大佬。
grimpil
2019-03-09 13:09:16 +08:00
难道只有做到 100%识别谣言才有意义?
asdqaz
2019-03-09 13:16:06 +08:00
另外,楼主做不到太高,甚至会大量误伤
从微信到工信部,文化部再到中科院
都想要这样的东西
yuikns
2019-03-09 13:16:48 +08:00
我没做过。这个做得非常准确很难,f1 跑个 80, 90 还是不困难的。主要是低水平的太多了。

下面有个我小时候的习作,大致就是 dataset 下面有两个目录,分别是 baseball 相关的邮件和 hockey 相关的邮件。

https://github.com/yuikns/hello-perceptron

然后随机 shuffle 后用最粗糙的感知机做个 training 和 testing。

英文邮件最重要的处理是 stem,就是取词干,去停用词。中文最重要的是分词,然后去停用词。

然后每个文本样品通过上面的处理得到一个非常粗糙的 n 维数组( Xn ) 以及一个标记 1 或者 0 的 Y。

perceptron, svm 等等判别模型的目标就是假定存在一个方程

x1*w1 + x2 *w2 +..... xn * wn + b = y

你先抽取各个 feature X 以及结果 y, 然后丢模型里面训练出一组 W 和 b。

生成 x 的方法有很多,nlp 的话,最简单的跑个词袋,弄个 w2v 什么。然后拉出 feature 后丢过去跑就是。

经典机器模型用 svmlight 或者 xgboost,不行的话拿 pytorch 撸个 cnn 什么也行。参数随便选选,然后降个纬随便看看。其实跑个中不溜秋的结果还是可以的。
yuikns
2019-03-09 13:21:35 +08:00
丢两个以前无聊随手写的科普
https://blog.argcv.com/articles/2857.c
https://blog.argcv.com/articles/1036.c


工具的话,看看这些:
xgboost: https://xgboost.readthedocs.io/en/latest/index.html
svmlight: http://svmlight.joachims.org/
台大的 libsvm 也挺好玩的,他们老板当年每年换学生重新实现,我还见过几个。https://www.csie.ntu.edu.tw/~cjlin/libsvm/

fb 的 fasttext 也值得看看 https://github.com/facebookresearch/fastText/
yuikns
2019-03-09 13:23:31 +08:00
特征是语言表述的特征,你人看到这些特征后,要想办法把它变成一个 n 维的向量。机器学习是帮你划出一个超平面,面的这边是谣言,那边不是。

有多少人工就有多少智能,就是对这种学习的总结。over
watzds
2019-03-09 13:29:48 +08:00
机器学习就是需要足够特征
KevZhi
2019-03-09 13:34:34 +08:00
换个思路吧
比如百度网盘的鉴黄
与其机器学习识别视频内容,不如收集用户行为习惯,看是哪些视频经常被快进了看,而且源于同一人

真要是说通过识别文章内容主体,让机器去理解,估计目前你还是做不到的
不如去识别来源及传播的特征,辅以原始但成熟的关键词过滤想想家族群里的老人转发的都是什么吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/542718

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX