我分析了 42 万字的歌词,为了搞清楚民谣歌手们在唱些什么

2017-02-07 14:53:27 +08:00
 graetdk

写了一个爬虫,然后做了一些数据分析

文章链接: http://www.wdk.pw/1221.html

当然,我也发在我的微信公众号了,欢迎关注:

11118 次点击
所在节点    分享创造
73 条回复
starvedcat
2017-02-07 16:39:42 +08:00
和其他风格的歌词对比一下?
JackyBao
2017-02-07 16:41:45 +08:00
有点意思
Fechin
2017-02-07 17:08:41 +08:00
「我拿青春赌下个月 5 号」已笑。
nareix
2017-02-07 17:19:10 +08:00
谢天笑的正面情绪居然高于汪峰!!
graetdk
2017-02-07 17:27:48 +08:00
@nareix 我猜是谢天笑的情绪很多时候并不是用歌词本身来表达的
nareix
2017-02-07 17:44:13 +08:00
@graetdk 歌词也有表达,没有明显负面的词汇,但情绪上非常负面。。
torbrowserbridge
2017-02-07 17:49:33 +08:00
黄易小编也被吸引了
graetdk
2017-02-07 17:52:36 +08:00
@nareix 这个只能期待以后人工智能能够处理音频中的情绪了
EdwardC
2017-02-07 18:22:04 +08:00
kaneg
2017-02-07 18:46:59 +08:00
这个分析很有趣,只是简单的用分词来提取情绪是有局限性的,因为词语只有在上下文才能体现其真正的意义,比如,“不要退缩”,“不高兴”,如果只提取退缩和高兴则与歌手表达的意思完全相反
lavande
2017-02-07 19:18:13 +08:00
数数春末南方的城市唱了多少个“心慌”。。。。
zhouxuchen
2017-02-07 19:26:02 +08:00
楼主的文章被别人被转到虎扑步行街了,不知道有没有得到楼主同意
https://bbs.hupu.com/18424818.html
fffflyfish
2017-02-07 19:30:35 +08:00
lz ,类似这种项目都是有监督的机器学习进行分类的吧?请问您用的语料库是什么?正好最近在看 nlp 的东西,无奈英文类似 movie_reviews 等语料库
graetdk
2017-02-07 19:37:40 +08:00
@fffflyfish 我直接用的腾讯文智和哈工大的接口,语料库和机器学习不断优化都是他们做的事,也很感谢这些基础工作,我们这些底子薄一些的才能做出想做的东西
graetdk
2017-02-07 19:39:27 +08:00
@zhouxuchen 不知道这件事,不过他注明了微博,我觉得没啥。不过虎扑流量真是大啊,我擦
cfans1993
2017-02-07 19:44:55 +08:00
好玩
trythebest
2017-02-07 20:21:27 +08:00
不错 支持!
iyaozhen
2017-02-07 20:36:14 +08:00
支持楼主,朋友圈已经开始火起来了
davidqw
2017-02-07 21:32:25 +08:00
厉害了我的哥,帮转到音乐圈去
Rorysky
2017-02-07 21:33:19 +08:00
@jiangzhuo 语义分析,老本行了,当年 windows 刚进来,自带中文输入法就是和哈工大合作的,记得好像直到 windows 7 ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/338740

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX