有什么简便办法判断网页是哪国语言?

2012-04-04 23:59:58 +08:00
 akann
在有些论坛里发言的甚至不知道说的是哪国语言,用谷歌翻译都无从做起。
5960 次点击
所在节点    问与答
7 条回复
akann
2012-04-05 00:10:01 +08:00
这个问题搜索引擎上搜了都找不到答案,看来还是比较难,但问的人还是挺多的,看来还是有需求的,实际上可以用个数据挖掘引擎就可以判断的,但好像现在还没有网站做这个。
akann
2012-04-05 00:25:08 +08:00
zxwind
2012-04-05 00:28:49 +08:00
@akann 随便敲了一行乱码

fsdcw fwdf df wf fwe. fwef wefaqfa jojfewnf lfw?

判断出来是Polish
akann
2012-04-05 00:45:32 +08:00
@zxwind 哈哈,我敲进去,判断也不准确,判断是葡萄牙语或者菲律宾语,看来这个问题的确还是挺难的。
kafka0102
2012-04-05 02:27:13 +08:00
@akann 语言识别是个技术问题了。技术上来说是个分类问题。这方面的online api可能有一些,如果是工具包的话,tika对英文类语种支持的不错。语言识别最麻烦的是多语言混合的情况,比如一篇中文技术文章,结果以代码为主,中文很少,自然就倾向于识别成英文,但实际要处理成中文。我现在就是在tika的基础上,对亚洲语系的语料做了些处理,计算分类的概率时加了些判断,尽量让目标的中文页面识别准确些。
raptium
2012-04-05 02:33:47 +08:00
chrome 猜得挺准的啊
akann
2012-04-05 03:41:06 +08:00
@raptium chrome是根据页面源码的charset决定的,问题是同一个charset的页面可能会有多种语言啊,比如一个网站的charset一般都是一个,但是上这个网站的人可能使用多种语言,chrome就无能为力了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/31362

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX