求靠谱敏感词过滤方案

2023-09-14 10:06:57 +08:00
 sanyang001

事情是这样子的: 我们项目需要移动端本地的敏感词检测服务,之前使用三方的收费太贵,现在打算自研。

这几天调研了 DFA 、Trie 、AC 这类的实现方案,对于几 w 的敏感词库,CPU 、内存尚可,有误杀的几率;老板比较有野心,说要搞几十 w 的敏感词库,我觉得移动端方案估计靠不住了。

求 V 站大佬提供一些本地化的检测方案,主要性能要可靠,感激不尽。

14492 次点击
所在节点    Android
53 条回复
streamrx
2023-09-14 12:04:09 +08:00
你想做一个比第三方好用的 还要比用他便宜,这东西又不是靠什么技术,要一直维护一直更新。 不可能做的比第三方提供的好用还比他便宜
jackOff
2023-09-14 12:37:36 +08:00
几十万条必须要设计特殊的 trie 树结构字典来减少判断基数字典(把几十万跳规则里剔除基本不可能有交集的规则,参考 adguardhome 的那种对域名进行的结构拆分),然后匹配规则肯定需要相似度百分比阈值,前缀,后缀,去除基础无意义符号(空格,.、_-这种),这个在各种智能识别里算是最基础的。最主要的是这个字典应该是精简的,无垃圾无意义符号加空格的
smilenceX
2023-09-14 12:37:45 +08:00
问 chatgpt ,它说有就有
jackOff
2023-09-14 12:50:01 +08:00
@sanyang001 海外的话好像简单一点,trie 树似乎可以试试,字典的数据要剔除无意义字符(,.、这种不可能产生图示意义的符号)加空格,全部最小化,这个规则也对查询的对象使用进行入参清洗,然后是相似度判断是不是敏感词,清洗后的入参应该可以通过关键字,前后缀什么的识别出一些简单的有问题的东西,或者把入参打印成图像再通过图像识别类似于降噪处理啥的丢弃一些无关键的对象来清洗获得一个比较简单的图像识别的文字结果,之后通过人脸识别的机制来进行相似度匹配,这个大部分场景的物体识别还是很成熟和准确的,它允许丢弃不少细节。入参的筛选还可以通过盲审核这句话能不能通读成日常交流语来减少进入上述复杂匹配机制,这个感觉需要 ai 还是啥?
sanyang001
2023-09-14 13:43:25 +08:00
@buaacss 非常感谢
sighforever
2023-09-14 13:59:20 +08:00
还不如接入 gpt 呢
sanyang001
2023-09-14 14:21:35 +08:00
@jackOff 感谢大佬
codeself
2023-09-14 14:22:30 +08:00
不存在完美的,自然语言太灵活了,前几天看到两个 B 站的评论,是这样的,啥机器都反应不过来的.

《诗经·梅木》
梅木冬溪,思慕晚意
飞舞洒碧,碧漾东西
梅覆梅木,梅游佳亭
泉佳似广,梅忧寂极
糙泥马壁,坻石洞溪
时复思母,消愁东曦​

初生东曦贴绯雾,赤石去罢嘶笺中。
逆马抽鞭草拦路,无恼晚意日宁朦。
akring
2023-09-14 14:38:02 +08:00
建议花小钱省大麻烦
timnottom
2023-09-14 14:49:12 +08:00
nrtEBH
2023-09-14 14:50:41 +08:00
敏感词需要定期更新的 不然出了什么热点你没过滤踩到雷就很危险
不建议在这里省钱 这是在中国大陆做 ICP 必备的合规成本
cbythe434
2023-09-14 15:27:50 +08:00
老板比较有野心。。老板铁憨憨要扛锅吧。。
本来有锅了 pua 乙方,现在等着自己扛吧
chrosing
2023-09-14 15:45:53 +08:00
@binbin0915jjpp 真机灵啊
polo3584
2023-09-14 16:01:27 +08:00
我司是自己维护屏蔽库,时不时更新,客服和网警会给反馈,按时加就完事了。但是图片就不好搞了,人工审核成本不低。
17681880207
2023-09-14 16:39:03 +08:00
最终方案:
一个下拉框,内置了相关的发言条目,例如:
1. 你是 GG 还是 MM ?
2. 快点吧,我等到花儿也谢了。
3. 你的牌打的太好啦~
4. 怎么又断线了网络怎么这么差。

与其规定别人不能说什么,不如规定别人只能说什么来的安全。🤓
PiersSoCool
2023-09-14 16:53:04 +08:00
有没有 chatgpt 过滤敏感词,好像 embedding 适合做这件事?
islandempty
2023-09-14 19:09:46 +08:00
抖音的敏感词库用的 ac 自动机,几百万 qps
Tyrant1984
2023-09-14 19:25:22 +08:00
各家用的敏感词库都是自家的,而且都是不公开的,干过一段审核,也干过一段运营搬砖,自己用的敏感词都是自己写的,或者有人会明确告诉你那些敏感了,你记住。然后去试别人的敏感词库就非常痛苦,经常是一旦提交提示失败需要修改,就知道踩中敏感词了,但是找不到,或者说太难找,直接放弃,不浪费这时间了。
cest
2023-09-14 19:32:07 +08:00
@17681880207 #35
他是出海的
用定式句也还是要注意各种尊重
同一句话在不同文化或同文化不同场合/不同相对身份也可能出事
需要真有能力的地区化专家来设计不冒犯任何东西的万用句子
cncmmdwl
2023-09-14 19:53:30 +08:00
@17681880207 打的不错 抱歉 你看,炉石这样都能嘲讽他人

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/973635

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX