关于声形码的思考

最近有个创意想法，但是有个技术难题，关于声形码的：

需求路径：
原始声音～简化为声形码～扫描声形码～播放原始声音

原理构思：
1 、录制原始声音，获得到一个完整的波形图
2 、简化，得到简化的波形图：声形码
3 、定义波峰波谷的绝对值在 1 ～ 5 取值（简化规则）
4 、得到一串整数的数学数字
5 、给这段数字赋值（链接原始录音）
6 、扫描这个声形码～得到数字～得到原始录音

也许现在已经有类似成熟的技术了，如果您知道，请告诉我一下下；这是我这个创意想法非常重要的一个部分，所以，欢迎大家一起探讨～～～

chengfu

2016-07-10 08:14:59 +08:00

@janxin 这是一个软件的问题，使用场景是某 app 带有生成声形码的功能，所以，录音只需要对着手机对着 app 录音就行了，剩下都是程序的事情～

HankAviator

2016-07-10 08:47:07 +08:00

二维码的储存容量似乎更大一些，用它记录声音特征，再由客户端模拟(类似 midi)貌似可行。二维码丑可以美化啊…各种个性的。建立一个标准很难呐

azh7138m

2016-07-10 08:50:26 +08:00

扫二维码，联网播放
这个声形码容量感觉很低，放不了多少东西

emlcj

2016-07-10 09:00:19 +08:00

LZ 需要学一下通信原理

chengfu

2016-07-10 09:10:41 +08:00

@azh7138m 嗯，所以需要制定合理的规则，我正文写的当作抛砖引玉来的，只要能达到需求路径即可 @emlcj 嗯～～～

linhua

2016-07-10 09:24:20 +08:00

在识别复杂度一样的前提下，考察一下每单位面积所携带的信息量（信息密度），你这个估计要小于二维码

声音的波形表达方式模拟的是介质中点的振动。因为声音是通过介质进行传播的，是通过介质中点的振动进行传播的。
相关科目《数字信号处理》《信号与系统》

在摄像头或者说图像传感器（包括人眼）的世界中，一切都是像素。都是一个一个的圆点。将你的图形（包括背景）都转换成一个一个连续的圆点之后，将一列圆点平均划分成几个等级，这一列的具体取值，这一列（纵坐标）的取值用这一列中黑色像素点的纵坐标值来代表。如果再把圆形的像素点用方形表示（因为在低像素的摄像头下，边缘会模糊，所以方形和圆形没多大区别）。这样子想象的话，你这个声形码其实也就像是二维码。

chengfu

2016-07-10 09:48:08 +08:00

@linhua 嗯，感谢你的详细描述，想来原理跟二维码应该是差不多的～～～

zmj1316

2016-07-10 09:52:44 +08:00

lz 的意思是要把声音转成图片的形式吧， ls 也有人建议了先去看看信息论再来开脑洞了。
就算是用二维码实现，一个二维码才能搞几个字节啊...

msg7086

2016-07-10 09:58:58 +08:00

鲁棒性不够啊。
而且你这不还是二维码？

DylanRing0

2016-07-10 10:04:18 +08:00

楼主应该去看看《通信原理》这门课，
从原理上告诉你，简化后的时域波形是还原不出原始波形的。
所以建议做成二维码那样的，简化过程抽出特征并上传音频，
还原时匹配特征下载音频播放。

如果楼主坚持原来的想法，建议你听一听 4bit 量化下的音频效果（-5 ~ +5 连 4bit 都不到）。
请相信这门成熟的理论课程，企图颠覆造轮子是不可能的（

linhua

2016-07-10 10:25:23 +08:00

估计楼主想要的是从声音（模拟世界） ---> 图像（模拟世界）的直接转换，不经过中间的声音编码（数字世界）[基本的是声音（模拟世界） ---> 声音编码（数字世界） ---> 图像（模拟世界）]

v2016

2016-07-10 10:28:09 +08:00

音色那些可以考虑，然后就还原了

Remember

2016-07-10 10:28:31 +08:00

楼主你这脑洞是不是约等于从 md5 还原文件？

SeanChense

2016-07-10 10:39:58 +08:00

去看看上面的人说的《通信原理》吧，模拟通信里这些东西已经研究的透透的。

lee015

2016-07-10 10:59:04 +08:00

采样量化编码就是 ADC 吧，看看通原。这种不能恢复原始录音。

dayoushen

2016-07-10 11:32:41 +08:00

这个是音频指纹吧，之前调研过 shazam 和 midomi 音乐识别就是基于此技术（类似网易云音乐的听歌识曲），网易公开课 TED 好像有个演讲，大致想法是提取音频的指纹，然后存在在一个大的网络服务器上，把现实生活中一张图片和音频指纹绑定，当你上传的图片和服务器上图片相似就会解码得到原始音频。说到底还是信息压缩还原的问题。

dayoushen

2016-07-10 11:35:20 +08:00

简单粗暴做一个音频长度+md5 码到二维码的映射就可实现基本功能

chengfu

2016-07-10 11:47:43 +08:00

感谢大家从技术上帮我解惑，特别是推荐《通信原理》的几个朋友，但是作为建筑学出身的 it 产品经理，我暂时没有时间和精力去学习《通信原理》的打算，甚至本帖这个问题都不该我来提出，所以，探讨告一段落吧，感谢大家的积极参与。但凡有真的明白我提出这个问题需求的技术牛，可以尝试通过邮箱与我进行联系和探讨 chengfu@outlook.com 谢谢～

menc

2016-07-10 12:08:28 +08:00

@chengfu
我明白你的需求
我也看懂了其他人的回答
我也看出来你似乎觉得他们并没有明白你的需求
我也看出来你似乎觉得没人理解你的需求
我想了想，明白了可能他们说的太艰深晦涩，以至于没学过通信原理和信息论的人听不懂。
--
他们的话形象点来说，就是，你这个 idea ，和永动机一样，是违背自然规律的。你的如此少信息量的二维码不能够承载哪怕是极限取样和压缩后的声音。

menc

2016-07-10 12:10:48 +08:00

@chengfu
再插一点和通信和信息论无关的。
你是产品经理，有这个 idea 相信做过调研，所有两个维度上展示信息的条形码都是二维码，你这个也是二维码的一种。我们现在最常见的叫 QR code ，仅仅是万千二维码的一种而已。
事实上除了 QR CODE ，形形色色的二维码都有，但是，他们都消失于历史的长河中，只有 QR code 活下来了。你可以想想为什么。
再看看 QR Code 的设计，就知道二维码其实门道很多。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/291394

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.