[ Linux Audio 篇 ] 音频开发入门基础知识

news/2024/4/16 2:21:48

在短视频兴起的背景下,音视频开发越来越受到重视。接下来将为大家介绍音频开发者入门知识,帮助读者快速了解这个领域。
在这里插入图片描述
轻柔的音乐、程序员有节奏感的键盘声、嗡嗡的发动机、刺耳的手提钻……这些声音是如何产生的呢?又是如何传到我们耳中的呢?声音是振动产生的声波,通过介质(气体、固体、液体)传播并能被人或动物听觉器官所感知的波动现象。声音的频率一般会以赫兹表示,记为Hz,指每秒钟周期性震动的次数。而分贝是用来表示声音强度的单位,记为dB。

1. 认识声音

声音的物理本质非常简单,其实就是两个字:振动。我们对振动应该不陌生,振动的钟、振动 的鼓膜、振动的音叉等等。那么到底振动如何引起的声音,又怎样能被我们听到呢?

从技术上来说,声音是物理能量(如拍手)到空气压力扰动的转换。空气压力中的这种改变通过空气以一连串振动(声波)的形式传播。声音振动也可以通过其他介质传播,如墙壁或地板。

在这里插入图片描述

上图显示了正弦波的示波图(图形显示),这是最简单最纯粹的波形。如果振动不以可辨别的形式传播,则声音就称为噪声。

在这里插入图片描述波形的重复(示波器中的每个波峰和波谷)被称为循环。每秒钟发生的循环数决定波形的基本音高,通常称为频率,大部分乐器都可以提供振荡器频率控制,以赫兹 (Hz) 为单位,用于确定每秒的循环数,从而决定声音的基本音高。

2. 耳朵是如何听到声音

我们的耳朵是一个很神奇的器官,通过耳朵,我们可以感受到周围空气中的声音,转化成信息处理。能够让我们清楚的知道声音的来源。当声波进入耳朵时,会引起鼓膜和耳内的骨头振动。内耳中细小而脆弱的耳毛将振动转换为电信号发送到大脑,然后大脑将信号解析为声音。总结起来耳朵通过外耳、中耳和内耳的协同作用,将声音的机械能转化为神经信号,从而使我们能够听到声音。另外人耳并不是所有的声波都可以听到,只可以听到 20Hz 到 20KHz 之间的声波。 这个过程可以大家搜索下相关视频介绍解释的会更加清楚一些。大家可以听下这个音频,通过听感结合视频中看到的频率分析,感受下。

20Hz-20kHz

3. 工程角度的音频播放

在这里插入图片描述
从工程角度来处理声音时,首先是通过麦克风采集到声音的模拟信号。然后通过音频模数转换器,将模拟信号转换成数字信号。这些数字信号可以被计算机处理和存储,或者通过扬声器输出。扬声器会根据数字信号产生一定频率的震动,然后通过空气传播模拟信号到我们的耳朵。这样我们就能够听到对应的声音。在处理声音时,我们还会应用数字信号处理技术。通过使用数字信号处理算法,我们能够对声音进行滤波、音频增强、降噪等处理,从而进一步优化声音效果。此外,还可以利用多通道录制技术,将不同方向的声音分离出来,实现立体声效果。为了提高声音的传输质量,我们还会使用压缩算法对声音进行压缩,以减少数据量,同时保持一定的音质。这些工程技术能够使我们在日常生活中享受到更清晰、更真实的声音体验。

4. 采样率(Sample Rate)

采样率是每秒从音频信号记录的样本数量的度量。它以赫兹 (Hz) 为单位进行测量,表示每秒记录音频信号样本的频率。 样本是对特定时间点音频信号响度的度量。采样率是音频信号质量的重要因素,因为它直接影响信号的带宽。更高的采样率可以捕获音频信号的更多细节,从而提高信号质量。然而,更高的采样率也需要更多的存储空间和带宽来存储和传输音频信号。在音频行业中,根据音频信号的预期用途使用不同的采样率。一些最常用的采样率是 44.1kHz、48kHz 和 96kHz。

在这里插入图片描述
如图所示,如果想完美地重建信号,必须对原始音频进行数千个样本。在A示例中,您可以看到我们的数字结果很差,因为我们的样本不够频繁。在B示例中,我们的数字结果更好并且看起来更平滑。然而,在C示例中,数字结果与原始音频一样平滑。那是因为我们已经采集了足够的样本!换句话说,足够高的采样率可以让我们捕捉到原始声音的每一个细节。

来听一下不同采样率录制的声音,需要注意高频成分的变化,因为采样率越低,高频信息越少。首先是每秒采样次数为16000Hz, 并且可以通过频率分析观察到信号的截止频率为8kHz。

16k

接下来同样的音乐,每秒采样次数为48000Hz, 并且可以通过频率分析观察到信号的截止频率为24kHz。

48k

5. 位深度 (bit depth)

音频位深度决定了可以为每个音频样本记录的可能幅度值的数量。位深度越高,捕获的每个样本的幅度值就越多,以重新创建原始音频信号。由于声波是连续波,因此具有无数可能的振幅值,因此我们需要将其振幅值建立为数字位,以准确地再现它们。查看下面的位深度示例:
位深度 + 采样率 = 音频带宽
位深度 + 采样率 = 音频带宽

在这里我们可以看到位深度如何与采样率一起重建一个波周期。在前两个示例中,我们没有足够的可用位来平滑地再现连续声波。但在第三个示例中,我们有足够的可用位来无误地映射信号的幅度值。

当一个信号被采样时,它需要以比特存储采样的音频信息。这就是位深度发挥作用的地方。位深度决定了可以存储多少信息。具有 24 位深度的采样可以存储更多细微差别,因此比具有 16 位深度的采样更精确。

最常见的音频位深度是 16 位、24 位和 32 位。每个都是一个二进制项,代表许多可能的值。更高音频位深度的系统能够表达更多可能的值。更明确地说,让我们看看每个位深度可以存储的最大值数是多少。可以看到两个位深度之间可能值的数量存在巨大差异。

  • 16 bit代表能够存储多达 65536 级信息
  • 24 bit代表能够存储多达 16777216 级信息
  • 32 bit代表能够存储多达 4294967296 级信息

位深度影响的另一个重要因素是信号的动态范围。16 位数字音频的最大动态范围为 96 分贝,而 24 位深度将为我们提供最大 144 分贝。CD 质量的音频以 16 位深度录制,因为一般来说,我们只想处理足够响亮的声音,但同时又不足以损坏设备或耳膜。对于 44.1kHz 的采样率,16 位的位深度足以再现普通人的可听频率和动态范围,这就是它成为标准 CD 格式的原因。

6. 音频通道 (channles)

理解音频通道的最简单方法是想象轨道或交通车道。其中单声道代表一 (1) 个轨道,立体声代表两 (2) 个轨道。因此,当以单声道录制时,您将音频录制到单个轨道中。当以立体声录制时,您将音频录制到两个轨道中;左和右。显然立体声可以让声音更加有空间感,但相应的数据量要比单声道的数据量多一倍。

在这里插入图片描述
还有更多通道数,基本上可以拥有任意数量的通道(扬声器),最常见的配置有:

  • 2.0。这是普通立体声音频,具有左右扬声器。所有音乐都以立体声录制,正常的视频媒体播放都是立体声。
  • 5.1。这是最标准的环绕声格式,如果你是游戏新手,这将是最简单的。它有普通的左右扬声器、一个中置声道和 2 个环绕扬声器,通常位于您的座位区后面。
  • 6.1。它拥有 5.1 环绕声的所有功能,但包括一个额外的后环绕声道,位于您的座位区后面,以获得更身临其境的声音。
  • 7.1。这些扬声器系统具有内置系统,基本上将单个后置通道(在 6.1 系统中)的信号分成 2 个音频通道,从而为您提供更高的沉浸感。
  • 8.1 或更高。一旦超过 7.1 声道,就进入了非常专业的领域,很可能会自己构建这个系统。添加的扬声器越多,就越会有身临其境的感觉。

在这里插入图片描述

  1. 总结

首先,我们了解了声音的物理本质是振动,并且通过介质传播。其次,我们探讨了耳朵如何听到声音,以及人耳能够听到的频率范围。然后,从工程角度出发,介绍了音频是如何播放和录音的,包括麦克风采集声音、模数转换、数字信号处理等。接着,我们讨论了采样率和位深度对音频信号质量的影响。最后,我们介绍了音频通道的概念和常见配置。通过这些内容,读者可以初步了解音频开发的基础知识。


http://www.ppmy.cn/news/1255984.html

相关文章

ESP32-Web-Server编程-简单的照片浏览器

ESP32-Web-Server编程-简单的照片浏览器 概述 从本节开始我们开始制作一些有趣的多媒体 Web 的示例。 当你希望在网页上展示一些广告、照片,或者你的开发板带摄像头,能够采集一些图片,这时你希望可以通过手头的浏览器查看图片,…

福州大学《嵌入式系统综合设计》 实验八:FFMPEG视频编码

一、实验目的 掌握使用算能平台进行视频编码的流程,包括开发主机环境与云平台的配置,视频编码程序的编写与理解,代码的编译、运行以及学习使用码流分析工具分析视频压缩码流等。 二、实验内容 搭建实验开发环境,编译并运行编码…

gcc CFI控制流完整性保护

一、CFI简介 GCC的CFI(Control Flow Integrity,控制流完整性)机制是一种用于防止针对函数指针和虚函数表的攻击的保护机制。它通过在编译时对程序进行加固,限制了程序中可能的跳转目标,以提高程序运行时的安全性。下面…

Python标准库:datetime模块【侯小啾python领航班系列(二十五)】

Python标准库:datetime模块【侯小啾python领航班系列(二十五)】 大家好,我是博主侯小啾, 🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ…

计算机网络TCP篇③问答篇

目录 一、如何理解 TCP 是面向字节流协议 先来说说为什么 UDP 是面向报文的协议? 如果收到了两个 UDP 报文,操作系统是如何区分开的呢? 再说说为什么 TCP 是面向字节流的协议? 二、如何解决粘包问题? ①、固定消…

[Golang] 高频次和高并发下的随机数重复问题的解决方案

一、概要: 在Golang中,获取随机数的方法一般会介绍有两种,一种是基于math/rand的伪随机,一种是基于crypto/rand的真随机。其中,math/rand由于其伪随机的原理,经常会出现重复的随机数,导致在需要…

QNX usleep测试

QNX usleep测试 结论 usleep时间在QNX上没有ubuntu上运行准确&#xff0c;但是10ms以上误差不大。 测试代码 testsleep.cpp的代码如下&#xff1a; #include <unistd.h> #include <stdio.h> #include <stdlib.h> #include <time.h>double usleep_…

tomcat PUT任意方法写文件

漏洞介绍 该漏洞是Apache Tomcat服务器中的PUT方法任意写文件漏洞,可以让攻击者上传Webshell并获取服务器权限。 该漏洞在2017年9月19日被Apache官方发布并修复CVE-2017-12615。在conf/web.xml文件中,readonly默认为true,当设置为false时,可以通过PUT / DELETE进行文件操作…

C#,数值计算——插值和外推,二维三次样条插值(Spline2D_interp)的计算方法与源程序

1 文本格式 using System; namespace Legalsoft.Truffer { /// <summary> /// 二维三次样条插值 /// Object for two-dimensional cubic spline interpolation on a matrix.Construct /// with a vector of x1 values, a vector of x2 values, and a ma…

机器学习 - 导论

简单了解 机器学习关于数据集的概念 、

Python - 字典3

修改字典项 您可以通过引用其键名来更改特定项的值&#xff1a; 示例&#xff0c;将 “year” 更改为 2018&#xff1a; thisdict {"brand": "Ford","model": "Mustang","year": 1964 } thisdict["year"] 20…

基于PHP的在线日语学习平台

有需要请加文章底部Q哦 可远程调试 PHP在线日语学习平台 一 介绍 此日语学习平台基于原生PHP开发&#xff0c;数据库mysql。系统角色分为用户和管理员。(附带参考设计文档) 技术栈&#xff1a;phpmysqlphpstudyvscode 二 功能 学生 1 注册/登录/注销 2 个人中心 3 查看课程…

Java 中如何正确的将 float 转换成 double?

为什么 double 转 float 不会出现数据误差&#xff0c;而 float 转 double 却误差如此之大&#xff1f; double d 3.14; float f (float)d; System.out.println(f);输出结果是:3.14; float f 127.1f; double d f; System.out.println(d);输出结果是&#xff1a;127.09999…

【UGUI】事件侦听EventSystem系统0学

前言介绍 EventSystem是Unity UGUI中的一个重要组件&#xff0c;用于处理用户输入事件&#xff0c;如点击、拖拽、滚动等。它负责将用户输入事件传递给合适的UI元素&#xff0c;并触发相应的事件回调函数&#xff08;就是你想要做的事情&#xff0c;自定义函数&#xff09;。 …

RC低通滤波电路直接带载后会发生什么?

1、滤波的含义 滤波是频域范畴&#xff0c;它说的是不同频率的信号经过一个电路处理后&#xff0c;信号发生变化的问题&#xff0c;变化包含了原始信号幅值和相位的变化&#xff0c;滤波电路对信号的幅值做出的响应称为幅频响应&#xff0c;对信号相位做出的反应称为相频响应。…

【计算机组成原理】存储器知识

目录 1、存储器分类 1.1、按存储介质分类 1.2、按存取方式分类 1.3、按信息的可改写性分类 1.4、按信息的可保存性分类 1.5、按功能和存取速度分类 2、存储器技术指标 2.1、存储容量 2.2、存取速度 3、存储系统层次结构 4、主存的基本结构 5、主存中数据的存放 5.…

Linux DNS服务器相关命令

配置文件&#xff1a; /etc/dnsmasq.conf ### 可以添加修改 address IP 与自定义域名 的对应关系 修改后重启服务&#xff1a;systemctl restart dnsmasq dns服务其他指令&#xff1a; systemctl start dnsmasq systemctl stop dnsmasq systemctl enable dnsmasq ## 开机自启已…

特殊二叉树——堆

&#x1f308;一、堆的基本概念 1.堆&#xff1a;非线性结构&#xff0c;是完全二叉树 2.堆分为大堆和小堆。 大堆&#xff1a;树中任意一个父亲都大于等于孩子&#xff0c;根节点值大于等于其所有子孙节点的值。 小堆&#xff1a;树中任意一个父亲都小于等于孩子&#xff0c;…

更改AndroidStudio模拟器位置

C盘何等的珍贵&#xff0c;可是好多工具&#xff0c;软件非得默认安装在C盘。。导致C盘越来越紧张。。 在日常使用过程中&#xff0c;安装任何软件都会将其安装到非系统盘下&#xff0c;Android模拟器也不能例外。保护好C盘也是日常一个良好的习惯。 Android AVD默认路径&…

arm linux 平台 打开摄像头矫正

安装v4l v4l 意思为 video for Linux&#xff0c; 是linux驱动链接摄像头的软件应用部分&#xff0c;当然先要安装好v4l-utils $ sudo apt install -y v4l-utils $ v4l2-ctl --list-devices $ v4l2-ctl -d 0 --list-formats-ext看完以后基础信息以后就可以使用jetso…
最新文章