数字媒体处理及应用

Mxne2024-04-022024-04-02

文本与文本处理

文本由一系列“字符”(character) 组成，每个字符均使用二进制编码表示。

文本在计算机中的处理过程是：

字符：文字的基本元素是字母和符号，统称为“字符”(character)。

字符集：一组特定字符的集合。不同的字符集包含的字符数目与内容不同，如: 中文字符集、西文字符集、日文字符集等。

字符的编码：字符集中每个字符的二进位表示，称为该字符的编码或代码(code)；不同的字符其编码各不相同

西文字符集

ASCII

又名：美国标准信息交换码。基本的ASCII字符集共有128个字符，96个可打印字符（常用的字母、数字、标点符号等），32个控制字符。

ASCII的编码和存储

基本ASCIⅡ编码每个字符使用7个二进位进行编码，8个二进位来存储。每个字节中多余出来的一位（最高位）置为“0”，用作奇偶校验。

汉字编码

GB2312

每一个GB2312汉字使用16位(2个字节)表示。为了与ASCI字符相区别，每个字节的最高位均为“1”，这种高位均为1的双字节汉字编码就称为GB2312汉字的“机内码”（又称“内码”）。【均为简体字】

GBK

GBK是我国1995年发布的，全称为《汉字内码扩充规范》，他一共有21003个汉字和883个图形符号，除了GB2312中的全部汉字和符号之外，还收录了包括繁体字在内的大量汉字和符号。【向下兼容GB2312】

第一个字节最高位必须为“1”，第二个字节子高位可以是“1”也可以是“0”。

GB18030

目的：为了保护我国已有的大量信息资源，既能与UCS/Unicode编码标准接轨，又能向下兼容GB2312和GBK汉字编码标准。共有27000多个汉字（收录字符最多）

不等长编码

UCS/Unicode

目的：为了能实现全球所有不同语言文字统一编码的国际编码标准

计算机中文字符号可采用不同的编码标准，计算机生成和处理的数字文档中对采用何种编码一般会有说明（标志）
PC和智能手机都能支持多国文字（包括汉字）的的输入、输出、存储、处理、显示和传输，但默认采用哪种语言文字和编码标准，可在操作系统和APP中设置或说明
不同操作系统、不同编程语言和不同APP默认采用的字符集及其编码并不一致，相互间进行通信和处理时，往往需要进行编码转换，若出错则会出现乱码。

区位码 + 2020H = 国标码

国标码 + 8080H = 机内码

区位码 + A0A0H = 机内码

区位码
GB2312将所有的汉字编入一个94×94的二维表中，行和列共同定位一个字，行就是区，列就是位，合并就是区位码。区位码是一个四位的十进制数，前两位叫区码，后两位叫位码。

区位码可以表示某个具体的汉字，但是无法与ASC码进行兼容。

汉字的国标码（交换码）
GB2312不仅仅包含中文汉字，也包含各种那个字母数字符号，与ASCII编码中的字母数字符号重复，故覆盖ASCII中符号数字字母部分，将其中的符号重新编入GB2312中，而对于ASCII中前32个控制字符继续沿用，所以保留前32字符，就需要将汉字编码向后偏移32，对应十六进制就是20，故：区位码+2020H=国标码

汉字的机内码
汉字机内码，又称“汉字ASCII码”，简称“内码”，国标码覆盖了ASCII码，但是计算机内部仍然存在ASC码，所以某些汉字的国标码仍有可能会和ASC码进行重复，重复的后果会产生乱码，所以不应覆盖，而是要兼容ASCII码，故根据ASCII码最高位通常为0的特点，将国标码每个字节的最高位从0换成1与ASCII码进行区分，故：国标码+8080H=机内码

文字符号的输入

键盘输入

分类：

数字编码：电报码、区位码
字音编码：26键
字形编码：五笔
形音编码

汉字的输入码不是唯一的，汉字的机内码是唯一的。

联机手写输入

优点：

自然，流畅
小型化，适合移动计算

不足：

别速度和正确性还需提高
书写要求还要降低

语言输入

优点：

自然，方便，适合移动计算

不足：

对说话人、说话方式、说话内容的适应能力要改进
识别速度和正确性还需进一步提高

文本的分类

（1）按照是否具有排版格式∶ 简单文本 和 丰富格式文本 。

（2）按照文本内容的组织方式∶ 线性文本 和 超文本 。

简单文本（纯文本）

简单文本是由一连串表达正文内容的字符（包括汉字）的编码所组成，它几乎不包含任何格式信息和结构信息。其文件的后缀名为.txt
简单文本的文件体积小，通用性好，几乎所有的文字处理软件都能识别和处理，但是它没有字体、字号的变化，不能插入图片、表格，也不能建立超链接。Windows记事本采用的是UTF-8编码。

丰富格式文本

有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”。
丰富格式文本中，除了正文内容之外，还使用了许多“标记“来描述字符的属性和格式的设置以及插入图、表、公式、表格等等。【组成：正文+标记】

常见标记语言：HTML（超文本标记语言）、XML（可扩展标记语言）

不同软件制作的丰富格式文本其文件扩展名各不相同。例如.doc、.docx、.html、.pdf、rtf、hlp（帮助文件）一般并不兼容，需要使用不同的APP进行处理。

超文本

传统纸质文本内容的组织是线性的，而超文本概念是对传统文本的一种扩展。除了顺序阅读方式外，还可以通过文本内部所设置的链接进行跳转、导航、回溯等操作。
超文本采用网状结构来组织信息，文本中的各个部分按照其内容的逻辑关系互相链接。WWW网页就是典型
的超文本结构。

超链是有向的，起点位置称为涟源(HTML文档中称为锚)，目的地称为链宿。涟源（锚）和链宿使用TML标记语言指出。

超文本属于丰富格式文本。

文本的编辑、排版与处理

文本的编辑

目的：确保文本内容正确无误。

操作：对字、词、句和段落进行添加、删除、修改等操作。

MS Word的功能：

在文本的任何位置都可以插入新的文字
从文本的任何位置都可以删除不需要的文字
将一段文字从一处移动到另一处
将一段文字从一处复制到另一处
在文本中自动查找指定的词语
用一个词语自动替换文本中指定的词语

文本的排版

目的：使文本清晰、美观、便于阅读

操作内容：对文本中的字符、段落乃至整篇文章的格式进行设计和调整，分成3个层次：

对字符格式进行设置
对段落格式进行设置
对文档页面进行格式设置

文本的处理

对文木中所含文字信息的形音义等进行分析和处理。例如：字数统计、文语转换、文摘生成、文本检索等。

字数统计，词频统计，简/繁体相互转换，汉字/拼音相互转换
词语排序，词语错误检测，文句语法检查
自动分词，词性标注，词义辨识，大陆/台湾术语转换
关键词提取，文摘自动生成，文本分类
文本检索（关键词检索、全文检索），文本过滤
文语转换（语音合成）
文种转换（机器翻译）
篇章理解，自动问答，自动写作等
文本压缩，文本加密，文本著作权保护

文本检索

关键词检索
全文检索：搜索引擎

文本检索存在准确性问题，因此，检索结果并非全部都是用户想要的。

文本的展现

文本展现方式：

打印输出：纸质
屏幕显示：电子书

文本展现的过程：

对文本的格式描述进行解释。
生成文字和图表的映像（bitmap）。
传送到显示器或打印机输出。

字库

定义：同一种字体的所有字符的形状描述信息的集合。

2种不同的字库

点阵描述（计算存储空间）
轮廓描述(Truetype)

字体VS字库：不同的字体（宋体、仿宋、楷体、黑体等）对应不同的字库

字符集VS字库：在同一个字符集下，文本的输出所使用的字库不同

图像与图形

计算机中的“图”按其生成方法可以分成两类：取样图像（或点阵图像或位图图像）和（矢量）图形。

图像

图像的获取

从现实世界中获得数字图像的过程称为图像的“获取”。常用的图像获取设备：手机、扫描仪、数码相机、监控摄像头等。

图像获取过程⭐

图像获取的过程需要使用光学、超声波或X射线等生成景物的映像（模拟信号）并进行数字化，处理步骤：

扫描：将景物映像划分为M×N个网格，每个网格称为一个取样点。从而将景物映像转换为M×N个取样点构成的阵列。
分色：将每个取样点的颜色分解成红、绿、蓝三基色(R、G、B),若生成灰度或黑白图像则不进行分色处理。
取样：测量每个取样点的每个分量（基色）的亮度（也称为“灰度”值）
量化：对取样点每个分量的亮度值进行A/D转换，即把模拟量使用数字量来表示。(8位-12位二进制正整数)

图像的表示

一幅图像由M(列)×N(行)个取样点组成，每个取样点是组成取样图像的基本单位，称为像素。

图像的主要参数

图像大小/图像分辨率：也称为图像分辨率，用水平分辨率 x 垂直分辨率表示。

注意：垂直分辨率：矩阵的行数；水平分辨率：矩阵的列数

位平面数：即像素的颜色分量的数目。
- 黑白或灰度图像只有一个位平面
- 彩色图像有3个或更多的位平面
像素深度：指每个像素用多少个二进位来表示，它是像素的所有颜色分量的二进位数目之和。像素深度决定了该图像可表示的不同颜色（或不同亮度）的最大数目。
- 单色图像若像素深度是8位，则不同亮度等级的总数为 $2^{8}=256$。
- R、G、B三基色组成的彩色图像，若3个分量的像素位数都是8位，则该图像的像素深度为24，不同颜色数目最多为：$x^{8+8+8}=x^{24}$ 【真彩色图像24位】
颜色空间类型：指彩色图像所使用的颜色描述方法，也叫颜色模型。【以下颜色模型可以互相转换】
- 显示器 —–→ RGB模型（红、绿、蓝）
- 彩色打印机 —–→ CMYK模型（青、品红、黄、黑）
- 图像编辑软件 —–→ HSB模型（色彩、饱和度、亮度)
- PAL制彩色电视 —–→ YUV模型(Y亮度信号，UV两种色度信号)

数字图像的数据量

数字图像数据量的计算公式（以字节为单位）：【未压缩】

图像数据量 = 水平分辨率 × 垂直分辨率 × 像素深度 / 8

几种常用格式的图像的数据量（未压缩)：

压缩之后数字图像的数据量计算（以字节为单位）：【压缩后】

图像数据量 = (水平分辨率 × 垂直分辨率 × 像素深度 / 8) / 压缩比

数字图像的压缩

图像数据压缩的必要性

节省存储数字图像所需要的存储器容量
提高图像的传输速度，减少通信费用，

图像数据压缩的两种类型

无损压缩：用压缩后的数据还原出来的图像没有任何误差【完美还原】
有损压缩：用压缩后的数据还原出来的图像有一定的误差

压缩编码方法的评价标准⭐

压缩倍数的高低（压缩比大小）
重建图像的质量（有损压缩时）
压缩算法的复杂程度

图像文件格式⭐

BMP格式

BMP图像格式是Windows操作系统下使用的一种标准图像格式，几乎所有的Windows应用软件都支持。支持单色、16色、256色、真彩色图像。
一个文件一幅图像，可以进行无损压缩，也可不压缩。

TIF格式

大量用于扫描仪和桌面出版

GIF格式

颜色数目不超过256色，适合用作插图、剪贴画等色彩数要求不高的场合，文件特别小，适合网络传输。
GIF图像格式能支持动画、透明背景(JPEG不支持)。
GIF图像格式具有累进显示功能，适合网络浏览器观看。

JPEG格式

JPEG是静止图像数据压缩编码的国际标准，采用JPEG标准的图像文件扩展名是jpg。【大多有损】
JPEG特别适合各种连续色调的彩色或灰度图像，在计算机和数码相机中已得到广泛应用。
JPEG的最新标准是JPEG2000(图像文件扩展名是.jp2),它采用更先进的技术，可取得更好的效果，目前在医学图像处理中使用。

PNG格式

90年代中期由W3C开发，主要在互联网上使用。
保留了GIF文件的特性。
增加新功能，如支持每个像素为48比特的真彩色图像，支持每个像素为16比特的灰度图像，添加通道等。

Webp格式

Google公司推出的图像文件格式。
压缩率比JPEG和PNG显著提高，网页平均加载时间大约可以减少1/3。
WebP格式图像编码时间比JPEG格式图像要长得多。
尚未得到广泛支持。

数字图像处理

主要目的

提高图像的视觉质量
恢复与重建有失真和畸变的图像
图像分析，包括：图像的分类、识别和理解等
图像数据的变换、编码和数据压缩
图像的存储、管理与检索
图像内容与知识产权的保护

数字图像处理软件

Word和PowerPoint具有基本的图像编辑功能
Windows附件中的“画图”软件
微软Office工具中的Picture Manager
ACD System公司的ACDSee32
Adobe PhotoShop

PS主要功能包括

图像的控制与显示
图像区域的选择
图像的编辑操作
图像的滤镜操作
绘图功能
文字编辑功能
图层操作

图形

通过计算机和软件对景物的结构、形状与外貌进行描述（称为“建模“），然后根据该描述和选定的观察位置及光线状况，生成该景物的图形称为“绘制“)。计算机图形也称为计算机合成图像/矢量图形。

计算机绘图过程

建模：首先是使用计算机描述景物的结构、形状与外貌，然后再根据其描述和用户观察景物的位置及光线情况，生成该景物的图像并在屏幕上或打印机绘图仪上输出，景物在计算机内的描述即为该景物的模型，通常需要使用专门的软件来完成：
绘制：计算机根据景物的模型生成其图像的过程称为“绘制”，也叫做图像合成，这是借助计算机中的绘制软件和显卡实现的。

景物的两类建模方法

规则形体（如工业产品等）
可以使用各种几何元素（点、线、面、体等）以及表面材料的性质进行描述，所建立的模型称为“几何模型”。
不规则形体（如自然产物或现象）
需要找出它们的结构和生成规律，并使用相应的算法来描述其规律（如描述树木、花草、烟火、毛发、山脉等），这种模型称为“过程模型”或“算法模型”。

计算机图形的应用

计算机铺助设计(CAD)和计算机辅助制造(CAM)。
利用计算机生成各种地形图、交通图、天气图、海洋图、石油开采图等。
作战指挥和军事训练。
计算机动画和计算机艺术。
其它：电子出版、数据处理、工业监控、辅助教学、软件工程等。

矢量绘图软件

专业绘图软件：
AutoCAD、PROTEL和CAXA电子图板（机械、建筑等）
MAPInfo、ARCInfo、SuperMap GIS(地图、地理信息系统)
办公与事务处理、平面设计、电子出版等使用的绘图软件：
Corel公司的CorelDraw,
Adobe公司的lllustrator,
Macromedia公司的FreeHand,
微软公司的Microsoft Visio等
MS Office中内嵌的绘图软件：
Word和PowerPoint中的绘图功能（简单的二维图形)

数字音频及应用

声音(sound)由振动产生，通过空气等介质进行传播。声音是一种波，它由许多不同频率的谐波组成，谐波的频率范围称为声音的“带宽”。

人耳可听见的声音(20Hz~20kHz)在信息技术中称为音频信号，简称音频(audio)。

两种音频：

话音或语音(speech),专指人的说话声音，带宽仅为300~3400Hz
全频带声音（如音乐声、风雨声、汽车声等），其带宽可达到20Hz~2OkHz

数字音频的获取

音频是模拟信号。为了使用计算机进行处理，必须将它转换成二进制编码表示的形式。

这个过程称为音频信号的数字化。数字化的步骤：

取样：把时间上连续的音频信号离散成不连续的一系列的样本，取样频率不应低于音频信号最高频率的两倍。语音取样频率一般为8-16kHz,全频带音频的取样频率应在40kHz以上。
量化：取样得到的每一个样本一般使用8、12、14或16位二进制整数表示（称为“量化精度”），精度越高，声音保真度越好，噪音越低。【A/D转换】
编码：经过取样量化得到的数据还必须进行数据压缩，以减少数据量，并按照某种格式对数据进行组织，以便计算机存储处理与传输。

数字音频的获取设备

数字音频获取设备包括麦克风（话筒）和声卡。

麦克风（话筒）的作用是将声波转换成电信号，然后再由声卡进行数字化。

声卡既负责音频信号的获取，也负责音频信号的重建，它控制并完成声音的输入输出。

声卡

主要功能

音频信号的获取与数字化
音频信号的重建与播放
MIDI声音的输入
MIDI声音的合成与播放等

声卡以数字信号处理器(DSP)为核心，DSP是一种专用的微处理器，它在完成数字音频的编码、解码、MIDI声音的合成以及音频编辑操作中起着重要作用。

数字音频的输出

计算机输出声音的过程通常分成两步：

重建：把音频信号从数字形式转换成模拟信号形式，由声卡完成。
播放：将模拟音频信号经处理和放大后送到音箱（扬声器）。

声音的重建是音频信号数字化的逆过程，分成三个步骤：⭐

解码：把压缩编码后的数字音频恢复到压缩编码前的状态。
数模转换：把音频样本从数字量转换成模拟量。
插值：把时间上离散的音频信号转换成在时间上连续的模拟音频信号。

音响

普通音箱：接收的是重建的模拟声音信号。
数字音箱：直接接收数字声音信号，失真更小。

数字音频的主要参数

取样频率
- 语音的取样频率低，一般为8k~16kHz
- 全频带声音（如音乐）取样频率高，一般44.1k~48kHz
量化位数：通常是8、12或16位
声道数目：单声道为1，双声道为2【立体声=双声道】
码率（比特率）：每秒钟的数据量、

数字音频的码率

码率：指的是每秒钟有多少二进位

未压缩时数字音频的码率计算公式：

码率 = 取样频率 × 量化位数 × 声道数（单位：bit/s)

两种常用数字音频的主要参数：⭐【背】

压缩后数字音频的码率为：

压缩后的码率 = 未压缩时的码率 / 压缩比

音频的数据量为：

音频的数据量 = 码率 x 播放时间

CD唱片的码率=44.1kHz×16bits×2=176.4KB/s
CD唱片1小时的数据量=176.4KB/s×60×60=635040KB=635MB

音频文件格式

音频常用的压缩编码

名称	声道数目	主要应用
MPEG-1 audio层1	2	数字盒式录音带
MPEG-1 audio层2	2	DAB、VCD
MPEG-1 audio层3	2	Internet、MP3
MPEG-2 audio	5.1，7.1	同MPEG-1
Dolby AC-3	5.1，7.1	DVD、DTV、家庭影院

数字音频的编辑【考点mini】

Windows附件中娱乐类的“录音机”程序是一个非常简单的数字音频编辑器，具有如下功能：

录制音频
编辑音频
声音的效果处理
格式转换
播放音频（只能播放wav格式的音频文件）

数字音频的播放软件【考点mini】

Windows操作系统捆绑了一个应用软件，称为Vindows媒体播放器（简称“WMP”),该软件可以播放音频、视频文件也可以显示图片。该软件播放的音频文件格式包括MP3、WMA、WAV、MIDI等，也可以播放CD和DVD光盘。还具有管理功能，支持播放列表，支持从CD光盘上抓取音轨复制到硬盘，支持刻录CD光盘，支持与便携式音乐设备进行同步。

语音识别

将人的说话声音转换成相应的文字，这需要计算机自动识别出语音信号中的单词和语汇，甚至理解其语义（内容）。

应用：语音拨号、语音导航、设备操作控制、语音文档检索、听写数据录入、计算机同声翻译等。

几种不同复杂程度的语音识别技术：

孤立语音/连续语音识别
小词汇量/大词汇量语音识别
特定人/非特定人语音识别

语音合成

计算机合成音频就是计算机模仿人说话或演奏音乐。

计算机合成音频有两类：

计算机合成话音（语音）

计算机模仿人把一段文字朗读出来，即把文字转换为说话声音（简称为文语转换【TTS】)。

应用：有声查询、文稿校对、语言学习、语音秘书、自动报警、残疾人服务等。

文语转换(TTS)

按照文本（书面语言）进行语音合成的过程

文语转换过程原理上分成三步：

文本分析：对文本进行分析，判断每一个字的正确读音，将文字序列转换成一串发音符号（如国际音标或汉语拼音)。
韵律分析：根据文句的结构、位置、使用的标点符号以及上下文等，确定发音时语气的变换以及读音的轻重缓急，这些都由一组韵律控制参数来进行控制。
语音合成：根据发音标注，从语音库中取出相应的语音基元，按照韵律控制参数的要求，利用特定的语音合成技术对语音基元进行调整和修改，最终合成出符合要求的流畅自然的语音。

计算机合成音乐(MIDI):

计算机模拟各种乐器发声并按照乐谱演奏音乐。

应用：计算机作曲、配器等。

计算机合成音乐需要三个要素：乐器、乐谱和“演奏员”。MIDI文件（后缀为.mid或.midi)相当于乐谱，媒体播放器相当于演奏员，在计算机中它需要发送指令到声卡音乐合成器中，音乐合成器会将指令进行合成模拟乐器发声。

播放：由PC机中的声卡合成，由Windows的媒体播放器软件播放（音乐质量受声卡档次影响)

MIDI的优点

数据量极小（比CD立体声少3个数量级，比MP3少3个数量级）
易于制作和编辑修改
可以与波形声音同时播放

MIDI的不足

能合成音乐【纯音乐】，不能合成歌曲和语言
音质与硬件设备相关

数字视频及应用

数字视频

泛指内容随时间变化的一个图象序列，又叫运动图象或活动图象(motion picture)。

常见视频：电视，电影，动画等。

视频的特点：

内容随时间而变化，
伴随有与画面动作同步的声音（伴音），
人类接受的信息70%来自视觉，其中活动图象是信息量最丰富、直观、生动、具体的一种承载信息的媒体。
视频信息的处理是多媒体技术的核心。

数字视频的主要参数

帧频、帧速率：一每秒钟显示多少帧图像，单位是fps。
图像扫描方式
- 隔行扫描(interlaced scanning)
- 逐行扫描方式(progressive scanning)
帧大小：每帧图像的分辨率，即图像宽度x图像高度（单位：像素）
颜色深度、像素深度：图像中每个像素的二进位数目（单位：bit)

数字视频信号的获取

视频信号的数字化过程：

先将RGB三基色转换为Y、U、V(亮度和2个色差信号)，经滤波后再分别作取样、量化和编码处理，得到数字视频的3个分量。

数字视频的获取设备

视频采集卡（简称视频卡）。
数字摄像头，通过光学镜头和CCD或CMOS采集动态图像，转换成数字信号并输入PC机。
脱机获取设备：数码摄像机。

视频编码

数字视频的应用

可视电话：通话双方能互相看见的一种电话系统。
电话机具有摄像、显示、声音等功能，内置高质量CCD镜头及MODEM。
视频会议：多人同时参与的一种音/视频通信系统。
类似于可视电话，但多人参加通话，提供的功能也更加丰富。
两种实施方式：
通过电信局的数字通信网进行（政府系统的视频会议，图像和声音的质量好，保密性强）。
在互联网上进行，例如使用下列即时通信软件
iPad/iPhone的FaceTime,腾迅的QQ,微信等。
VCD

又叫：点播电视、视频点播

定义：用户可以根据自己的需要主动收看电视节目

光盘在数字视频存储中的应用：

流媒体技术

在因特网上收听（看）音（视）频节目的2种方式：

下载存储方式：先下载存储在计算机中，下载完毕后再播放（缺点：需要等待较长时间，并需要较大的存储容量）
流式传输方式：边下载、边播放（优点：只需要下载一部分数据之后，就可以开始一边播放一边下载，等待时间短、存储需求小)【流媒体】

流媒体就是一种允许在网络上让用户一边下载一边收看（听）音视频媒体的媒体分发(delivery)技术。

计算机动画

计算机动画一使用计算机生成一系列内容连续的画面供实时演播的一种技术，它是一种计算机合成的数字视频，而不是用摄像机拍摄的“自然视频”。

计算机动画制作包括：在计算机中建立景物的模型、描述它们的运动、生成一系列逼真的图像

三维计算机动画制作过程分以下几个阶段：

(1)描述景物的形状与结构（建模)
(2)确定景物的颜色和材质（纹理）
(3)设置灯光和确定虚拟摄像机的位置
(4)描述场景中物体的运动和摄像机的移动
(5)绘制一系列的图像
(6)输出动画结果

Flash动画

Flash动画的图像主要有矢量图形构成，因此不管怎样放大缩小它都清晰可见。
Flsh动画的文件扩展名为.swf,它的数据量较小，便于在互联网上传输。