八股文-杂七杂八
个人网上搜集
杂七杂八
1.说一下pytorch里面两种浮点类型怎么样混合计算的
二进制数系统中,每个0或1就是一个位(bit),位是数据存储的最小单位。1个字节是8个比特,即:1byte = 8bit。而半精度浮点数FP16(FP,Floating Point浮点运算)使用2字节(16位)存储,单精度FP32使用4字节。
半精度Fp16的优势
深度学习系统大都采用的都是Fp32来进行权重参数的存储,随着模型越来越大,加速训练模型的需求就产生了。使用Fp32主要存在2个问题:第一是模型大,训练的时候对显卡的显存要求高;第二是模型训练速度慢。
与FP32相比,FP16仅有16bit,2个字节。使用Fp16可以解决或者缓解使用FP32的两个问题,FP16的优势就是:
(1)显存占用更少:通用的模型 FP16 占用的显存只需原来的一半,训练的时候可以使用更大的batchsize。
(2)计算速度更快:有论文指出半精度的计算吞吐量可以是单精度的 2-8 倍。
但是无脑全部使用FP16也是存在风险的,因为相比FP32,FP16也有自身的一些缺陷。
半精度Fp16存在的问题
(1) 溢出错误
...
八股文-深度学习(一)
个人网上搜集
八股文-深度学习(一)
解决过拟合的几种方法
数据增强
L1,L2正则化(权重衰减)
Dropout
early stopping
BatchNorm归一化
什么是L1正则化与L2正则化?
L1正则化:在原来的损失函数基础上加上权重参数的绝对值
loss=J(w,b)+λ2m∑∣w∣loss=J(w,b)+\frac{\lambda}{2m}\sum|w|
loss=J(w,b)+2mλ∑∣w∣
L2正则化(权重衰减):直接在原来的损失函数基础上加上权重参数的平方和
loss=J(w,b)+λ2m∑∥w∥F2loss=J(w,b)+\frac{\lambda}{2m}\sum\lVert w\lVert _F^2
loss=J(w,b)+2mλ∑∥w∥F2
为什么能够缓解过拟合?
模型复杂度越大,模型越倾向于过拟合。因为神经网络就是一个函数,对其进行傅里叶变换求得频谱,频谱中低频分量就是变化平滑的部分,高频分量就是变化敏感的部分。模型对于微小扰动的反馈差异大实际就是一个过拟合的表现,也就是高频分量不能多。
衡量模型复杂度可以由线性函数f(x)=w ...
八股文-计算机视觉(一)
个人网上搜集
八股文-计算机视觉(一)
R-CNN系列的比较
R-CNN
步骤一:在imagenet分类比赛上寻找一个cnn模型,使用它用于分类的预训练权重参数;对于这个模型修改最后的分类层,分为21类,去掉最后一个全连接层,因为所用的测试集为20类,且还有一类背景类。
步骤二:根据选择性搜索来对输入的图像进行选取2000个候选区域框;然后修改候选区域框的大小,以适应cnn的输入,然后用cnn来提取出每个候选区域的feature map。
步骤三:训练svm分类器,这个svm分类器是对于特定的某一类进行区分,是专门用来对特定敏感区域进行分类,每一个类别对应于一个SVM分类器
步骤四:使用回归器精细修正每个候选框的位置,对于每一个类,需要训练一个回归模型去判定这个框框的是否完美。
Fast-rcnn
步骤一:同样是寻找一个在imagenet上训练过的预训练cnn模型
步骤二:与rcnn一样,通过selective search在图片中提取2000个候选区域
步骤三:将一整个图片都输入cnn模型中,提取到图片的整体特征(这是相对于rcnn最大的改进的地方)
步骤四:把候选 ...
八股文-大模型(一)
个人网上搜集
八股文-大模型(一)
介绍Whisper底层原理。
经典的Bert全套八股。
经典的Transformer全套八股文
介绍一下缩放点积注意力机制,以及它有什么作用
是否自己搭建过LLM,大概介绍一下
介绍chatGPT的训练流程
介绍RLHF完整训练过程
八股文-自然语言处理(一)
个人网上搜集
八股文-自然语言处理(一)
Audio课程(五)- 自动语音识别(ASR)
转载自:https://huggingface.co/learn/audio-course/en/
Audio课程(五)- 自动语音识别(ASR)
在本节中,我们将探讨如何使用 Transformers 将语音转换为文本,这一任务被称为语音识别。
语音识别,也称为自动语音识别(ASR)或语音转文本(STT),是最受欢迎和令人兴奋的语音处理任务之一。 它广泛应用于包括口述、语音助手、视频字幕和会议记录在内的多种应用中。
您可能在不知不觉中多次使用过语音识别系统,比如说您智能手机中的数字助手(Siri、Google Assistant、Alexa)! 当您使用这些助手时,它们首先要做的就是将您的语音转写为书面文本,准备用于各种下游任务(比如为您查询天气预报 🌤️)。
试试下面的语音识别 demo。您可以使用麦克风录制自己的声音,或拖放音频样本文件进行转写:
语音识别是一项具有挑战性的任务,它需要对音频和文本都有所了解。输入的音频可能有很多背景噪音,并且可能由具有各种口音的说话人发出,这使得从中识别出语音变得困难。 书面文本可能包含无声音的字符,如标点符号,这些信息仅从音频中推断很困 ...
Audio课程(四)- 构建音频流派分类器
转载自:https://huggingface.co/learn/audio-course/en/
Audio课程(四)- 构建音频流派分类器
音频分类是 Transformer 在音频和语音处理中最常见的应用之一。与机器学习中的其他分类任务一样,此任务涉及根据录音的内容为其分配一个或多个标签。例如,就语音而言,我们可能想要检测何时说出“嘿 Siri”等唤醒词,或者从“今天天气怎么样?”等口头查询中推断出“温度”等关键词。环境声音提供了另一个例子,我们可能希望自动区分“汽车喇叭”、“警笛”、“狗叫”等声音。
用于音频分类的预训练模型和数据集
Hugging Face Hub 拥有 500 多个用于音频分类的预训练模型。在本节中,我们将介绍一些最常见的音频分类任务,并为每个任务建议适当的预训练模型。使用pipeline()类,模型和任务之间的切换非常简单 - 一旦您知道如何对一个模型使用pipeline() ,您就可以将其用于 Hub 上的任何模型,无需更改代码!这使得pipeline()类的实验变得非常快,让您可以快速选择最适合您需求的预训练模型。
在我们讨论各种音频分类问题之前, ...
Audio课程(三)- 音频Transformer架构
转载自:https://huggingface.co/learn/audio-course/en/
Audio课程(三)- 音频Transformer架构
本课程中,我们主要关注Transformer模型以及它们如何应用于音频任务。虽然您不需要了解这些模型的内部细节,但了解使它们工作的主要概念很有用,因此我们在本小节中回顾一下关于Transformer的知识。有关transformer的深入了解,请查看我们的NLP课程。
Transformer模型回顾
1.Transformer的原理是什么?
Transformer架构最早是为文本翻译的任务而设计的。它的结构如下:
左边是编码器(encoder),右边是解码器(decoder)。
编码器负责接收模型的输入,本例中是一系列文本标记(toen),并构建其表征(representation,或称特征,feature)。Transformer模型的编码器在经过训练后能够从输入中提取并理解信息。
解码器负责使用编码器生成的表征(特征向量)以及其他输入(先前预测的标记)来生成目标序列。Transformer模型的解码器在经过训练能够根据 ...
Audio课程(二)- 音频应用的入门介绍
转载自:https://huggingface.co/learn/audio-course/en/
Audio课程(二)- 音频应用的入门介绍
声音分类(Audio classification):将音频片段分入不同的类别。我们可以认出该音频是汪汪的狗叫声、喵喵的猫叫声,或者某个特定的音乐风格。
自动语音识别(Automatic speech recognition, ASR):将语音片段自动转录成文字。你可以将一段对话自动转化为文字稿,例如一段“你今天怎么样?”的录音。对于做笔记会很有用!
说话人识别(Speaker diarization):想知道录音里在说话的人是谁吗?我们可以利用🤗 Transformers来识别出一段录音中正在说话的人的身份,例如在一段对话的录音中识别出Alice和Bob各自说话的部分。
由文字生成语音(Text to speech, TTS):由一段文字合成其对应的语音,例如生成一本有声书,语音助手,或者给游戏中的NPC配音。利用🤗 Transformers,你可以轻松地做到!
利用pipeline进行音频分类
音频分类任务需要根据音频的内容对其 ...
Audio课程(一)- 音频数据处理
转载自:https://huggingface.co/learn/audio-course/en/
Audio课程(一)- 音频数据处理
音频数据处理入门
声波在本质上是一种连续信号,这意味着在一段给定时间内的声音信号有无数个取值。对于只能读取有限长数组的数字计算机来说,这是一个重要的问题。为了使得数字设备能够处理、储存和传送声波,我们需要将连续的声音信号转换为一个离散的序列。我们称之为数字化表示。
音频数据集里包含了许多音频段落的数字化文件,例如一段旁白或者一段音乐。你可能见过不同的文件格式,例如.wav (Waveform Audio File,音频波形文件)、 .flac (Free Lossless Audio Codec,免费无损音频编解码) 和 .mp3 (MPEG-1 音频格式 3)。这些格式的主要区别在于他们的压缩方法不同。
下面我们来了解一下如何将连续的声音信号转换为这些数字化表示。原始的模拟信号首先被麦克风捕捉,并由声音信号转化为电信号。接下来,电信号会由模拟-数字转换器(模数转换器,Analog-to-Digital Converter, ADC)经由采样过程 ...