HUI

发表于2024-10-10|实习| 条评论

个人网上搜集杂七杂八 1.说一下pytorch里面两种浮点类型怎么样混合计算的二进制数系统中，每个0或1就是一个位(bit)，位是数据存储的最小单位。1个字节是8个比特，即：1byte = 8bit。而半精度浮点数FP16（FP，Floating Point浮点运算）使用2字节（16位）存储,单精度FP32使用4字节。半精度Fp16的优势深度学习系统大都采用的都是Fp32来进行权重参数的存储，随着模型越来越大，加速训练模型的需求就产生了。使用Fp32主要存在2个问题：第一是模型大，训练的时候对显卡的显存要求高；第二是模型训练速度慢。与FP32相比，FP16仅有16bit，2个字节。使用Fp16可以解决或者缓解使用FP32的两个问题，FP16的优势就是：（1）显存占用更少：通用的模型 FP16 占用的显存只需原来的一半，训练的时候可以使用更大的batchsize。（2）计算速度更快：有论文指出半精度的计算吞吐量可以是单精度的 2-8 倍。但是无脑全部使用FP16也是存在风险的，因为相比FP32,FP16也有自身的一些缺陷。半精度Fp16存在的问题 (1) 溢出错误 ...

八股文-深度学习(一)

发表于2024-10-10|实习| 条评论

个人网上搜集八股文-深度学习(一) 解决过拟合的几种方法数据增强 L1,L2正则化(权重衰减) Dropout early stopping BatchNorm归一化什么是L1正则化与L2正则化? L1正则化:在原来的损失函数基础上加上权重参数的绝对值 loss=J(w,b)+λ2m∑∣w∣loss=J(w,b)+\frac{\lambda}{2m}\sum|w| loss=J(w,b)+2mλ∑∣w∣ L2正则化(权重衰减):直接在原来的损失函数基础上加上权重参数的平方和 loss=J(w,b)+λ2m∑∥w∥F2loss=J(w,b)+\frac{\lambda}{2m}\sum\lVert w\lVert _F^2 loss=J(w,b)+2mλ∑∥w∥F2 为什么能够缓解过拟合? 模型复杂度越大，模型越倾向于过拟合。因为神经网络就是一个函数，对其进行傅里叶变换求得频谱，频谱中低频分量就是变化平滑的部分，高频分量就是变化敏感的部分。模型对于微小扰动的反馈差异大实际就是一个过拟合的表现，也就是高频分量不能多。衡量模型复杂度可以由线性函数f(x)=w ...

八股文-计算机视觉(一)

发表于2024-10-10|实习| 条评论

个人网上搜集八股文-计算机视觉(一) R-CNN系列的比较 R-CNN 步骤一：在imagenet分类比赛上寻找一个cnn模型，使用它用于分类的预训练权重参数；对于这个模型修改最后的分类层，分为21类，去掉最后一个全连接层，因为所用的测试集为20类，且还有一类背景类。步骤二：根据选择性搜索来对输入的图像进行选取2000个候选区域框；然后修改候选区域框的大小，以适应cnn的输入，然后用cnn来提取出每个候选区域的feature map。步骤三：训练svm分类器，这个svm分类器是对于特定的某一类进行区分，是专门用来对特定敏感区域进行分类，每一个类别对应于一个SVM分类器步骤四：使用回归器精细修正每个候选框的位置，对于每一个类，需要训练一个回归模型去判定这个框框的是否完美。 Fast-rcnn 步骤一：同样是寻找一个在imagenet上训练过的预训练cnn模型步骤二：与rcnn一样，通过selective search在图片中提取2000个候选区域步骤三：将一整个图片都输入cnn模型中，提取到图片的整体特征（这是相对于rcnn最大的改进的地方）步骤四：把候选 ...

八股文-大模型(一)

发表于2024-10-10|实习| 条评论

个人网上搜集八股文-大模型(一) 介绍Whisper底层原理。经典的Bert全套八股。经典的Transformer全套八股文介绍一下缩放点积注意力机制，以及它有什么作用是否自己搭建过LLM，大概介绍一下介绍chatGPT的训练流程介绍RLHF完整训练过程

八股文-自然语言处理(一)

发表于2024-10-10|实习| 条评论

个人网上搜集八股文-自然语言处理(一)

Audio课程（五）- 自动语音识别(ASR)

发表于2024-10-08|HuggingFaceAudio| 条评论

转载自：https://huggingface.co/learn/audio-course/en/ Audio课程（五）- 自动语音识别(ASR) 在本节中，我们将探讨如何使用 Transformers 将语音转换为文本，这一任务被称为语音识别。语音识别，也称为自动语音识别（ASR）或语音转文本（STT），是最受欢迎和令人兴奋的语音处理任务之一。它广泛应用于包括口述、语音助手、视频字幕和会议记录在内的多种应用中。您可能在不知不觉中多次使用过语音识别系统，比如说您智能手机中的数字助手（Siri、Google Assistant、Alexa）！当您使用这些助手时，它们首先要做的就是将您的语音转写为书面文本，准备用于各种下游任务（比如为您查询天气预报 🌤️）。试试下面的语音识别 demo。您可以使用麦克风录制自己的声音，或拖放音频样本文件进行转写：语音识别是一项具有挑战性的任务，它需要对音频和文本都有所了解。输入的音频可能有很多背景噪音，并且可能由具有各种口音的说话人发出，这使得从中识别出语音变得困难。书面文本可能包含无声音的字符，如标点符号，这些信息仅从音频中推断很困 ...

Audio课程（四）- 构建音频流派分类器

发表于2024-10-08|HuggingFaceAudio| 条评论

转载自：https://huggingface.co/learn/audio-course/en/ Audio课程（四）- 构建音频流派分类器音频分类是 Transformer 在音频和语音处理中最常见的应用之一。与机器学习中的其他分类任务一样，此任务涉及根据录音的内容为其分配一个或多个标签。例如，就语音而言，我们可能想要检测何时说出“嘿 Siri”等唤醒词，或者从“今天天气怎么样？”等口头查询中推断出“温度”等关键词。环境声音提供了另一个例子，我们可能希望自动区分“汽车喇叭”、“警笛”、“狗叫”等声音。用于音频分类的预训练模型和数据集 Hugging Face Hub 拥有 500 多个用于音频分类的预训练模型。在本节中，我们将介绍一些最常见的音频分类任务，并为每个任务建议适当的预训练模型。使用pipeline()类，模型和任务之间的切换非常简单 - 一旦您知道如何对一个模型使用pipeline() ，您就可以将其用于 Hub 上的任何模型，无需更改代码！这使得pipeline()类的实验变得非常快，让您可以快速选择最适合您需求的预训练模型。在我们讨论各种音频分类问题之前， ...

Audio课程（三）- 音频Transformer架构

发表于2024-10-08|HuggingFaceAudio| 条评论

转载自：https://huggingface.co/learn/audio-course/en/ Audio课程（三）- 音频Transformer架构本课程中，我们主要关注Transformer模型以及它们如何应用于音频任务。虽然您不需要了解这些模型的内部细节，但了解使它们工作的主要概念很有用，因此我们在本小节中回顾一下关于Transformer的知识。有关transformer的深入了解，请查看我们的NLP课程。 Transformer模型回顾 1.Transformer的原理是什么？ Transformer架构最早是为文本翻译的任务而设计的。它的结构如下：左边是编码器（encoder），右边是解码器（decoder）。编码器负责接收模型的输入，本例中是一系列文本标记(toen)，并构建其表征（representation，或称特征，feature）。Transformer模型的编码器在经过训练后能够从输入中提取并理解信息。解码器负责使用编码器生成的表征（特征向量）以及其他输入（先前预测的标记）来生成目标序列。Transformer模型的解码器在经过训练能够根据 ...

Audio课程（二）- 音频应用的入门介绍

发表于2024-10-08|HuggingFaceAudio| 条评论

转载自：https://huggingface.co/learn/audio-course/en/ Audio课程（二）- 音频应用的入门介绍声音分类（Audio classification）：将音频片段分入不同的类别。我们可以认出该音频是汪汪的狗叫声、喵喵的猫叫声，或者某个特定的音乐风格。自动语音识别（Automatic speech recognition, ASR）：将语音片段自动转录成文字。你可以将一段对话自动转化为文字稿，例如一段“你今天怎么样？”的录音。对于做笔记会很有用！说话人识别（Speaker diarization）：想知道录音里在说话的人是谁吗？我们可以利用🤗 Transformers来识别出一段录音中正在说话的人的身份，例如在一段对话的录音中识别出Alice和Bob各自说话的部分。由文字生成语音（Text to speech, TTS）：由一段文字合成其对应的语音，例如生成一本有声书，语音助手，或者给游戏中的NPC配音。利用🤗 Transformers，你可以轻松地做到！利用pipeline进行音频分类音频分类任务需要根据音频的内容对其 ...

Audio课程（一）- 音频数据处理

发表于2024-10-08|HuggingFaceAudio| 条评论

转载自：https://huggingface.co/learn/audio-course/en/ Audio课程（一）- 音频数据处理音频数据处理入门声波在本质上是一种连续信号，这意味着在一段给定时间内的声音信号有无数个取值。对于只能读取有限长数组的数字计算机来说，这是一个重要的问题。为了使得数字设备能够处理、储存和传送声波，我们需要将连续的声音信号转换为一个离散的序列。我们称之为数字化表示。音频数据集里包含了许多音频段落的数字化文件，例如一段旁白或者一段音乐。你可能见过不同的文件格式，例如.wav (Waveform Audio File，音频波形文件)、 .flac (Free Lossless Audio Codec，免费无损音频编解码) 和 .mp3 (MPEG-1 音频格式 3)。这些格式的主要区别在于他们的压缩方法不同。下面我们来了解一下如何将连续的声音信号转换为这些数字化表示。原始的模拟信号首先被麦克风捕捉，并由声音信号转化为电信号。接下来，电信号会由模拟-数字转换器（模数转换器，Analog-to-Digital Converter, ADC）经由采样过程 ...