AI大模型之路 第二篇: Word2Vec介绍

news/2024/5/24 11:51:04/ 标签: 人工智能, word2vec, 自然语言处理, 机器学习

你好,我是郭震

今天我来总结大模型第二篇,word2vec,它是大模型的根基,一切NLP都会用到它。

e4e7d3ed5e0457e6b2c310b49263fcea.png

Word2Vec

Word2Vec 是一种流行的自然语言处理(NLP)工具,它通过将词汇表中的每个单词转换成一个独特的高维空间向量,使得这些词向量能够在数学上表示它们的语义关系。

这种方法对于后续的深度学习模型和NLP的发展具有重大意义,因为它提供了一种有效的方式来表达文本数据,并使得基于文本的应用(如机器翻译、情感分析、信息检索等)的实现变得更加高效和准确。

发展影响:

  1. 语义理解的提升:Word2Vec训练出的向量能够捕捉词语之间的多种关系,如同义、反义等,这使得机器能更好地理解语言的深层含义。

  2. 深度学习的推动:Word2Vec的推出加速了深度学习技术在NLP领域的应用,为后来的模型如BERT、GPT等复杂的语言模型奠定了基础。

  3. 词向量方法的创新:Word2Vec的成功推动了其它类型的词嵌入方法的研发,比如GloVe(Global Vectors for Word Representation)和FastText。

基本原理

Word2Vec有两种架构:CBOW(Continuous Bag of Words)和Skip-gram。

  1. CBOW:这种方法预测目标单词基于上下文。例如,在“the cat sits on the”中,CBOW使用“the”、“cat”、“sits”、“on”、“the”作为输入来预测“mat”这个词。

  2. Skip-gram:与CBOW相反,它用一个单词来预测上下文。例如,给定单词“sits”,模型将会尝试预测它周围的单词如“the”、“cat”、“on”、“the”。

训练过程:

  • 使用神经网络作为训练模型,输入层为一个独热编码的向量,通过隐藏层(不使用激活函数的全连接层)将此向量映射到低维空间中,输出层则根据模型架构(CBOW或Skip-gram)来决定。

  • 训练目标是最小化实际输出和预期输出之间的差异,通常使用softmax函数进行分类任务。

案例讲解

假设我们有一个简单的句子:"the quick brown fox jumps over the lazy dog",并且我们选择Skip-gram模型进行词向量的训练。我们可以挑选“fox”作为输入词,上下文窗口大小为2:

  • 输入:"fox"

  • 预测的上下文:"quick"、"brown"、"jumps"、"over"

训练步骤:

  1. 对“fox”进行独热编码。

  2. 使用Word2Vec模型预测“fox”的上下文词。

  3. 通过调整模型权重来最小化预测误差,使得模型可以更准确地预测到“fox”的正确上下文。

通过大量的数据和迭代训练,每个单词的向量都会逐渐调整到能够准确反映它与其他词语的语义关系的位置。

这些向量之后可以用于各种机器学习模型和NLP应用,从而实现更复杂的语言处理任务。接下来大模型第三篇,我会讲解word2vec的神经网络训练代码,欢迎关注。

我将Python与AI技术录制为视频,已上线700多节课,还会持续更新,我本人答疑,助力提升你的AI与Python更全面,更好帮你找工作和兼职赚钱。想做这些事情的,可以长按下面二维码查看,想咨询或已报名联系我,gz113097485

faddaa980be0721630b45b8ef3dceb1f.png


http://www.ppmy.cn/news/1424587.html

相关文章

探索人工智能绘图的奇妙世界

探索人工智能绘图的奇妙世界 人工智能绘图的基本原理机器之美:AI绘图作品AI绘图对艺术创作的影响未来展望与挑战图书推荐👉AI绘画教程:Midjourney使用方法与技巧从入门到精通内容简介获取方式👉搜索之道:信息素养与终身…

电脑桌面便签软件哪个好?好用的电脑桌面便签

电脑作为我们日常工作的重要工具,承载着大量的任务和项目。当工作任务繁重时,如何在电脑桌面上高效管理这些任务就显得尤为重要。这时,选择一款优秀的桌面便签软件,无疑会给我们带来极大的便利。 一款好的桌面便签软件&#xff0…

Bilstm双向长短期神经网络多输入单输出回归分析

目录 背影 摘要 LSTM的基本定义 LSTM实现的步骤 BILSTM神经网络 Bilstm双向长短期神经网络多输入单输出回归分析 完整代码: Bilstm双向长短期神经网络多输入单输出回归分析.zip资源-CSDN文库 https://download.csdn.net/download/abc991835105/89087121 效果图 结果分析 展望 …

NSA发布《在数据支柱中推进零信任成熟度》报告

4月9日,美国国家安全局(NSA)发布了题为《在数据支柱中推进零信任成熟度》的报告,旨在于数据安全层面提供指导,以增强数据整体安全性并保护静态和传输中的数据。(如下图) 一、主要内容 报告中的建议侧重于将…

flutter知识点---三棵树

在Flutter开发领域中,提到“三棵树”这个概念,通常是指构成Flutter UI构建体系的三个核心组件树:Widget树、Element树和RenderObject树。这三棵树相互关联、协同工作,共同构成了Flutter灵活、高效、高性能的UI渲染机制。下面分别对…

C#值传递和引用传递,ref和out关键字,装箱和拆箱

C#值传递和引用传递 1.值传递和引用传递 值传递:值传递时,系统首先为被调用方法的形参分配内存空间,并将实参的值按位置一一对应复制给形参,被调用方法中形参得任何改变都不会影响到相应的实参。 引用传递时:系统不是…

机器视觉各类光源特点

1. 环形光源 提供不同照射角度和颜色组合突出物体的三维信息高密度LED阵列,高亮度多种紧凑设计,节省安装空间解决对角照射阴影问题可选配漫射板导光,光线均匀扩散 2. 背光源系列 高密度LED阵列面提供高强度背光照明突出物体的外形轮廓特征…

# 从浅入深 学习 SpringCloud 微服务架构(三)注册中心 Eureka(1)

从浅入深 学习 SpringCloud 微服务架构(三)注册中心 Eureka(1) 段子手168 1、微服务的注册中心 注册中心可以说是微服务架构中的”通讯录”,它记录了服务和服务地址的映射关系。 在分布式架构中服务会注册到这里&am…

修改taro-ui-vue3的tabs组件源码增加数字标签

需求:taro-ui-vue3的tabs组件上增加数字标记 步骤一:node_modules文件夹下找到taro-ui-vue3/lib/tabs/index.js 把173行的这一段替换成下面这段,然后写上样式 default: () > item.number ? [h(View, {class: at-tabs__item_in}, {defau…

如何在浏览器Web前端在线编辑PPT幻灯片?

有时候在项目中我们会遇到需要在网页在线打开并编辑PPT文档保存到本地或者服务器指定位置,猿大师办公助手可以很方便的调用本机Office实现在网页上编辑PPT幻灯片,效果与本机Office打开PPT完全一样。 猿大师办公助手支持完整嵌入模式,也就是本…

新型物联网创新实践教学体系建设

新型物联网创新实践教学体系建设 一、设计背景 随着物联网技术的快速发展,物联网已成为当今科技创新的重要领域。为了培养能够紧跟物联网技术发展趋势的高素质人才,高校物联网专业教学急需构建一套创新实践教学体系。本毕业设计旨在探索和设计一套新型…

K8s中的控制器和资源对象是什么关系呢?

K8s中的控制器和资源对象是什么关系呢? Kubernetes(简称k8s)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。在Kubernetes中,控制器和资源对象是两个核心概念,它们共同构成了Kubern…

ChatGPT畅想:论文写作新境界

ChatGPT无限次数:点击直达 html ChatGPT畅想:论文写作新境界 作为一名拥有10年经验的CSDN网站原创文章优质创作者,我深知论文写作在科研领域的重要性。随着人工智能技术的发展,ChatGPT作为一款强大的语言模型,正在为论文写作带…

负载均衡的原理及算法

负载均衡(Load Balancing)是指在计算机网络中将工作负载(如请求、数据流量等)分配给多个计算资源(如服务器、网络连接等),以实现资源利用的均衡和性能优化。其原理和算法如下: 原理…

在Rust中使用ini配置文件

一、概述 INI文件是一种无固定标准格式的配置文件。它以简单的文字与简单的结构组成,常常使用在Windows操作系统上,许多程序也会采用INI文件作为配置文件使用。Windows操作系统后来以注册表的形式取代INI档。但是INI还是流传到现在。 rust-ini是一个在R…

一个文生视频MoneyPrinterTurbo项目解析

最近抖音剪映发布了图文生成视频功能,同时百家号也有这个功能,这个可以看做是一个开源的实现,一起看看它的原理吧~ 一句话提示词 大模型生成文案 百家号生成视频效果 MoneyPrinterTurbo生成视频效果 天空为什么是蓝色的? 天空…

CommunityToolkit.Mvvm笔记---AsyncRelayCommand

AsyncRelayCommand 是 CommunityToolkit.Mvvm 中的一个功能,专门设计用来处理异步操作。它是 RelayCommand 的一个变体,提供了对异步任务的支持,允许开发者在 MVVM(Model-View-ViewModel)模式中方便地实现异步命令。使…

华为OD-C卷-密码解密[100分]Python3+C语言-90%

题目描述 给定一段“密文”字符串 s,其中字符都是经过“密码本”映射的,现需要将“密文”解密并输出。 映射的规则(a ~ i)分别用(1 ~ 9)表示;(j ~ z)分别用("10*" ~ "26*")表示。 约束:映射始终唯一。 输入描述 “密文”字符串 输出描述 …

Hive进阶(4)----MapReduce的计算过程(赋图助君理解)

MapReduce的计算过程 MapReduce是一种编程模型和处理大规模数据集的方法。它通常用于分布式计算环境中,能够将数据处理任务分解成独立的部分,分配给多台计算机进行并行处理。这个模型由Google提出,并在开源领域中得到了广泛的应用和实现。Map…

uniapp 当前系统没有安装苹果根证书,是否打开证书目录(打开后依次安装证书

当你遇到这类问题时,说明你也极其的困惑!这就是为啥大抵国内这些货色搞的东西总是不尽人意!连开发者生态都搞不好,就急着吹嘘。 这是官方给的技术说明方案: 恭喜你,当你按照这个搞之后,你的问题…