NLP 教程
其他教程
命名实体识别(NER)
命名实体识别(Named Entity Recognition,简称 NER)是自然语言处理(NLP)中的一项基础任务,它的目标是识别文本中具有特定意义的实体,并将其分类到预定义的类别中。 核心概念 命名实体:文本中表示特定对象的专有名词 实体类别:常见类型包括人名、地名、组织机构名、时间、日期、货币等 类比理解 把NER想象成文本中的"高亮标记"工具—&mdash...
阅读全文NLP 文本相似度计算
文本相似度计算是自然语言处理(NLP)中的一项基础任务,旨在量化两个文本片段之间的相似程度。这项技术在信息检索、问答系统、抄袭检测、推荐系统等多个领域都有广泛应用。 核心概念 语义相似度:衡量文本在含义上的接近程度 字面相似度:衡量文本在表面词汇上的重叠程度 向量空间模型:将文本表示为高维空间中的向量 距离度量:计算向量之间的距离或相似度 常用文本相似度计算方法 1. 基于词频的方法 词袋模型(B...
阅读全文循环神经网络(RNN)
循环神经网络(Recurrent Neural Network,RNN) 是一种专门处理序列数据(如文本、语音、时间序列)的神经网络。 与传统的前馈神经网络不同,RNN 具有"记忆"能力,能够保存之前步骤的信息。 循环神经网络能够利用前一步的隐藏状态(Hidden State)来影响当前步骤的输出,从而捕捉序列中的时序依赖关系。 RNN 的核心思想 RNN 的核心在于循环连接(...
阅读全文Transformer 架构
Transformer 架构是一种基于自注意力机制(Self-Attention)的深度学习模型,由 Google 团队在 2017 年的论文《Attention Is All You Need》中首次提出。 Transformer 彻底改变了自然语言处理(NLP)领域,并成为现代大语言模型(如GPT、BERT等)的核心基础。 Transformer 与循环神经网络(RNN)类似,旨在处理自然语言...
阅读全文Python NLP 生态
自然语言处理(Natural Language Processing, NLP)是人工智能领域的重要分支,Python 凭借其丰富的工具库成为了 NLP 开发的首选语言。 本文将全面介绍 Python NLP 生态中的核心工具包,包括: NLTK - 学术研究首选的自然语言处理工具包 spaCy - 工业级高效 NLP 框架 jieba - 最流行的中文分词工具 Ha...
阅读全文深度学习框架全面解析:从TensorFlow到模型部署
深度学习框架概述 深度学习框架是现代人工智能开发的基石,它们提供了一系列工具和接口,让开发者能够高效地构建、训练和部署神经网络模型。主流的深度学习框架包括: TensorFlow/Keras:Google开发的工业级框架,适合生产环境 PyTorch:Facebook主导的研究型框架,动态计算图特性突出 Transformers 库:HuggingFace 推出的自然语言处理专用框架 Tensor...
阅读全文