博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
利用python实现词向量训练----
阅读量:6928 次
发布时间:2019-06-27

本文共 1954 字,大约阅读时间需要 6 分钟。

python的一堆工具包

https://www.lfd.uci.edu/~gohlke/pythonlibs/

------------------------------------------------------------------------

貌似遇见了自然语言处理的行家

我们参考以下的链接

https://www.jianshu.com/u/c5df9e229a67

https://www.jianshu.com/p/05800a28c5e4

----------------------------------------------------------------------------

1.需要下载维基百科的中文语料 1.2个G 下载很慢  下载链接如下  

2.下载完 需要用process_wiki.py脚本来解析xml文件

3.将这两个文件(下载的语料和process_wiki.py)放在同一个目录下,

执行:python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text:执行结果类似(当时没有截图,借用下):

4.解析完毕后需要(1)繁简转化(2)统一为UTF-8编码(3)分词

5.然后开始训练需要文件:train_word2vec_model.py

执行:python train_word2vec_model.py wiki.zh.text wiki.zh.text.model wiki.zh.text.vector

----------------------------------------------维基语料下载太慢  直接利用https://blog.csdn.net/thriving_fcl/article/details/51406780 下载了链接中的原始语料 和训练语料

语料

 原始语料

训练语料

首先:

我们需要安装一些依赖库,有numpy、scipy以及gensim,安装gensim依赖于scipy,安装scipy依赖于numpy。

1.安装pip ,如果安装的是python3.4版本以上的,就不需要重新安装。自带有pip

2.安装numpy 参见程序:https://blog.csdn.net/Katrina_ALi/article/details/64922107

wheel已经安装完毕   https://www.cnblogs.com/cysblog/p/7675713.html

安装numpy的时候一直说版本不对应,出现以下错误

查询资料后才知道下载页面numpy的参数表示:

cp3.6是python3.6版本,win_amd64是window系统64位。需要注意numpy是要下载有mkl的版本的,因为scipy安装需要在numpy+mkl才能成功。 安装。首先因为scipy安装需要在numpy+mkl才能成功。所以需要先安装numpy+mkl

a. 前面的表示numpy的版本号,一般选择最新版本就好

b. 中间的cp35,表示的就是Python 3.5.*
c. 最后选择和自己电脑位数匹配的版本
3. 将下载后的numpy安装包放到任意文件夹
4. 打开控制台,进入到保存numpy安装包的文件夹
5. 输入安装指令

 经测试,终于安装成功。

安装numpy之后安装scipy,仍然使用命令pip install scipy安装完scipy以后,接下来使用命令 pip install gensim 即可。

带所有的环境安装成功以后。开始下载语料太慢,我直接用了上面说的训练语料 别人已经处理好的 开始训练词向量

训练文件执行到上图所示的部分,是否训练成功????

执行到此 表示训练成功。

-----------------------待分析

简书上也有详细步骤https://www.jianshu.com/p/05800a28c5e4

https://blog.csdn.net/grafx/article/details/78575850

https://blog.csdn.net/thriving_fcl/article/details/51406780

https://www.jianshu.com/p/98d84854f7a3

https://www.cnblogs.com/helloever/p/5280891.html

https://www.jianshu.com/p/05800a28c5e4

 

转载于:https://www.cnblogs.com/maowuyu-xb/p/9481243.html

你可能感兴趣的文章
解决IE8不支持html5标签最好解决办法?
查看>>
Log4j各级别日志重复打印的问题
查看>>
flask文件上传
查看>>
[Python3网络爬虫开发实战] 7-动态渲染页面爬取-2-Splash的使用
查看>>
BSYAlertBox
查看>>
Camera开发系列之四-使用MediaMuxer封装编码后的音视频到mp4容器
查看>>
NEO 客户端插件
查看>>
React as a UI Runtime(二、React元素和入口)
查看>>
Spring校验@RequestParams和@PathVariables参数
查看>>
安装lnmp 时如何修改数据库数据存储地址及默认访问地址
查看>>
React学习笔记2---生命周期
查看>>
NGINX 4xx 5xx 状态码构造
查看>>
利用 Webpack 实现小程序多项目管理
查看>>
Jenkins + Maven + SonarQube 构建代码质量检测平台
查看>>
微软宣布提供Azure Cognitive Services容器支持
查看>>
Spotify希望自己擅于失败
查看>>
RxJava系列七(最佳实践)
查看>>
微软Windows Community Toolkit一览
查看>>
前端资源系列(5)-JavaScript奇味探索
查看>>
pcl常用小知识
查看>>