由于工作需要用到对中文进行分词,但碍于中文不同英文,英文只有26个字母组成,中文汉字常见的就有几千个,各种不同形式的组合,而且还有些生僻字,所以中文分词这块一起比较复杂,需要大量的语料库做训练.中科院的ICTCLAS,哈工大的ltp,东北大学的NIU Parser是学术界著名的中文分词器,但由于不开源,想要更好的二次开始很困难,jieba分词是python写成的一个比较有名的中文分词开源库,比较强大,其github地址**在这里**
python并发编程二三事(二)
年前接到一个小活,有一阶段是需要处理某一文件夹下的CSV文本文件,起初文件量不大,用python写了个小脚本批量串行处理,后来想想估计后期还有这样的需求,如果文件量较大的话,再使用单线程时间就会比较长了,所以周末改写了个并发脚本,所用时间节省也是之前的1/2(限于笔记本多进程切换消耗资源,理论应该还更短),还是比较给力,下面就总结下python的并发那点事.
有这样一句话:”Python下多线程是鸡肋,推荐使用多进程“,但是为什么这么说呢?要了解多线程多进程之前,首先要了解python的GIL.
oracle数据导入导出工具sqluldr2/sqlldr
场景概述:
场景:
oracle中有一条大表(物品编码表wpbm),该表中存放了很多种物品信息,大约有4亿条数据,其中最重要的两个字段为wpmc(物品名称),spbm(商品编码),其中某一物品可能对应多个商品编码,如何根据这两个字段对某一物品的各个商品编码计数?
再见2016,2017再见
再见2016
今天一睁眼,猛然发现,今天已是2016的最后一天,按着一如既往的屌丝心态,是时候给自己开个一年一度的总结大会.
回想这一年,其实过的磕磕碰碰,很多本在意料之中的事却朝着相反的轨道行驶,
本以为凭我的力量是可以把它拉回正轨,但偏偏讽刺的是,很多时候"我以为"
这三个字让我跌了一次又一次.
真的,别那么多我以为.
zabbix学习(利用python实现对oracle实时监控)
Pyora介绍
首先要介绍下:cx_Oracle ,这是一个使用 python 开发的 python连接Oracle数据库的驱动,有了这个驱动,python 就可以与Oracle 交互了
Pyora 就是利用 cx_Oracle 完成与Oracle的连接, 然后利用 sql 来获取 Oracle 数据库的状态,达到监控目的的
zabbix学习(zabbix-agentd安装)
zabbix学习(zabbix-server安装)
zabbix学习(zabbix介绍)
zabbix介绍
引自网络: zabbix(音同 zæbix)是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案,zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。
CentOS 6.x上为Docker容器配置物理网段的静态IP
虚拟机安装centos6.5(ip范围从192.168.150.130-255,虚拟机网关192.168.150.2)
实验步骤:
0.停止docker:service docker stop
1.安装brctlyum install bridge-utils