hadoop streaming直接读取hive的orc文件

hadoop streaming直接读取hive的orc文件

我们为了节省存储,对于hive表通常会使用orc文件格式。那我们怎么直接用hadoop streaming读取呢?通过show create table可以看到这个orc的格式为org.apache.hadoop.hive.ql.io.orc.OrcInputFormat,那我们直接把hadoop streaming的-inputformat设置为该格式……

pyspark注册临时表和函数

pyspark注册临时表和函数

增加import:from pyspark.sql import SparkSessionfrom pyspark.sql.functions import udffrom pyspark.sql.types import *注册临时表df.registerTempTable(“xxtable”)这样xxtable就可以在……

使用双向lstm+attention进行情感分类

使用双向lstm+attention进行情感分类

情感分析(sentiment analysis)是近年来国内外研究的热点,其任务是帮助用户快速获取、整理和分析相关评价信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理。情感分类是指根据文本所表达的含义和情感信息将文本划分成褒扬的或贬义的两种或几种类型,是对文本作者倾向性和观点、态度的划分,因此有时也称倾向性分析(opinion analysis)……

cygwin中解决fork出错的问题

cygwin中解决fork出错的问题

cygwin下运行git发现fork出错,主要是dll的指针不对,这样需要rebase才能解决,具体解决办法如下:退出所有的cygwin进程,包括已经注册成服务的crontab service然后打开命令提示符执行:C:\cygwin64\bin\dash.exe -c ‘/usr/bin/rebaseall -v’(dash.……

给定一个数字n,输出包含n对括号的所有合法字符串

给定一个数字n,输出包含n对括号的所有合法字符串

所谓n对括号的所有合法字符串即是指:括号能够被合法关闭,比如“()”是一个合法的括号字符串,而“)(”是一个非法的括号字符串。首先我们看怎么样的括号字符串是合法的呢?很容易观察到规律,就是从前到后扫描,右括号的数永远不大于左括号的数,到最后左括号的数和右括号的数是相等的。要考虑输出n对所有的合法的括号字符串,那我们可以用分裂的思路,一个字符串往后加:……

cygwin64上源码编译python2.7.5

cygwin64上源码编译python2.7.5

cygwin64上源码编译python2.7.5,编译脚本如下:#!/usr/bin/env shset -exexport CXX=/usr/bin/g++export CC=/usr/bin/gccPREFIX=/home/rainforest/opt/python_2.7.15./configure –enable-unicod……

用tcmalloc编译python3.7

用tcmalloc编译python3.7

想提升一下python3.7的解释器的内存分配效率,所以想到链接tcmalloc来提升性能,其中遇到一个问题一直编译不过,记录一下解决办法:1、./configure –prefix=some place来生成Makefile2、拷贝libtcmall.a到编译目录2、修改Makefile,在LIBS的地方加上-L. –ltcmall -lstd……

快速基于elasticsearch搭建一个中文文本检索系统

快速基于elasticsearch搭建一个中文文本检索系统

elasticsearch是一个开源的文本检索系统,调研文本检索时可以基于elasticsearch快速搭建一个检索系统。 1、安装好jdk,可以用jumbo安装2、下载配置好的elasticsearch包:elasticsearch-2.3.5.tar这个安装包里面已经配置好了分词插件,可以很简单的支持中文检索3、解压包,并调用star……

使用python实现简单的http代理

使用python实现简单的http代理

工作中需要把一个json的结果转化成html页面展示出来,想到的办法是做一个代理服务器,从目标站点上下载json,解析渲染成html后展示。查了一下,用python来做这个事情比较简单:入口代码直接用的python提供的SimpleHTTPserver自己实现Hander具体代码请参考github地址Githup地址:https://gi……

PaddlePaddle multitask

PaddlePaddle multitask

PaddlePaddle是百度的深度学习平台,今天我们来介绍怎么在PaddlePaddle上面进行多任务(multitask)的训练。其实很简单,只要在训练的时候,传入多个cost,这样paddlepaddle在训练的时候会对每个cost同时进行参数更新。 具体我们来看个例子:网络结构 训练脚本 训练……