内容来自【顾先生聊数据】的 PSM倾向得分匹配法【上篇:理论篇】[https://zhuanlan.zhihu.com/p/444509665]、PSM倾向得分匹配法【下篇:...
内容来自【顾先生聊数据】的 PSM倾向得分匹配法【上篇:理论篇】[https://zhuanlan.zhihu.com/p/444509665]、PSM倾向得分匹配法【下篇:...
一、去重 df.drop_duplicates('item_name') 去重后计数 方法一: df.drop_duplicates('item_name').count()...
DSSM 的原理很简单,通过搜索引擎里 Query 和 Title 的海量的点击曝光日志,用 DNN 把 Query 和 Title 表达为低纬语义向量,并通过 cosine...
作者:hooly微信公众号:一口袋星光 购物篮分析 利用关联分析的方法可以发现联系如关联规则或频繁项集。 二元表示 每一行对应一个事务,每列对应一个项,项用二元变量表示 项在...
tensorflow是一个“符号式编程框架”,所有的计算步骤(包括数据定义等等)都要在一个graph中事先定义好,然后通过session来执行这个graph(全部或部分),得...
一、Dataframe写入Elasticsearch 1.1 依赖 根据实际使用的spark版本及ES版本选择合适的包,在提交任务时指定--packages参数即可。 exa...
最近由于换工作,开始交接工作。整理以前的工作内容,由于组内就我一个在做go和大数据。 所以开发没有规划,当时是怎么快怎么来。go也是使用最传统的go path的方式管理的。都...
explode和inline函数可以将单列扩展成多列或者多行。1.explode将单列扩展成多行 explode的参数可以是array还可以是map,如果是map,将生成2个...
Hive中Map类型的操作 map的结构 创建map的表create table temp_db.map_test( id int comment "源数据主键id" ...
最近在淘宝上浏览了很多,也经常刷到淘宝【猜你喜欢】的feeds推荐,想以这个模块来聊一聊关于我对推荐系统的一些想法~ 淘宝【猜你喜欢】模块分析: 模块入口:购物车页面底部、订...
今天来整理下如何在读CSV的时候正确处理列名。 csv文件自带列标题原始数据是有列标的,用excel打开是这样的:Screen Shot 2018-08-30 at 8.20...
做模型时常常是特征越多模型准确率越高(至少在训练集上)。但过多的特征又增加了数据收集、处理、存储的工作量,以及模型的复杂度。 在保证模型质量的前提下,我们希望尽量少地使用特征...
在有偏CTR预估中我们抛出了CTR预估有偏的问题,当pCTR的绝对值有意义的时候(比如涉及第三方竞价的广告竞拍),需要用一定的手段对其校准。 而引起估计值失真的情况,不单单是...
https 和 SSH 的区别: 1、前者可以随意克隆github上的项目,而不管是谁的;而后者则是你必须是你要克隆的项目的拥有者或管理员,且需要先添加 SSH key ,否...
使用命令直接设定socks或者http代理即可。 socks代理: git config --global http.proxy 'socks5://127.0.0.1:10...
环境: 操作系统:windows 7 开发环境: Homestead 软件:Git、Sublime Text 3 在使用 Git 进行提交操作中,常见需要把 CRLF 转换成...
go map 比较深入的使用方案 参考blog: https://blog.golang.org/go-maps-in-action 现在基本上所有的编程语言都有自带的map...
Golang 插件化开发 Golang官方提供了plugin模块,该模块可以支持插件开发. 目前很多思路都是在开发过程中支持插件话,当主体程序写完后,不能够临时绑定插件.但是...
01-001 这是我的第一篇日常记录,未来打算把自己折腾的一些事情,都记录下来,方便自己复盘。同时也希望能帮助到一些有需要的小伙伴。欢迎小伙伴们关注! 1. 开着代理的情况下...
ALS是alternating least squares的缩写 , 意为交替最小二乘法;而ALS-WR是alternating-least-squares with wei...