每月分享 202005 Newsletter

Newsletter

从去年开始给我一种 RSS 复兴的感觉,这个月尝试使用 Newsletter。对于创作者来说,RSS 不仅无法统计数据,也很难开展会员模式。Newsletter 通过邮箱订阅的的手段,完美解决这两个问题,国外开始有一站式的解决方案,可能几个月之后也会在国内火起来。推介一些自己订阅一些邮件组给大家。

阅读

  • How to take smart notes,方法及工具 - 少数派:Zettelkasten 这种做笔记方法慢慢开始要在国内流行起来,自己已经关注差不多超过半年的时间,接下来也在计划写一篇相关的博客文章。
  • Human Programming Interface 简单看来一下,利用 py 包和 Emacs 管理所有相关的个人数据,挺疯狂的。
  • 上古论坛差不多十年前的帖子, 我的千书阅读计划 - 意欲蔓延 - Hi!PDA Hi!PDA fatdragoncat 通过阅读成为一名自由职业者。帖子中介绍大量篇幅介绍如何高效阅读、锻炼、自我管理等等。在印象笔记中找到几年前自己写的笔记,现在重新整理一下相关的内容,并分享给大家。
  • AndyMatuschak - Making sense of Design Unbound vs. prior theories of collaborative design work - Twitch [[Evergreen notes]]的创始人公开展示写作的过程。通过这个视频可以发现他使用的笔记软件是 [[Bear]],看起来 Reference 和 Backlink 都是手动输入的,不过这样也符合 [[Zettelkasten]] 的原则。只是 [[Roam Research]] 这样的软件让我们变懒。
  • 莫言获得诺贝尔文学奖发表的演讲中有一个故事:到了荒滩上,我把牛羊放开,让它们自己吃草。蓝天如海,草地一望无际,周围看不到一个人影,没有人的声音,只有鸟儿在天上鸣叫。我感到很孤独,很寂寞,心里空空荡荡。有时候,我躺在草地上,望着天上懒洋洋地飘动着的白云,脑海里便浮现出许多莫名其妙的幻象。我们那地方流传着许多狐狸变成美女的故事,我幻想着能有一个狐狸变成美女与我来作伴放牛,但她始终没有出现。但有一次,一只火红色的狐狸从我面前的草丛中跳出来时,我被吓得一屁股蹲在地上。狐狸跑没了踪影,我还在那里颤抖。有时候我会蹲在牛的身旁,看着湛蓝的牛眼和牛眼中的我的倒影。有时候我会模仿着鸟儿的叫声试图与天上的鸟儿对话,有时候我会对一棵树诉说心声。但鸟儿不理我,树也不理我。许多年后,当我成为一个小说家,当年的许多幻想,都被我写进了小说。很多人夸我想象力丰富,有一些文学爱好者,希望我能告诉他们培养想象力的秘诀,对此,我只能报以苦笑。

机器学习

  • 谈谈推荐系统中的用户行为序列建模 - 知乎 一篇关于用户行为序列建模的文章,基本上常用的方法都介绍了。
    • 和上一次 "从谷歌到阿里,谈谈工业界推荐系统多目标预估的两种范式 - 知乎[[机器学习实践]][[MTL]]" 属于同一个作者
    • 目前主流推荐系统框架 [[Deep Neural Networks for YouTube Recommendations]] 中的 Matching 和 Ranking。另外可能还有规则模块。
    • pooling-based architecture 范式,用户行为是无序集合,使用 sum/max pooling 或各种 attention
      • [[Deep Neural Networks for YouTube Recommendations]] 中将用户观看过的视频序列取到 embedding 后,做一个 mean pooling 作为用户历史兴趣的表达
      • Ranking 阶段:[[DIN]] target item 和行为序列的 item 做一个 attention,得到一个 weight,然后加权求和。
      • 结合 [[Transformer]] 做 self-attention 并行的建模长序列依赖,除去用户行为序列中的噪声:[[Behavior Sequence Transformer for E-commerce Recommendation in Alibaba]]
    • sequential-modeling architecture 范式,用户行为当成一个具有时间属性的序列,使用 RNN、LSTM、GRU 等
    • 上面两种方法都是将用户行为经过 pooling/attention/rnn 的处理,聚合成用户行为序列的 embedding,再和其他的特征 concat 在一起,经过 mlp 后接 sigmod/softmax
    • 抽取聚类出用户多峰兴趣,Capsule
      • 阿里 [[MIND]] 胶囊网络
    • 辅助损失函数
      • [[DIEN]] 兴趣提取和兴趣演化,以最后一个 hidden state 做为用户兴趣的表达。兴趣提取模块,使用隐状态和下一件商品预测做二分类。不加入辅助loss,GRU 的隐变量完全受限于最终点击的 label,加入后能约束 GRU 每个隐状态表示其本身的兴趣。
    • 提升用户序列长度,可以带来可观的 auc 提升。[[MIMN]]
  • Applying Deep Learning To Airbnb Search:一篇关于从 GBDT 模型迁移到深度模型的工业实践记录 paper。对于我这种没有经历过这种技术迭代的人来说,工业级的深度模型上线比想象中的要困难。作者们针对自己遇到的比如 listing embedding 训练不充分、如何判断 feature 的重要性等问题设计实验去验证以及给出解释。严谨的精神值得吾辈学习。

其他

出于对 Roam Research 开发者的不放心,已将全部文档迁移到 Obsidian。目前还在探索新的工作流,5 月分享不可避免产生拖延。另外还在寻找一种建立 Digital Garden 的方法。