十年了 😄 最近准备做些总结 欢迎提问!!

2017-03-26 23:50:23 +08:00
 ijustdo
睡不着 好多年没总结了 貌似 干过的挺多 准备总结下
想到的第一块 要不从搜索引擎 和商品搜索 商品个性化 推荐 用户兴趣爱好分析建模开始

当然大家也可以下面提需要知道的知识 我干过的也可以总结下 😄

相关总结会慢慢填坑 发个预告先
4627 次点击
所在节点    随想
47 条回复
ijustdo
2017-03-27 11:22:10 +08:00
在写点撒 还没想好 大家可以提供方向, 这么多年没好好写过文档,没咋总结,一下没头绪。。。

或者你们想知道撒 技术方面的。。。
ijustdo
2017-03-27 11:35:43 +08:00
在来个文本自动分类的呢


文本分类

如果转载 标明出去呢 MIT 协议 吧

----------------------------

+ 初期公司做垂直搜索,所以怎么区分行业内的文章和非行业的文章是个问题

+ 我们的做法但是基本达到 90%或者更高准确度,取决于我们的阀值

+ 具体做法呢
1. 收集行业内所有的专业词 并分类, 现在更简单了 国家图书馆可以注册账号查各种资料了 当时我们可以人工 + 行业内专家
2. 构建分词服务器 使用这些专业词分类
3. 构建判断标准
a. 专业词条在文章中的密度到多少 百分比
b. 所有命中关键词的分类投票概率 得出文章的类别概率
4. 这里我们可以得到 分类和关键词了 哈哈
5. 初期人工选择行业内专业文章对结果不停调整
6. 简单 粗暴 有效

+ 再来说说可以改经的地方
1. 这个时候暴力的机器学习里面 TDIDF 和 kmeans 实际上可以用上
2. 文本相似度也可以用上
3. 这些算法很大成都上在于去掉干扰数据和提高运行效率上

+ 闲下来的时候 kmeans 测试的代码呢 https://github.com/ghostwwl/machine_learning/blob/master/%E6%96%87%E6%9C%AC%E8%81%9A%E7%B1%BB.py
lanoche
2017-03-27 11:39:56 +08:00
跳过几次槽,分别在什么阶段选择跳。是怎么安排工作与自己学习时间的。
ijustdo
2017-03-27 11:46:00 +08:00
给一个作文本里面我比较喜欢的库呢

其实一直想做基于语义的分词 虽然这玩意在很多很多年前就有 但是也不是想做就那么容易出来的

下面这个是测试哈工大语言云 他们开放出来的库 其实原始库是 cpp 的 但是他们也出了 py 的
https://github.com/ghostwwl/machine_learning/blob/master/ltp.py

其实分词并非简单的分词

- 实际用途
- 在用户的输入或者搜索的时候 基本都是用户的条件变成词条去匹配的
- 很多时候可以优化 比喻输入的包含类别名 或专业词条
- 基于语义有好处就是 更好的猜猜用户的搜索意图 或者需求

- 搜索引擎搜索过程中的 xx
- 数据库搜索会有注入
- 搜索引擎也有脆弱的地方
- 他会把输入初始语句分词去倒排索引查
- 如果没有限制输入最大长度 我一堆并发给你搜索口 post 大文章, 你会发现搜索服务器 cpu 很 happy



上面看到问跳过多少次 不好意思 没有跳过 哈哈
以前年轻 一直认为 最痛苦的时候 就是离成功最近的时候 好多时候咬牙过来了 就长进了
ijustdo
2017-03-27 12:12:26 +08:00
再说一些 关于带人方面的话题呢

刚好在一个群里 哈哈 应该是 2006 年的群 人数不多 也不会加不认识的人

一哥们他们上市应该。。。 出来搞了个。。。。 聊起带人的话题

别人的发言我就不截取 就截取我发的吧
这的感谢我的老大 当初就是那样把我带出来的


应届生如果肯定 不是太笨 应该可以带出来 但是踩坑可定避免不了的
像这种 我一般都是 给东西 让他自己写 然后 codereview 甚至让他搬个椅子坐旁边 看着我重写

这样带人很累 但是 好处是 带出来的 基本代码风格和思路 很容易一致

初期基本就别指望太能做太大的东西 或出东西 基本得带的人抗
慢慢开始 给项目的部分小功能

其实应届出来 因为代码或者撒的 都还没形成自己的风格和 作风 这个时候手把手带 对谁都好 对公司也好
如果是一来就自己搞自己的让出结果 很多个新人容易受打击 承受力好的还好 不好的 容易跳来跳去

找应届毕业生 不一定非要名校 我见过很多非名校的 就是因为非名校 他认为起点就比别人地 自己很努力

实习生初期可以大压力 扛得住没走的 再放缓节奏培养 筛一下

这样的好处是 免得耗费彼此的时间 耽误公司也耽误别人
ijustdo
2017-03-27 12:19:16 +08:00
关于开发语言问题, 这个问题我们这里初期一直保持开放态度

只要结果 什么语言都可以

其实到一定的年纪 开发语言你会觉得不是那么重要了

好多时候 合适的语言用在合适的地方 考虑开发周期成本 。。。。

不管语言写的不好一样出乱代码

写的好效率也并不一定低

这个 php 面向对象的 是不是可以垫付好多写 php 老码农的认知
https://github.com/bshaffer/oauth2-server-php/blob/develop/src/OAuth2/Controller/TokenController.php



实在不知道 写撒了 歇歇
ijustdo
2017-03-27 12:57:18 +08:00
要不来个好玩的 我这里有一个基于博士论文实现的 资讯文本摘要

帖咨询链接 我出跑的结果 跟大家 pk 赢过我的 我公开源代码 哈哈
panlatent
2017-03-27 13:05:52 +08:00
@ijustdo

'这个 php 面向对象的 是不是可以垫付好多写 php 老码农的认知 '

那个,这段 PHP 代码有啥不一样的吗?是指区别于 wordpress discuz 和类似的面向过程风格为主的么?
codeyung
2017-03-27 13:33:03 +08:00
占坑
ijustdo
2017-03-27 13:34:43 +08:00
@panlatent 你把他整个项目代码读一遍呢 基本很面向对象呢
panlatent
2017-03-27 13:38:35 +08:00
@ijustdo 现在比较新的 PHP 开源项目项目基本都这么写吧 。 = =
SourceMan
2017-03-27 13:40:06 +08:00
10 年还是程序员吗,有没有打算转管理岗,或者现在已经是管理岗,那是打算继续往上做还是出来自己创业呢?
ijustdo
2017-03-27 13:43:52 +08:00
好了 panlatent 你赢了 我接触过好多老的写 php 还是函数式的 比较多 他们好多不太命名空间 还有 你看银联在线老的 php 接口 甚至在 php5.3 以上的版本上都报错 呵呵


至于创业还是转管理 确实是个问题, 但是我希望一直做技术, 创业容易创利难 好的项目或许会去搞
blacklee
2017-03-27 13:44:35 +08:00
我 11 年了。两个问题:
1. 打算上班到几岁?
2. 不上班以后怎么度日?
panlatent
2017-03-27 13:47:45 +08:00
@ijustdo = = 当然是因为您经验多。

因为我一直在鼓捣 php 开源项目 虽然没人用 但是基本上越写越像 java... 现在 php 代码真的是越来越规范了, PSR 规范和草案加起来快到 20 个了 Symfony Laravel Yii 这些都是很好的范本,组件化, Composer ,我觉得这才是现代的 PHP 。
ijustdo
2017-03-27 14:09:44 +08:00
你要知道 yii 的作者现在 写 go 了 我上面列举的那个例子是 那种及简的思路及代码风格

我从没说我代码写的好 我也不认为我代码写的好 哈哈 你说哪个语言好 我都同意 不做表态

有时候不是只有代码 还有代码 结构和思路

1. 上班到几岁 这是个问题 钱永远页赚不够 也不会嫌多 (现阶段我没钱, 哈哈)
2. 不上班干什么 着看心态了, 说不都学点金融投资理财, 或者做点小生意, 或者去培训机构, 或者碰到好的机会和合得来的人并且碰到好的项目 自己创业
ijustdo
2017-03-27 14:11:00 +08:00
错了 不记得是 yii 还是 yaf 的作者 写 go 了 github 上找得到 懒得找了 就当我放了个屁
ijustdo
2017-03-27 14:29:31 +08:00
看到上面 当初踏入程序员的路是从那一块开始学的 呵呵
小学五六年纪 堂哥他们加退休的电脑给我了 然后 basic 然后 c 然后 大学知道了 python

一年暑假去他家 接触了 linux 应该 2000 年之前 应该是 lilo 引导的 给我讲一堆 不过现在全都不记得

然后折腾 linux 瞎玩吧 解除计算机做开发可能受堂哥他们影响较多
elviscai
2017-03-27 14:30:34 +08:00
我想问问 LZ 遇过哪些坑——排个 Top3 、 Top5 什么的?😊
ijustdo
2017-03-27 14:34:31 +08:00
有什么事令你后悔过?(技术路上的、非技术路上的)

这个怎么说呢 技术路上就是当时 公司转 web 开发的时候 没有坚持用 python 而是直接 php 了
不过那个时候 python web 框架基本没有或者很少 我们内部用的是自己写的

也许是当时 python 的 web 框架还不太成熟吧 多是 python cgi 模块来
也没有太大后悔吧 只是多了门手艺 php

非技术路上就是 买房买晚了 你懂的 差价兼职不是一般的大 虽然现在翻倍+ 了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/350486

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX